2026년 4월 5일연구

주요 경쟁사 전체를 대상으로 한 TTS 블라인드 테스트 결과 공개

Fish Audio는 10일간 실제 운영 환경의 트래픽을 대상으로 Fish Audio S2 Pro 및 S1을 ElevenLabs, Inworld, MiniMax와 비교하는 블라인드 A/B 테스트를 진행했습니다. 오디오를 생성한 공급업체가 어디인지 모르는 실제 사용자들로부터 5,000개 이상의 선호도 쌍을 수집했습니다.

요약: 결과

Fish Audio S2 Pro가 전체 1위를 차지했습니다. Bradley-Terry 점수는 3.07로, 차순위 모델의 약 1.7배에 달하는 점수입니다. 이전 모델인 Fish Audio S1(BT 1.86) 또한 타사 공급업체들의 합산 성적을 모두 앞질렀습니다.

전체 BT 점수

순위	모델	BT 점수	승률	샘플 수
1	Fish Audio S2 Pro	3.07	65.7%	4,573
2	Fish Audio S1	1.86	41.0%	3,560
3	ElevenLabs V3	1.80	40.6%	766
4	ElevenLabs Multilingual V2	1.35	36.2%	359
5	ElevenLabs 2.5 Flash	1.00	29.8%	364
6	Inworld TTS 1.5 Max	0.59	20.1%	373
7	MiniMax Speech 2.8 HD	0.12	5.0%	201

주요 일대일 대결 결과:

Fish S2 Pro는 ElevenLabs V3를 **60% 대 40%**로 이겼습니다 (581쌍)
Fish S2 Pro는 Inworld를 **80% 대 20%**로 이겼습니다 (261쌍)
Fish S2 Pro는 MiniMax를 **95% 대 5%**로 이겼습니다 (142쌍)
Fish S1은 ElevenLabs V3를 **64% 대 36%**로 이겼습니다 (150쌍)

일대일 승률 히트맵

이 테스트를 진행한 이유

전통적인 지표의 문제점

**MOS (Mean Opinion Score)**는 여전히 TTS 평가의 사실상 표준이지만, 심각한 결함이 있습니다. 샘플 길이, 청취자 인구 통계, 재생 환경, 평가 지침 등 테스트 조건이 공개되는 경우가 거의 없어 논문 간의 비교가 무의미합니다. 한편, WER/CER(단어/문자 오류율)을 최적화 목표로 삼는 것은 오히려 역효과를 낼 수 있습니다. WER을 너무 낮추려고 하면 모델이 부자연스럽고 기계적인 음성을 내뱉게 되어, 명료도를 위해 자연스러움과 운율을 희생하게 됩니다. 실제 사람처럼 가끔 중얼거리는 모델이 모든 음절을 완벽하게 발음하는 모델보다 실제로 더 좋게 들릴 수 있습니다.

기존 리더보드의 문제점

TTS-Arena-V2나 Artificial Analysis와 같은 공개 리더보드는 대개 한 줄의 대화나 짧은 나레이션 같은 짧고 단순한 문장으로 모델을 평가합니다. 이는 긴 문장, 다중 화자 대화, 표현력이 풍부한 운율 태그, 다국어 텍스트 등 실제 TTS 사용 환경의 복잡성을 포착하지 못합니다.

방법론 외에도 무결성 문제가 있습니다. TTS-Arena-V2는 오디오 파일의 메타데이터에서 공급업체 정보가 드러나는 오디오 헤더 유출(audio header leaking) 문제가 있었으며, 이는 블라인드 평가의 전제를 무너뜨립니다. 또한, 특정 벤치마크 문장에만 모델을 최적화하거나, 선별된 체크포인트를 제출하거나, 조직적인 투표를 통해 순위를 부풀리는 **리더보드 조작(leaderboard gaming)**이 만연해 있다는 사실도 인지하고 있습니다. 이러한 리더보드들은 이제 신뢰할 수 있는 품질 신호라기보다는 마케팅 도구가 되어버렸습니다.

우리가 실제로 원했던 것

우리는 모델 개발 결정을 위해 신뢰할 수 있는 내부 보상 신호, 즉 "실제 사용자가 어떤 TTS 출력을 선호하는가?"에 대한 진정한 척도가 필요했습니다. 논문의 수치나 조작 가능한 리더보드의 순위가 아니라, 사용자가 실제 선택을 내리는 과정에서 발생하는 정직한 선호도 데이터의 지속적인 흐름이 필요했습니다.

그래서 우리는 실제 서비스 플랫폼에 블라인드 평가 파이프라인을 직접 구축했습니다.

실험 설계

블라인드 쌍체 비교

Fish Audio의 스튜디오는 모든 TTS 작업에 대해 두 가지 버전의 오디오를 나란히 사용자에게 제시합니다. 각 버전은 기본 Fish Audio 백엔드 대신 경쟁사 공급업체로 무작위로 라우팅될 확률이 독립적으로 **10%**씩 존재합니다. 텍스트, 참조 음성, UI가 모두 동일하므로 사용자는 어떤 업체가 어떤 오디오를 생성했는지 알 수 없습니다.

실험은 10일간(2026년 3월 26일~4월 5일) 진행되었으며, 71,000개 이상의 쌍으로 구성된 그룹을 수집했습니다. 그중 품질 기준을 충족하며 공급업체 간 비교가 포함된 데이터는 5,098개였습니다.

무엇을 "승리"로 간주하는가

우리는 주관적인 등급이 아닌 엄격한 행동 신호를 사용합니다.

사용자가 두 버전을 각각 최소 2회 이상 재생해야 함 — 실제로 두 버전을 비교했음을 확인
정확히 하나의 버전만 다운로드됨 — 해당 버전이 승자임

이러한 "청취 후 다운로드" 신호는 별점이나 강제 선택 설문조사보다 훨씬 더 신뢰할 수 있습니다. 사용자는 실제로 자신이 사용할 오디오에 대해 실질적인 결정을 내리는 것이기 때문입니다.

사용자 구성

실험 샘플은 **신규 사용자 약 70%**와 **재방문 사용자 30%**로 구성되었습니다. 이러한 구성은 Fish Audio에 약간의 편향을 줄 수 있지만(재방문 사용자는 이미 우리 플랫폼에 익숙함), 대다수 참여자로부터 진정한 첫인상 선호도를 포착할 수 있도록 보장합니다.

음성 선택

실험에는 플랫폼의 상위 500개 공개 음성을 사용했습니다. 각 음성은 사전에 타사 공급업체 시스템에 복제(클로닝)되어, 양쪽 모두에서 동일한 참조 음성을 사용할 수 있도록 했습니다. 음성 ID 매핑은 전용 JSON 맵 파일에서 관리되어 라우팅 자격의 단일 소스로 작동합니다.

테스트된 공급업체 및 모델

공급업체	모델	라우팅 대상
Fish Audio	S2 Pro (최신)	`fish:s2-pro`
Fish Audio	S1 (이전 세대)	`fish:s1`
ElevenLabs	V3	`elevenlabs:v3`
ElevenLabs	2.5 Flash	`elevenlabs:2.5-flash`
ElevenLabs	Multilingual V2	`elevenlabs:2-multilingual`
Inworld	TTS 1.5 Max	`inworld:inworld-tts-1.5-max`
MiniMax	Speech 2.8 HD	`minimax:speech-2.8-hd`

평가 범위 및 태그 지원

공급업체마다 지원하는 기능이 다릅니다. Fish Audio S2 Pro는 풍부한 운율 태그(예: [laughs], [sighs])와 다중 화자 콘텐츠를 위한 화자 태그(<|speaker:N|>)를 지원합니다. 실제 운영 트래픽에는 태그가 포함된 텍스트가 자연스럽게 포함되므로 이는 매우 중요합니다.

ElevenLabs V3는 가장 완벽한 평가를 받았습니다. 괄호 형태로 정규화된 임의의 태그를 지원하므로 콘텐츠에 관계없이 거의 모든 요청에 대해 자격을 갖췄습니다.
ElevenLabs 2.5 Flash 및 Multilingual V2 — 이 모델들에는 태그가 없는 일반 텍스트 요청만 보냈습니다.
Inworld — 일반 텍스트만 지원하며 mp3 출력 형식으로 제한되어 있어 대상 트래픽이 더욱 한정적이었습니다.
MiniMax — 추임새 태그((laughs), (sighs) 등)는 수용했지만 다른 유형의 태그는 거부했습니다. 지속적으로 낮은 선호도 결과로 인해 사용자 경험 저하를 막기 위해 실험을 **조기 중단(early-stopped)**했습니다.

라우팅 시스템은 현재 요청의 기능(언어, 태그, 형식, 다중 참조 음성)을 기준으로 각 대체 공급업체를 평가합니다. 지원되는 대안만 후보가 되며 가중치 랜덤 선택을 통해 하나가 선정됩니다. 유일한 후보가 Fish Audio 제품 간 비교(S1 대 S2 Pro)인 경우, 타사 데이터 수집을 우선시하기 위해 샘플링 확률을 기본 비율의 1/10로 줄였습니다.

소요 비용

이러한 실험에는 비용이 따릅니다. 타사 TTS API는 대규모 사용 시 비용이 많이 듭니다.

ElevenLabs: API 호출에 $1,500+ 지출
MiniMax: $330 지출 (성능 부진으로 조기 중단)
Inworld: $170 지출

ElevenLabs 청구 내역 Inworld 청구 내역 MiniMax 청구 내역

통계적 방법론

Bradley-Terry 모델

서로 다른 모델이 서로 다른 상대와 다른 빈도로 대결할 때 단순 승률은 오해의 소지가 있을 수 있습니다. Bradley-Terry 모델은 쌍체 비교 데이터로부터 글로벌 강도 점수를 계산하여 이 문제를 해결합니다. 두 모델 간의 예측된 승률이 관찰된 데이터와 일치하도록 각 모델의 잠재적 "강도" 매개변수를 반복적으로 추정합니다.

BT 점수가 $p_i$ 와 $p_j$ 인 두 모델 $i$ 와 $j$ 에 대해:

$P(\text{i가 j를 이길 확률}) = \frac{p_i}{p_i + p_j}$

우리의 구현은 최대 500회 반복하며 수렴 허용 오차는 $10^{-9}$ 이고, 각 단계에서 기하 평균을 사용하여 점수를 정규화합니다.

신뢰 구간

선호도 쌍 데이터의 200회 리샘플링을 통해 계산된 95% 부트스트랩 신뢰 구간을 보고합니다. 각 리샘플링은 원래 $n$ 개 쌍에서 복원 추출로 $n$ 개 쌍을 뽑아 전체 BT 계산을 다시 수행합니다. 부트스트랩된 점수의 2.5번째 및 97.5번째 백분위수가 신뢰 구간의 경계가 됩니다.

백엔드별 승률의 경우, 극단적인 승률에서 정규 근사 구간보다 더 나은 커버리지를 제공하는 Wilson score intervals를 사용합니다.

언어별 결과

라틴 문자권 언어 (영어, 스페인어, 프랑스어, 독일어 등)

라틴 문자권 언어는 4,173개의 선호도 쌍으로 가장 큰 비중을 차지합니다.

라틴 문자 BT 점수

Fish S2 Pro가 3.05로 앞서고 있습니다. 특히 ElevenLabs V3(1.90)가 Fish S1(1.72)을 근소하게 앞섰는데, 이는 경쟁사가 우리의 이전 모델을 능가한 유일한 언어 그룹입니다. ElevenLabs Multilingual V2 또한 1.70으로 S1의 뒤를 바짝 쫓으며 좋은 성적을 거두었습니다.

이는 타당한 결과입니다. ElevenLabs는 전통적으로 영어와 유럽 언어에 집중해 왔으며, V3 모델은 이 분야에서 강력합니다. 그럼에도 불구하고 Fish S2 Pro는 ElevenLabs V3에 대해 1.6배의 우위를 유지하고 있습니다.

중국어

중국어는 329개의 선호도 쌍이 수집되었으며, Fish Audio의 압도적인 지배력을 보여줍니다.

중국어 BT 점수

두 Fish Audio 모델(S2 Pro 8.11, S1 7.11) 모두 모든 경쟁사를 압도했습니다. ElevenLabs V3는 2.36으로 준수했지만 격차가 컸습니다. 다른 모든 경쟁사는 1.0 미만을 기록했습니다.

일본어

일본어는 354개의 선호도 쌍이 수집되었습니다.

일본어 BT 점수

Fish S2 Pro(3.12)와 Fish S1(3.02)이 매우 근접한 점수를 기록했으며, 두 모델 모두 ElevenLabs V3(1.88)를 크게 앞질렀습니다. Fish Audio 모델과 경쟁사 간의 격차는 CJK(한중일) 언어에서 가장 컸습니다.

언어별 종합 요약

언어별 BT 점수

Fish Audio S2 Pro는 모든 언어 카테고리에서 1위를 차지했습니다. 경쟁 격차는 다음과 같습니다:

라틴 문자: 경쟁사들이 가장 근접했으며, ElevenLabs V3는 진정으로 경쟁력이 있었습니다 (상대 점수 0.62).
중국어: Fish Audio의 지배력이 압도적이며, 경쟁사들은 거의 영향을 주지 못했습니다.
일본어: 중국어와 유사하게 Fish Audio 모델들이 훨씬 앞서 있습니다.

한계점

API 사용자 제외

플랫폼 안정성을 위해 API 사용자는 실험에서 제외되었습니다. 10%의 샘플링 비율은 웹 플랫폼 사용자에게만 적용되었습니다. 즉, 결과에는 웹 플랫폼 사용 패턴이 반영되어 있으며, 이는 API 중심의 프로덕션 워크로드와는 다를 수 있습니다.

태그 지원에 따른 불균형한 범위

타사 공급업체들의 태그 지원 수준이 다르기 때문에 각기 다른 트래픽 세트를 할당받았습니다.

ElevenLabs V3는 거의 모든 요청에 대해 자격이 있었습니다(태그 지원).
ElevenLabs Flash/Multilingual은 태그가 없는 요청만 받았습니다.
Inworld는 태그가 없고 mp3 형식인 요청만 받았습니다.

이는 경쟁 환경이 완벽하게 공평하지 않았음을 의미합니다. ElevenLabs V3의 결과가 가장 대표적인 트래픽 샘플을 받았기 때문에 Fish Audio와 가장 직접적으로 비교 가능합니다. 다른 모델들은 더 단순한 일반 텍스트 요청 위주의 하위 세트로 평가되었으며, 이는 결과적으로 해당 모델들에 유리하게 작용했을 수 있습니다.

MiniMax 결과의 잠재적 불안정성

MiniMax Speech 2.8 HD는 비정상적으로 낮은 점수(BT 0.12, 승률 5% — 심지어 Inworld보다 낮음)를 기록했습니다. 우리는 MiniMax API 통합 방식이 최적화되지 않았을 가능성을 의심하고 있습니다. 생성된 여러 샘플을 들어보았을 때 구체적인 기술적 문제는 발견하지 못했지만, 다른 모든 공급업체에 비해 운율과 자연스러움이 눈에 띄게 떨어졌습니다. 샘플 크기를 늘리기 위해 실험 중간에 MiniMax 라우팅 자격을 확대했지만 성능은 개선되지 않았습니다. 결과적으로 경쟁력 있는 결과를 얻지 못한 채 $330의 API 비용이 누적되어 실험을 조기 중단했습니다.

만약 MiniMax 측에서 이 결과가 모델의 실제 능력을 반영하지 않는다고 판단한다면, 통합 방식에 대한 공동 검토를 환영합니다.

음성 매핑 제약

타사 플랫폼에서 음성 복제(클로닝)에 성공한 음성만 라우팅될 수 있었습니다. 음성 복제에 실패한 경우 해당 공급업체의 후보 풀에서 제외되었습니다. 즉, 각 공급업체는 상위 500개 음성의 약간씩 다른(상당 부분 겹치긴 하지만) 하위 세트를 기반으로 테스트되었습니다.

플랫폼 익숙도 편향 가능성

약 70%의 신규 사용자를 샘플링했지만, 나머지 30%의 재방문 사용자는 Fish Audio의 음성 특성에 부합하는 선호도를 가졌을 수 있습니다. 대다수가 신규 사용자인 구성을 고려할 때 이 영향은 미미할 것으로 보이나, 완전히 배제할 수는 없습니다.

결론

우리는 이것이 지금까지 수행된 TTS 품질 평가 중 가장 엄격한 공개 평가 중 하나라고 믿습니다.

유료 평가자가 아닌 실제 사용자 참여
블라인드 비교 — 사용자는 어떤 업체가 오디오를 생성했는지 알 수 없음
주관적인 등급이 아닌 행동 신호(다운로드) 데이터 활용
긴 문장, 운율 태그, 다국어 텍스트 등 실제 복잡성을 반영한 실제 서비스 트래픽 사용
10일간 수집된 여러 언어에 걸친 5,000개 이상의 선호도 쌍
타사 API 비용으로만 $2,000 이상 지출

결과는 명확합니다: Fish Audio S2 Pro는 테스트된 모든 언어에서 가장 선호되는 TTS 모델이며, 특히 중국어와 일본어에서 강력한 우위를 점하고 있습니다. 이전 세대인 S1 모델조차 합산 기준으로 모든 경쟁사를 능가합니다.

이러한 결과는 엔드투엔드 모델링과 **RLHF (인간 피드백 기반 강화 학습)**에 대한 우리의 로드맵이 옳았음을 다시 한번 입증합니다. 우리는 투명성을 지향합니다. 방법론, 라우팅 로직 및 분석 코드는 우리 플랫폼 인프라의 일부입니다. TTS 커뮤니티의 엄격한 검토와 향후 평가를 위한 개선 제안을 환영합니다.

이 평가는 2026년 3월 26일부터 4월 5일까지 Fish Audio 팀에 의해 수행되었습니다. 방법론에 대한 질문이나 논의는 fish.audio를 통해 문의해 주시기 바랍니다.