Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen
5. Apr. 2026Forschung

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Fish Audio führte einen 10-tägigen blinden A/B-Test mit echtem Produktiv-Traffic durch und ließ Fish Audio S2 Pro und S1 gegen ElevenLabs, Inworld und MiniMax antreten. Über 5.000 Präferenzpaare wurden von echten Nutzern gesammelt, die keine Ahnung hatten, welcher Anbieter welches Audio generiert hat.


TLDR: Ergebnisse

Fish Audio S2 Pro belegte den Gesamtrang 1 mit einem Bradley-Terry-Score von 3,07, was fast dem 1,7-fachen des nächstbesten Modells entspricht. Unser älteres Modell, Fish Audio S1 (BT 1,86), übertraf im Aggregat ebenfalls jeden Drittanbieter.

Overall BT Scores

RangModellBT-ScoreGewinnrateStichproben
1Fish Audio S2 Pro3,0765,7 %4.573
2Fish Audio S11,8641,0 %3.560
3ElevenLabs V31,8040,6 %766
4ElevenLabs Multilingual V21,3536,2 %359
5ElevenLabs 2.5 Flash1,0029,8 %364
6Inworld TTS 1.5 Max0,5920,1 %373
7MiniMax Speech 2.8 HD0,125,0 %201

Wichtige Head-to-Head-Duelle:

  • Fish S2 Pro schlägt ElevenLabs V3 60 % zu 40 % (581 Paare)
  • Fish S2 Pro schlägt Inworld 80 % zu 20 % (261 Paare)
  • Fish S2 Pro schlägt MiniMax 95 % zu 5 % (142 Paare)
  • Fish S1 schlägt ElevenLabs V3 64 % zu 36 % (150 Paare)

Pairwise Win Rate Heatmap


Warum wir das gemacht haben

Das Problem mit traditionellen Metriken

MOS (Mean Opinion Score) bleibt der De-facto-Standard für die TTS-Evaluierung, ist jedoch tiefgreifend fehlerhaft. Die Testbedingungen werden selten offengelegt – Stichprobenlänge, Demografie der Hörer, Wiedergabeumgebung und Bewertungsanweisungen variieren von Studie zu Studie, was Vergleiche zwischen verschiedenen Publikationen bedeutungslos macht. Inzwischen können WER/CER (Wort-/Zeichenfehlerrate) als Optimierungsziel kontraproduktiv sein: Ein zu starkes Senken der WER zwingt das Modell oft in eine hyperartikulierte, roboterhafte Sprache, die Natürlichkeit und Prosodie zugunsten der Verständlichkeit opfert. Ein Modell, das gelegentlich wie ein echter Mensch nuschelt, kann tatsächlich besser klingen als eines, das jede Silbe perfekt artikuliert.

Das Problem mit bestehenden Ranglisten

Öffentliche Ranglisten wie TTS-Arena-V2 und Artificial Analysis bewerten Modelle anhand kurzer, einfacher Sätze – typischerweise eine einzelne Dialogzeile oder eine kurze Erzählung. Dies wird der Komplexität der realen TTS-Nutzung nicht gerecht: Long-Form-Inhalte, Dialoge mit mehreren Sprechern, expressive Prosodie-Tags und mehrsprachige Texte.

Abgesehen von der Methodik gibt es Bedenken hinsichtlich der Integrität. TTS-Arena-V2 hatte bekannte Probleme mit Audio-Header-Leaks, bei denen Metadaten in der Audiodatei die Identität des Anbieters preisgeben konnten – was das Prinzip der Blindevaluierung bricht. Wir sind uns auch bewusst, dass Leaderboard-Manipulation weit verbreitet ist: Anbieter optimieren gezielt für Benchmark-Sätze, reichen handverlesene Modell-Checkpoints ein oder blähen Rankings durch koordinierte Abstimmungen auf. Diese Ranglisten sind eher zu Marketinginstrumenten als zu zuverlässigen Qualitätssignalen geworden.

Was wir eigentlich wollten

Wir brauchten ein zuverlässiges internes Belohnungssignal – ein Ground-Truth-Maßstab dafür, welche TTS-Ausgabe echte Nutzer tatsächlich bevorzugen, dem wir bei Modellentwicklungsentscheidungen vertrauen konnten. Keine Zahl aus einer wissenschaftlichen Arbeit, kein Rang in einer manipulierbaren Rangliste, sondern ein kontinuierlicher Strom ehrlicher Präferenzdaten von Nutzern, die echte Entscheidungen treffen.

Deshalb haben wir eine Pipeline zur Blindevaluierung direkt in unsere Produktionsplattform integriert.


Versuchsaufbau

Blinder Paarvergleich

Das Studio von Fish Audio präsentiert Nutzern für jede TTS-Aufgabe zwei Audioversionen nebeneinander. Jede Version hat unabhängig eine Chance von 10 %, im Hintergrund unbemerkt an einen Konkurrenzanbieter statt an das Standard-Backend von Fish Audio geleitet zu werden. Gleicher Text, gleiche Referenzstimme, gleiche Benutzeroberfläche – der Nutzer hat keine Ahnung, welcher Anbieter welches Audio generiert hat.

Das Experiment lief über 10 Tage (26. März – 5. April 2026) und sammelte über 71.000 Paargruppen, von denen 5.098 Vergleiche zwischen verschiedenen Anbietern enthielten, die unsere Qualitätskriterien erfüllten.

Was als „Sieg“ zählt

Wir verwenden ein striktes verhaltensbasiertes Signal, keine subjektive Bewertung:

  1. Der Nutzer muss beide Versionen mindestens je 2 Mal abspielen – um zu bestätigen, dass er beide tatsächlich verglichen hat.
  2. Genau eine Version wird heruntergeladen – das ist der Gewinner.

Dieses „Anhören-dann-Herunterladen“-Signal ist weitaus zuverlässiger als Sternebewertungen oder Umfragen mit erzwungener Auswahl. Die Nutzer treffen echte Entscheidungen über Audioinhalte, die sie tatsächlich verwenden werden.

Nutzerzusammensetzung

Das Experiment umfasste etwa 70 % neue Nutzer und 30 % wiederkehrende Nutzer. Diese Zusammensetzung kann eine leichte Tendenz zugunsten von Fish Audio einführen (wiederkehrende Nutzer sind bereits mit unserer Plattform vertraut), stellt aber auch sicher, dass wir echte Präferenzen basierend auf dem ersten Eindruck der Mehrheit der Teilnehmer erfassen.

Stimmauswahl

Wir haben die Top 500 der öffentlichen Stimmen der Plattform für das Experiment verwendet. Jede Stimme wurde zuvor in das System des Drittanbieters geklont, um sicherzustellen, dass auf beiden Seiten dieselbe Identität der Referenzstimme verfügbar war. Die Zuordnungen der Sprach-IDs werden in speziellen JSON-Dateien verwaltet, die als zentrale Referenzquelle (Single Source of Truth) für die Routing-Berechtigung dienen.


Getestete Anbieter und Modelle

AnbieterModellRouting-Ziel
Fish AudioS2 Pro (aktuell)fish:s2-pro
Fish AudioS1 (vorherige Gen.)fish:s1
ElevenLabsV3elevenlabs:v3
ElevenLabs2.5 Flashelevenlabs:2.5-flash
ElevenLabsMultilingual V2elevenlabs:2-multilingual
InworldTTS 1.5 Maxinworld:inworld-tts-1.5-max
MiniMaxSpeech 2.8 HDminimax:speech-2.8-hd

Abdeckung der Evaluierung und Tag-Unterstützung

Nicht alle Anbieter unterstützen den gleichen Funktionsumfang. Fish Audio S2 Pro unterstützt reichhaltige Prosodie-Tags (z. B. [laughs], [sighs]) und Sprecher-Tags (<|speaker:N|>) für Inhalte mit mehreren Sprechern. Dies ist wichtig, da unser Produktions-Traffic natürlicherweise getaggte Texte enthält.

  • ElevenLabs V3 erhielt die vollständigste Evaluierung – es unterstützt beliebige Tags nach einer Normalisierung in Klammerform und war somit für praktisch alle Anfragen unabhängig vom Inhalt berechtigt.
  • ElevenLabs 2.5 Flash und Multilingual V2 – an diese Modelle haben wir nur reine Textanfragen gesendet (keine Tags).
  • Inworld – nur reiner Text und beschränkt auf das mp3-Ausgabeformat, was den berechtigten Traffic weiter einschränkte.
  • MiniMax – akzeptierte Interjektions-Tags ((laughs), (sighs), etc.), lehnte aber andere Tag-Typen ab. Aufgrund konsistent schlechter Ergebnisse bei den Nutzerpräferenzen wurde das Experiment vorzeitig abgebrochen, um die Nutzererfahrung nicht weiter zu beeinträchtigen.

Das Routing-System bewertet jeden alternativen Anbieter anhand der Merkmale der aktuellen Anfrage (Sprache, Tags, Format, Stimmen mit mehreren Referenzen). Nur unterstützte Alternativen kommen als Kandidaten in Frage, und eine wird per gewichteter Zufallsauswahl ausgewählt. Wenn die einzige berechtigte Alternative ein Vergleich zwischen Fish-Modellen ist (S1 vs. S2 Pro), wird die effektive Stichprobenwahrscheinlichkeit auf 1/10 der Basisrate reduziert, um die Datenerhebung zwischen verschiedenen Anbietern zu priorisieren.

Was uns das gekostet hat

Diese Experimente sind nicht kostenlos. Drittanbieter-TTS-APIs sind bei großen Volumina teuer:

  • ElevenLabs: Über 1.500 $ für API-Aufrufe ausgegeben
  • MiniMax: 330 $ ausgegeben (vorzeitig abgebrochen wegen schlechter Leistung)
  • Inworld: 170 $ ausgegeben

ElevenLabs billing Inworld billing MiniMax billing


Statistische Methodik

Bradley-Terry-Modell

Rohe Gewinnraten können irreführend sein, wenn verschiedene Modelle in unterschiedlicher Häufigkeit gegen verschiedene Gegner antreten. Das Bradley-Terry-Modell löst dies, indem es aus paarweisen Vergleichsdaten einen globalen Stärkewert berechnet. Es schätzt iterativ den latente „Stärke“-Parameter jedes Modells so, dass die vorhergesagte Gewinnwahrscheinlichkeit zwischen zwei beliebigen Modellen mit den beobachteten Daten übereinstimmt.

Für zwei Modelle ii und jj mit BT-Scores pip_i und pjp_j:

P(i beats j)=pipi+pjP(\text{i beats j}) = \frac{p_i}{p_i + p_j}

Unsere Implementierung läuft bis zu 500 Iterationen mit einer Konvergenztoleranz von 10910^{-9} und normalisiert die Scores in jedem Schritt unter Verwendung des geometrischen Mittels.

Konfidenzintervalle

Wir geben 95 % Bootstrap-Konfidenzintervalle an, die aus 200 Resamplings der Präferenzpaardaten berechnet wurden. Jedes Resampling zieht nn Paare mit Zurücklegen aus den ursprünglichen nn Paaren und führt die vollständige BT-Berechnung erneut aus. Das 2,5. und 97,5. Perzentil der gebootstrappten Scores bilden die CI-Grenzen.

Für die Gewinnraten pro Backend verwenden wir Wilson-Score-Intervalle, die bei extremen Gewinnraten eine bessere Abdeckung bieten als normale Approximationsintervalle.


Ergebnisse nach Sprache

Sprachen mit lateinischer Schrift (Englisch, Spanisch, Französisch, Deutsch, ...)

Sprachen mit lateinischer Schrift stellen mit 4.173 Präferenzpaaren das größte Segment dar.

Latin Script BT Scores

Fish S2 Pro führt mit 3,05. Bemerkenswerterweise übertrifft ElevenLabs V3 (1,90) Fish S1 (1,72) in dieser Kategorie leicht – die einzige Sprachgruppe, in der ein Wettbewerber unser älteres Modell knapp hinter sich lässt. ElevenLabs Multilingual V2 schneidet mit 1,70 ebenfalls gut ab, dicht hinter S1.

Das ist logisch: ElevenLabs hat sich historisch auf Englisch und europäische Sprachen konzentriert, und ihr V3-Modell ist in diesem Bereich stark. Dennoch behält Fish S2 Pro einen 1,6-fachen Vorteil gegenüber ElevenLabs V3.

Chinesisch

Chinesisch weist 329 Präferenzpaare auf und zeigt die deutlichste Dominanz von Fish Audio.

Chinese BT Scores

Beide Fish Audio-Modelle (S2 Pro mit 8,11, S1 mit 7,11) übertreffen alle Wettbewerber massiv. ElevenLabs V3 erreicht 2,36 – respektabel, aber weit abgeschlagen. Alle anderen Wettbewerber liegen unter 1,0.

Japanisch

Japanisch weist 354 Präferenzpaare auf.

Japanese BT Scores

Fish S2 Pro (3,12) und Fish S1 (3,02) liegen sehr nah beieinander, beide weit vor ElevenLabs V3 (1,88). Der Abstand zwischen Fish-Modellen und Wettbewerbern ist bei CJK-Sprachen am größten.

Sprachübergreifende Zusammenfassung

BT Scores by Language

Fish Audio S2 Pro belegt in jeder Sprachkategorie den ersten Platz. Der Wettbewerbsvorteil variiert:

  • Lateinische Schrift: Wettbewerber liegen am nächsten dran, ElevenLabs V3 ist wirklich konkurrenzfähig (relativer Score 0,62).
  • Chinesisch: Die Dominanz von Fish Audio ist überwältigend, Wettbewerber spielen kaum eine Rolle.
  • Japanisch: Ähnlich wie bei Chinesisch – Fish-Modelle sind weit voraus.

Einschränkungen

API-Nutzer ausgeschlossen

Um die Plattformstabilität zu gewährleisten, wurden API-Nutzer nicht in das Experiment einbezogen. Die 10 %-Stichprobenrate gilt nur für Nutzer der Web-Plattform. Dies bedeutet, dass unsere Ergebnisse die Nutzungsmuster der Web-Plattform widerspiegeln, die sich von API-intensiven Produktions-Workloads unterscheiden können.

Tag-Unterstützung schafft ungleiche Abdeckung

Da Drittanbieter unterschiedliche Tag-Unterstützung bieten, erhielten sie unterschiedliche Teilmengen des Traffics:

  • ElevenLabs V3 war für fast alle Anfragen berechtigt (unterstützt Tags).
  • ElevenLabs Flash/Multilingual erhielten nur tag-freie Anfragen.
  • Inworld erhielt nur tag-freie Anfragen im mp3-Format.

Dies bedeutet, dass das Wettbewerbsfeld nicht vollkommen ausgeglichen ist. Die Ergebnisse von ElevenLabs V3 sind am ehesten mit denen von Fish Audio vergleichbar, da dieses Modell die repräsentativste Traffic-Stichprobe erhielt. Andere Modelle wurden anhand einer Teilmenge bewertet, die eher zu einfacheren, rein textbasierten Anfragen neigt – was sie theoretisch begünstigen sollte.

MiniMax-Ergebnisse könnten unzuverlässig sein

MiniMax Speech 2.8 HD schnitt außerordentlich schlecht ab (BT 0,12, 5 % Gewinnrate – sogar gegen Inworld). Wir vermuten, dass unsere MiniMax-API-Integration nicht optimal sein könnte. Nach dem Anhören mehrerer von MiniMax generierter Proben konnten wir kein spezifisches technisches Problem feststellen – das Audio war verständlich, wies aber im Vergleich zu allen anderen Anbietern eine spürbar schlechtere Prosodie und Natürlichkeit auf. Wir haben die Routing-Berechtigung für MiniMax während des Experiments ausgeweitet, um den Stichprobenumfang zu erhöhen, aber die Leistung verbesserte sich nicht. Das Experiment wurde vorzeitig abgebrochen, nachdem 330 $ an API-Kosten angefallen waren, ohne dass Anzeichen für wettbewerbsfähige Ergebnisse vorlagen.

Falls MiniMax der Ansicht ist, dass diese Ergebnisse nicht die tatsächlichen Fähigkeiten ihres Modells widerspiegeln, begrüßen wir eine gemeinsame Überprüfung unserer Integration.

Einschränkungen beim Voice-Mapping

Nur Stimmen, die erfolgreich auf der Drittanbieter-Plattform geklont werden konnten, konnten geroutet werden. Wenn ein Stimmenklon fehlschlug, wurde diese Stimme aus dem berechtigten Pool dieses Anbieters ausgeschlossen. Dies bedeutet, dass jeder Anbieter mit einer etwas anderen (wenn auch weitgehend überschneidenden) Teilmenge der Top 500 Stimmen getestet wurde.

Mögliche Voreingenommenheit durch Plattform-Vertrautheit

Während wir etwa 70 % neue Nutzer befragt haben, könnten die restlichen etwa 30 % wiederkehrenden Nutzer Präferenzen entwickelt haben, die auf die Audiocharakteristika von Fish Audio abgestimmt sind. Wir glauben, dass dieser Effekt angesichts der Zusammensetzung aus überwiegend neuen Nutzern gering ist, er kann jedoch nicht vollständig ausgeschlossen werden.


Fazit

Wir glauben, dass dies eine der strengsten öffentlichen Evaluierungen der TTS-Qualität ist, die jemals durchgeführt wurde:

  • Echte Nutzer, keine bezahlten Annotatoren
  • Blinder Vergleich – Nutzer wissen nie, welcher Anbieter welches Audio generiert hat
  • Verhaltensbasiertes Signal (Download) statt subjektiver Bewertungen
  • Produktiv-Traffic mit realer Textkomplexität, einschließlich Long-Form-Inhalten, Prosodie-Tags und mehrsprachigen Texten
  • Über 5.000 Präferenzpaare in mehreren Sprachen, gesammelt über 10 Tage
  • Über 2.000 $ allein für API-Aufrufe bei Drittanbietern ausgegeben

Die Ergebnisse sind eindeutig: Fish Audio S2 Pro ist das bevorzugte TTS-Modell in allen getesteten Sprachen, mit besonders starken Vorteilen in Chinesisch und Japanisch. Sogar unser S1-Modell der vorherigen Generation übertrifft im Aggregat jeden Wettbewerber.

Diese Ergebnisse bestätigen unsere Roadmap für End-to-End-Modellierung und RLHF (Reinforcement Learning from Human Feedback). Wir setzen auf Transparenz. Die Methodik, die Routing-Logik und der Analyse-Code sind Teil unserer Plattform-Infrastruktur. Wir laden die TTS-Community ein, unseren Ansatz kritisch zu prüfen und Verbesserungen für zukünftige Evaluierungen vorzuschlagen.


Diese Evaluierung wurde vom Fish Audio-Team vom 26. März bis zum 5. April 2026 durchgeführt. Für Fragen oder zur Diskussion der Methodik kontaktieren Sie uns unter fish.audio.

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Mehr von Shijia Liao lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen