Customers - Fish Audio

Echtzeit-TTS fuer Voice Agents fuer 10 Millionen Nutzer.

Wie Dubbing AI seinen Voice Agent auf Fish Audio aufgebaut hat: das einzige TTS, das alle fuenf Anforderungen eines Echtzeit-Agenten erfuellte, naemlich Natuerlichkeit, emotionale Tiefe, Qualitaet beim Voice Cloning, niedrige Latenz und mehrsprachige Unterstuetzung.

Branche: Consumer · Gaming · Unterhaltung
Region: Global
Anwendungsfall: Voice Agent (Echtzeit-TTS)
Zielgruppe: 10 Mio.+ Nutzer
Bereitstellung: Cloud API · Desktop und Mobil
Status: Voice Agent in Beta

10M+

Über Gaming, Streaming und Unterhaltung hinweg: die Größenordnung, in der ein Voice Agent in Echtzeit und in der Sprache des Nutzers echt wirken muss.

Tiange Ling

CEO von Dubbing AI

"Fish Audio liefert aussergewoehnliche Stimmnatuerlichkeit, reiche emotionale Ausdruckskraft und verlaessliches Low-Latency-TTS, das die zentrale Voice-Agent-Produktexperience perfekt stuetzt."

CEO von Fish Audio

Rissa Cao

"Voice Agents sind der Anwendungsfall, in dem jeder Tradeoff von Voice AI sichtbar wird. Man kann nicht schnell und flach sein oder ausdrucksstark und langsam. Der Agent muss echt klingen, in Echtzeit und in der Sprache des Nutzers. Dubbing AI baut die schwierigste Version davon: eine Stimme, die fuer den Nutzer spricht, wenn er selbst nicht sprechen kann oder nicht sprechen moechte. Die Messlatte ist Realismus auf Identitaetsniveau, und genau diese Messlatte soll S2 Pro erreichen."

Über Dubbing AI — 10 Millionen Nutzer für Spracherstellung, Klonen und Voice Changing.

Dubbing AI ist ein lokales AI-Sprachtechnologieprodukt, das Spracherstellung, Voice Cloning und Echtzeit-Voice-Changing auf Desktop und Mobile aus einer Hand anbietet. Die Plattform bedient weltweit über 10 Millionen Nutzer in drei Kernzielgruppen: Content Creator und Streamer, private Entertainment-Nutzer sowie kommerzielle Nutzer, darunter Werbeagenturen und Medienunternehmen.

Dubbing AI ist die Voice-Schicht für Gamer, Streamer und Brand Creator, die ihre Stimme in Echtzeit auf den Plattformen formen, verändern oder klonen müssen, auf denen sie aktiv sind.

Einführung des Voice Agent — ein Agent, der für dich spricht.

Die neueste Funktion von Dubbing AI, der Voice Agent, erweitert das Voice-Toolkit der Plattform vom Voice Changing zum Sprechen. Statt die eigene Stimme des Nutzers zu verändern, spricht der Voice Agent für den Nutzer.

Die Anwendungsfälle sind unmittelbar und menschlich. Wenn ein Gamer mitten in einem Streit ist und nicht eskalieren will, kann der Voice Agent für ihn sprechen. Wenn jemand zu müde ist, telefonisch zu reservieren, erledigt der Voice Agent das. Wenn jemand schüchtern, mit Arbeit beschäftigt oder vorübergehend nicht kommunikationsfähig ist, ermöglicht der Voice Agent Echtzeitinteraktion.

Es ist eine Erweiterung der Produktmission von Dubbing AI über alle Plattformfunktionen hinweg — Voice Changing, Akzentverfeinerung, Echtzeitübersetzung und jetzt Voice Agent: Menschen helfen, reibungsloser zu kommunizieren und sich wirkungsvoller auszudrücken. Voice Agent bringt diese Mission in Situationen, in denen selbst zu sprechen nicht möglich oder nicht ideal ist.

Damit Voice Agent funktioniert, muss die AI-Stimme echt wirken. Die hörende Person — Gaming-Gegner, Restaurantmitarbeiter oder die Person am anderen Ende der Leitung — soll das Gefühl haben, mit einem echten Menschen zu sprechen, nicht mit einer offensichtlich synthetischen Stimme. Hier kam Fish Audio ins Spiel.

Die Herausforderung von Echtzeit-TTS für Voice Agents: Latenz vs. Natürlichkeit.

Voice Agents machen den härtesten Tradeoff von Voice AI sichtbar. Echtzeit-TTS für Voice Agents muss Latenz gegen Natürlichkeit und Emotion abwägen, und die meisten Anbieter erzwingen eine Wahl. Low-Latency-Modelle klingen oft flach und maschinell; ausdrucksstarke Modelle erzeugen oft Verarbeitungsverzögerungen, die den Gesprächsfluss brechen.

Für den Dubbing AI Voice Agent sind beide Faktoren gleich kritisch. Eine spürbare Pause zwischen Nutzereingabe und gesprochener Antwort zerstört die Illusion, mit einer echten Person zu sprechen. Eine sofortige, aber robotische Antwort zerstört dieselbe Illusion anders. Entscheidend ist nicht eines von beiden, sondern die Kombination.

Warum Dubbing AI den TTS-Markt für Voice-Agent-Infrastruktur evaluiert hat.

Dubbing AI evaluierte mehrere TTS-Audio-Workflows, bevor die Wahl auf Fish Audio fiel. Die Kriterien entsprachen direkt den strukturellen Anforderungen von TTS für Voice Agents: Natürlichkeit, emotionale Tiefe, Voice-Cloning-Qualität, niedrige Latenz und Mehrsprachigkeit — fünf Fähigkeiten, von denen die meisten Anbieter zwei oder drei, aber selten alle fünf liefern.

Für einen Voice Agent mit 10 Millionen Nutzern in Gaming, Entertainment und kommerziellen Use Cases war ein Modell, das Natürlichkeit beherrschte, aber bei Mehrsprachigkeit scheiterte, disqualifiziert. Ein Modell mit guter Latenz, aber flacher Emotion ebenfalls. Der Voice-Agent-Use-Case erzwang eine Alles-oder-nichts-Bewertung über alle fünf Kriterien.

Warum Fish Audio die Voice-Agent-Evaluierung gewann — alle fünf Kriterien.

Fish Audio überzeugte mit der Kombination, die Dubbing AI nirgendwo sonst fand: alle fünf Fähigkeiten auf dem Niveau, das ein Echtzeit-Voice-Agent verlangt. Andere Anbieter konnten einzelne Kriterien gewinnen, scheiterten aber am Voice-Agent-Use-Case. Fish war das einzige Modell, das in jeder Bewertungsdimension seinen Platz verdiente.

· Natürlichkeit: Sprachausgabe, die wie ein echter Mensch klingt — nicht wie ein Synthesizer, der liest.
· Emotionale Tiefe: Emotionale Register, die über eine Äußerung hinweg tragen — die Ebene, die viele Low-Latency-Modelle glätten.
· Voice-Cloning-Qualität: Geklonte Stimmen, die über Inhalte hinweg Identität bewahren, wichtig für Creator- und Entertainment-Zielgruppen von Dubbing AI.
· Niedrige Latenz: Echtzeitantwort ohne erkennbare Verarbeitungsverzögerung — Grundbedingung für jeden dialogischen Agenten.
· Mehrsprachigkeit: 80+ Sprachen mit natürlichem Code-Switching, erforderlich für einen Voice Agent mit globaler Nutzerbasis.

Wie Dubbing AI Fish Audio für Echtzeit-Voice-Agent-TTS nutzt.

Dubbing AI setzt Fish Audio über die Cloud API für Echtzeit-Text-to-Speech in der Voice-Agent-Funktion ein. Während Nutzer den Text verfassen, den der Voice Agent sprechen soll, wandelt Fish ihn in Echtzeit in natürliche, emotional ausdrucksstarke Sprachausgabe um — über die Sprachen und Akzente hinweg, die Dubbing AIs globale Nutzerbasis braucht.

Der Voice Agent läuft plattformübergreifend auf Desktop und Mobile und entspricht damit der Abdeckung der übrigen Dubbing-AI-Plattform. Der Voice Agent bereitet zunächst den Beta-Release für die Gamer-Zielgruppen der Plattform vor — den Nutzersegmenten mit der stärksten Nachfrage nach den dafür gebauten Use Cases. Interne Tests vor der Beta waren sehr positiv.

Ergebnisse der Integration.

Genutzte Produkte: Fish Audio S2 Pro · Text-to-Speech (Cloud API)

10M+ Nutzer auf der breiteren Dubbing-AI-Plattform über Gaming, Streaming und kommerzielle Creator hinweg.

Fish Audio erfüllte 5 von 5 Bewertungskriterien: Natürlichkeit, emotionale Tiefe, Cloning-Qualität, niedrige Latenz, Mehrsprachigkeit.

Voice-Agent-Beta startet zuerst für Gamer-Zielgruppen, mit positiven internen Testergebnissen.

Plattformübergreifende Bereitstellung auf Desktop und Mobile, passend zur vollständigen Dubbing-AI-Oberfläche.

Was kommt als Nächstes für Dubbing AI und Fish Audio.

Während der Voice Agent von der Beta in die allgemeine Verfügbarkeit für die 10 Millionen Nutzer von Dubbing AI übergeht, bleibt Fish Audio die Echtzeit-TTS-Schicht, die dieses Erlebnis antreibt. Künftige Erweiterungen des Voice Agent (in mehr Sprachen, mehr Situationen und mehr plattformübergreifenden Kontexten) werden zusammen mit den kontinuierlichen Modellverbesserungen von Fish ausgeliefert.

Bauen Sie einen Voice Agent?

Sprechen Sie mit unserem Team über Echtzeit-TTS, das Natürlichkeit, emotionale Tiefe, Latenz und Mehrsprachigkeit ausbalanciert — die Kombination, die Voice Agents brauchen.

Mit Sales sprechen Fish for Enterprise ansehen

Kundengeschichten