Customers - Fish Audio

TTS d'agent vocal en temps réel pour 10 millions d'utilisateurs.

Comment Dubbing AI a construit son Voice Agent avec Fish Audio : le seul TTS à réunir les cinq capacités exigées par un agent temps réel, soit naturel, profondeur émotionnelle, qualité du clonage vocal, faible latence et prise en charge multilingue.

Secteur: Grand public · Jeu · Divertissement
Région: Monde
Cas d'usage: Agent vocal (TTS temps réel)
Audience: Plus de 10 M d'utilisateurs
Déploiement: Cloud API · desktop et mobile
Statut: Voice Agent en beta

10M+

Dans le jeu, le streaming et le divertissement : l'échelle à laquelle un agent vocal doit sembler réel en temps réel, dans la langue de l'utilisateur.

Tiange Ling

CEO de Dubbing AI

"Fish Audio offre une naturalité vocale exceptionnelle, une expression émotionnelle riche et un TTS fiable à faible latence qui soutient parfaitement l'expérience centrale de notre produit Voice Agent."

CEO de Fish Audio

Rissa Cao

"Les agents vocaux sont le cas d'usage où chaque compromis de l'IA vocale devient visible. On ne peut pas être rapide et plat, ou expressif et lent. L'agent doit sembler réel, en temps réel, dans la langue de l'utilisateur. Dubbing AI construit la version la plus difficile de cela : une voix qui parle pour l'utilisateur quand il ne peut pas ou ne veut pas parler lui-même. Le niveau attendu est un réalisme d'identité, et c'est ce niveau que nous avons conçu S2 Pro pour atteindre."

À propos de Dubbing AI — 10 millions d’utilisateurs pour créer, cloner et transformer la voix.

Dubbing AI est un produit local de technologie vocale avec AI qui propose, sur desktop et mobile, la création vocale, le clonage vocal et le changement de voix en temps réel dans une seule solution. La plateforme sert plus de 10 millions d’utilisateurs dans le monde, répartis entre trois audiences principales : créateurs de contenu et streamers, utilisateurs individuels pour le divertissement, et utilisateurs commerciaux, notamment agences de publicité et entreprises médias.

Dubbing AI est la couche vocale des gamers, streamers et créateurs de marque qui doivent façonner, changer ou cloner leur voix en temps réel sur les plateformes où ils sont actifs.

Voici Voice Agent — un agent qui parle pour vous.

La nouvelle fonctionnalité de Dubbing AI, Voice Agent, étend la boîte à outils vocale de la plateforme du changement de voix à la prise de parole. Au lieu de modifier la voix de l’utilisateur, Voice Agent parle pour lui.

Les cas d’usage sont immédiats et humains. Quand un gamer est en pleine dispute et ne veut pas faire monter la tension, Voice Agent peut parler à sa place. Quand quelqu’un est trop fatigué pour appeler et réserver, Voice Agent le fait. Quand une personne est timide, occupée au travail ou temporairement indisponible, Voice Agent lui permet d’interagir en temps réel.

C’est une extension de la mission produit de Dubbing AI sur toute la plateforme — changement de voix, amélioration d’accent, traduction temps réel, et maintenant Voice Agent : aider les personnes à communiquer plus simplement et à s’exprimer plus efficacement. Voice Agent porte cette mission dans les situations où parler soi-même n’est pas possible ou pas idéal.

Pour fonctionner, Voice Agent doit produire une voix AI qui semble réelle. La personne qui écoute — adversaire de jeu, hôte de restaurant ou interlocuteur au téléphone — doit avoir l’impression de parler à une vraie personne, pas à une voix manifestement synthétique. C’est là que Fish Audio est intervenu.

Le défi du TTS temps réel pour les agents vocaux : latence contre naturel.

Les agents vocaux rendent visible le compromis le plus difficile de la voice AI. Le TTS temps réel doit équilibrer latence, naturel et émotion, et la plupart des fournisseurs obligent à choisir. Les modèles à faible latence sonnent souvent plats et mécaniques ; les modèles expressifs ajoutent souvent des délais de traitement qui cassent le flux de conversation.

Pour Dubbing AI Voice Agent, les deux facteurs sont tout aussi critiques. Une pause perceptible entre la saisie de l’utilisateur et la réponse vocale brise l’illusion d’une vraie conversation. Une réponse instantanée mais robotique brise la même illusion autrement. Le facteur décisif n’est pas l’un ou l’autre, mais la combinaison.

Pourquoi Dubbing AI a évalué le marché TTS pour son infrastructure d’agent vocal.

Dubbing AI a évalué plusieurs workflows audio TTS avant de choisir Fish Audio. Les critères correspondaient directement aux exigences structurelles du TTS pour agents vocaux : naturel, profondeur émotionnelle, qualité de clonage vocal, faible latence et support multilingue — cinq capacités que la plupart des fournisseurs couvrent sur deux ou trois points, rarement sur les cinq.

Pour un Voice Agent destiné à 10 millions d’utilisateurs dans le gaming, le divertissement et les usages commerciaux, un modèle naturel mais faible en multilingue était disqualifié. Un modèle rapide mais émotionnellement plat l’était aussi. Le cas Voice Agent imposait une évaluation tout ou rien sur les cinq critères.

Pourquoi Fish Audio a gagné l’évaluation Voice Agent — les cinq critères.

Fish Audio s’est distingué par la combinaison que Dubbing AI ne trouvait nulle part ailleurs : les cinq capacités au niveau exigé par un agent vocal temps réel. Les modèles gagnants sur un seul critère chez les autres fournisseurs étaient exclus du cas Voice Agent. Fish était le seul modèle solide sur chaque dimension.

· Naturel: Une sortie vocale qui ressemble à une vraie personne qui parle, pas à un synthétiseur qui lit.
· Profondeur émotionnelle: Un registre émotionnel qui traverse l’énoncé, la couche que la plupart des modèles à faible latence aplatissent.
· Qualité du clonage vocal: Des voix clonées qui conservent l’identité à travers les contenus, essentiel pour les créateurs et audiences entertainment de Dubbing AI.
· Faible latence: Une réponse temps réel sans délai de traitement perceptible, contrainte de base de tout agent conversationnel.
· Support multilingue: Plus de 80 langues avec code-switching natif, nécessaire pour un Voice Agent mondial.

Comment Dubbing AI utilise Fish Audio pour le TTS temps réel de Voice Agent.

Dubbing AI déploie Fish Audio via la cloud API pour générer du text-to-speech en temps réel dans Voice Agent. Quand les utilisateurs rédigent le texte que Voice Agent doit prononcer, Fish le convertit en voix naturelle et émotionnellement expressive en temps réel, dans les langues et accents requis par la base mondiale de Dubbing AI.

Voice Agent fonctionne sur desktop et mobile, comme le reste de la plateforme Dubbing AI. Voice Agent prépare une beta d’abord pour les audiences gamer de la plateforme — le segment où la demande est la plus forte. Les tests internes avant beta sont très positifs.

Résultats de l’intégration.

Produits utilisés : Fish Audio S2 Pro · Text-to-Speech (cloud API)

10M+ utilisateurs sur la plateforme Dubbing AI, entre gaming, streaming et créateurs commerciaux.

Fish Audio a satisfait 5 critères sur 5 : naturel, profondeur émotionnelle, qualité de clonage, faible latence, multilingue.

La beta Voice Agent sera lancée d’abord auprès des gamers, avec des résultats internes positifs.

Déploiement multiplateforme sur desktop et mobile, aligné avec toute la surface Dubbing AI.

Quelle suite pour Dubbing AI et Fish Audio.

À mesure que Voice Agent passe de la bêta à une disponibilité générale auprès des 10 millions d'utilisateurs de Dubbing AI, Fish Audio reste la couche TTS temps réel qui alimente l'expérience. Les futures extensions de Voice Agent (vers plus de langues, plus de situations et plus de contextes multiplateformes) seront livrées avec les améliorations continues des modèles Fish.

Vous créez un agent vocal ?

Parlez à notre équipe d'un TTS temps réel qui équilibre naturel, profondeur émotionnelle, latence et multilingue — la combinaison dont les agents vocaux ont besoin.

Contacter l'équipe commerciale Voir Fish for Enterprise

Histoires clients