Customers - Fish Audio

TTS para agentes de voz en tiempo real para 10 millones de usuarios.

Cómo Dubbing AI creó su Voice Agent con Fish Audio: el único TTS que ofreció las cinco capacidades que exige un agente en tiempo real: naturalidad, profundidad emocional, calidad de clonación de voz, baja latencia y soporte multilingüe.

Sector: Consumo · Juegos · Entretenimiento
Región: Global
Caso de uso: Agente de voz (TTS en tiempo real)
Audiencia: Más de 10 M de usuarios
Implementación: Cloud API · escritorio y móvil
Estado: Voice Agent en beta

10M+

En juegos, streaming y entretenimiento: la escala en la que un agente de voz debe sentirse real en tiempo real, en el idioma del usuario.

Tiange Ling

CEO de Dubbing AI

"Fish Audio ofrece una naturalidad de voz excepcional, una expresión emocional rica y TTS confiable de baja latencia que sustentan perfectamente la experiencia principal de nuestro producto Voice Agent."

CEO de Fish Audio

Rissa Cao

"Los agentes de voz son el caso de uso donde se expone cada concesión de la IA de voz. No puedes ser rápido y plano, ni expresivo y lento. El agente tiene que sonar real, en tiempo real y en el idioma del usuario. Dubbing AI está construyendo la versión más difícil de esto: una voz que habla por el usuario cuando no puede o no quiere hablar por sí mismo. El listón es el realismo a nivel de identidad, y ese es el listón que creamos S2 Pro para superar."

Sobre Dubbing AI — 10 millones de usuarios en creación, clonación y cambio de voz.

Dubbing AI es un producto local de tecnología de voz con AI que ofrece creación de voz, clonación de voz y cambio de voz en tiempo real en desktop y mobile desde un solo lugar. La plataforma sirve a más de 10 millones de usuarios globales en tres audiencias principales: creadores de contenido y streamers, usuarios individuales de entretenimiento y usuarios comerciales, incluidas agencias de publicidad y empresas de medios.

Dubbing AI es la capa de voz para gamers, streamers y creadores de marca que necesitan modelar, cambiar o clonar la voz en tiempo real en las plataformas donde viven.

Presentamos Voice Agent: un agente que habla por ti.

La nueva función de Dubbing AI, Voice Agent, amplía el kit de voz de la plataforma: de cambiar la voz a hablar. En lugar de cambiar la propia voz del usuario, Voice Agent habla por el usuario.

Los casos de uso son inmediatos y humanos. Cuando un gamer está en una discusión y no quiere escalarla, Voice Agent puede hablar por él. Cuando alguien está demasiado cansado para llamar y hacer una reserva, Voice Agent la hace. Cuando alguien es tímido, está ocupado trabajando o temporalmente no puede comunicarse, Voice Agent le permite interactuar en tiempo real.

Es una extensión de la misión de producto de Dubbing AI en todas las funciones de la plataforma: cambio de voz, refinamiento de acento, traducción en tiempo real y ahora Voice Agent: ayudar a las personas a comunicarse con más fluidez y expresarse con más eficacia. Voice Agent lleva esa misión a situaciones en las que hablar por uno mismo no es posible o no es ideal.

Para que Voice Agent funcione, la voz de AI tiene que sentirse real. La persona que escucha —el rival en el juego, el recepcionista del restaurante o quien está al otro lado de la llamada— debe sentir que habla con una persona real, no con una voz obviamente sintetizada. Ahí entró Fish Audio.

El reto del TTS en tiempo real para agentes de voz: latencia frente a naturalidad.

Los agentes de voz hacen visible el tradeoff más difícil de la AI de voz. El TTS en tiempo real para agentes debe equilibrar latencia con naturalidad y emoción, y la mayoría de proveedores obliga a elegir. Los modelos de baja latencia tienden a sonar planos y mecánicos; los modelos expresivos suelen introducir retrasos de procesamiento que rompen el flujo conversacional.

Para Dubbing AI Voice Agent, ambos factores son igual de críticos. Un Voice Agent que pausa de forma notable entre la entrada del usuario y la respuesta hablada rompe la ilusión de hablar con una persona real. Uno que responde al instante pero suena robótico rompe la misma ilusión en otra dirección. El factor decisivo no es uno u otro, sino la combinación.

Por qué Dubbing AI evaluó el mercado TTS para infraestructura de agentes de voz.

Dubbing AI evaluó múltiples flujos de audio TTS antes de decidirse por Fish Audio. Los criterios se alinearon directamente con las exigencias estructurales del TTS para agentes de voz: naturalidad, profundidad emocional, calidad de clonación de voz, baja latencia y soporte multilingüe — cinco capacidades que la mayoría de proveedores entrega en dos o tres, pero rara vez en las cinco.

Para un Voice Agent que sirve a 10 millones de usuarios en gaming, entretenimiento y usos comerciales, un modelo excelente en naturalidad pero débil en multilingüe quedaba descartado. Un modelo excelente en latencia pero plano en emoción también. El caso de Voice Agent obligó a una evaluación de todo o nada en las cinco capacidades.

Por qué Fish Audio ganó la evaluación de Voice Agent: los cinco criterios.

Fish Audio destacó por la combinación que Dubbing AI no encontró en ningún otro lugar: las cinco capacidades al nivel que exige un agente de voz en tiempo real. Los ganadores de un solo criterio de otros proveedores quedaban descalificados para Voice Agent. Fish fue el único modelo que ganó su lugar en cada dimensión de evaluación.

· Naturalidad: Salida de voz que suena como una persona real hablando, no como un sintetizador leyendo.
· Profundidad emocional: Registro emocional que se mantiene durante una frase, la capa que la mayoría de modelos de baja latencia aplana.
· Calidad de clonación de voz: Voces clonadas que mantienen identidad entre contenidos, importante para las audiencias creator y entertainment de Dubbing AI.
· Baja latencia: Respuesta en tiempo real sin retraso de procesamiento perceptible, la restricción básica de cualquier agente conversacional.
· Soporte multilingüe: Más de 80 idiomas con code-switching nativo, necesario para un Voice Agent con base global de usuarios.

Cómo Dubbing AI usa Fish Audio para TTS de agentes de voz en tiempo real.

Dubbing AI despliega Fish Audio mediante la cloud API para generación text-to-speech en tiempo real dentro de Voice Agent. Mientras los usuarios redactan el texto que quieren que Voice Agent diga, Fish lo convierte en voz natural y emocionalmente expresiva en tiempo real, en los idiomas y acentos que requiere la base global de Dubbing AI.

Voice Agent funciona de forma multiplataforma en desktop y mobile, igual que el resto de Dubbing AI. Voice Agent se prepara para lanzar su beta primero a las audiencias gamer de la plataforma — el segmento con mayor demanda para los casos de uso para los que fue creado. Los resultados internos antes de beta han sido muy positivos.

Resultados de la integración.

Productos usados: Fish Audio S2 Pro · Text-to-Speech (cloud API)

10M+ usuarios en la plataforma amplia de Dubbing AI entre gaming, streaming y creadores comerciales.

Fish Audio cumplió 5 de 5 criterios: naturalidad, profundidad emocional, calidad de clonación, baja latencia, multilingüe.

Voice Agent beta se lanzará primero a audiencias gamer, con resultados internos positivos.

Despliegue multiplataforma en desktop y mobile, alineado con toda la superficie de Dubbing AI.

Qué sigue para Dubbing AI y Fish Audio.

A medida que Voice Agent pasa de beta a disponibilidad general para los 10 millones de usuarios de Dubbing AI, Fish Audio sigue siendo la capa de TTS en tiempo real que impulsa la experiencia. Las futuras expansiones de Voice Agent (a más idiomas, más situaciones y más contextos multiplataforma) se lanzarán junto con las mejoras continuas de los modelos de Fish.

¿Estás creando un agente de voz?

Habla con nuestro equipo sobre TTS en tiempo real que equilibra naturalidad, profundidad emocional, latencia y soporte multilingüe: la combinación que exigen los agentes de voz.

Hablar con ventas Ver Fish para Enterprise

Historias de clientes