Customers - Fish Audio

TTS de agente de voz em tempo real para 10 milhões de usuários.

Como a Dubbing AI construiu seu Voice Agent com Fish Audio: o único TTS que entregou as cinco capacidades exigidas por um agente em tempo real: naturalidade, profundidade emocional, qualidade de clonagem de voz, baixa latência e suporte multilíngue.

Setor: Consumo · Jogos · Entretenimento
Região: Global
Caso de uso: Agente de voz (TTS em tempo real)
Público: Mais de 10 M de usuários
Implantação: Cloud API · desktop e mobile
Status: Voice Agent em beta

10M+

Em jogos, streaming e entretenimento: a escala em que um agente de voz precisa parecer real em tempo real, no idioma do usuário.

Tiange Ling

CEO da Dubbing AI

"A Fish Audio entrega naturalidade vocal excepcional, expressão emocional rica e TTS confiável de baixa latência que sustentam perfeitamente a experiência central do nosso produto Voice Agent."

CEO da Fish Audio

Rissa Cao

"Agentes de voz são o caso de uso em que todo tradeoff de IA de voz fica exposto. Não dá para ser rápido e sem expressão, nem expressivo e lento. O agente precisa soar real, em tempo real, no idioma do usuário. A Dubbing AI está construindo a versão mais difícil disso: uma voz que fala pelo usuário quando ele não pode ou não quer falar por si. O padrão é realismo em nível de identidade, e foi para atingir esse padrão que criamos o S2 Pro."

Sobre a Dubbing AI — 10 milhões de usuários em criação, clonagem e mudança de voz.

A Dubbing AI é um produto local de tecnologia de voz com AI que oferece criação de voz, clonagem de voz e mudança de voz em tempo real no desktop e mobile em uma única solução. A plataforma atende mais de 10 milhões de usuários globalmente em três públicos principais: criadores de conteúdo e streamers, usuários individuais de entretenimento e usuários comerciais, incluindo agências de publicidade e empresas de mídia.

A Dubbing AI é a camada de voz para gamers, streamers e criadores de marca que precisam moldar, mudar ou clonar voz em tempo real nas plataformas onde vivem.

Apresentando o Voice Agent — um agente que fala por você.

O recurso mais recente da Dubbing AI, o Voice Agent, amplia o kit de voz da plataforma: de mudança de voz para fala em nome do usuário. Em vez de mudar a própria voz do usuário, o Voice Agent fala por ele.

Os casos de uso são imediatos e humanos. Quando um gamer está no meio de uma discussão e não quer escalar o conflito, o Voice Agent pode falar por ele. Quando alguém está cansado demais para ligar e fazer uma reserva, o Voice Agent faz isso. Quando alguém é tímido, está ocupado trabalhando ou temporariamente indisponível para se comunicar, o Voice Agent permite interagir em tempo real.

É uma extensão da missão de produto da Dubbing AI em todos os recursos da plataforma — mudança de voz, refinamento de sotaque, tradução em tempo real e agora Voice Agent: ajudar as pessoas a se comunicarem com mais fluidez e se expressarem com mais eficácia. O Voice Agent leva essa missão para situações em que falar por conta própria não é possível ou não é ideal.

Para que o Voice Agent funcione, a voz da AI precisa parecer real. Quem escuta — o oponente no jogo, o atendente do restaurante ou a pessoa do outro lado da linha — deve sentir que está falando com uma pessoa real, não com uma voz obviamente sintetizada. Foi aí que a Fish Audio entrou.

O desafio do TTS em tempo real para agentes de voz: latência vs. naturalidade.

Agentes de voz tornam visível a troca mais difícil da AI de voz. O TTS em tempo real para agentes precisa equilibrar latência com naturalidade e emoção, e a maioria dos provedores força uma escolha. Modelos de baixa latência tendem a soar planos e mecânicos; modelos expressivos tendem a introduzir atrasos de processamento que quebram o fluxo da conversa.

Para o Dubbing AI Voice Agent, os dois fatores são igualmente críticos. Um Voice Agent que pausa de forma perceptível entre a entrada do usuário e a resposta falada quebra a ilusão de que a outra pessoa está falando com alguém real. Um Voice Agent que responde instantaneamente, mas soa robótico, quebra a mesma ilusão por outro caminho. O fator decisivo não é um ou outro, mas a combinação.

Por que a Dubbing AI avaliou o mercado de TTS para infraestrutura de agentes de voz.

A Dubbing AI avaliou vários fluxos de áudio TTS antes de escolher a Fish Audio. Os critérios de avaliação se alinharam diretamente às exigências estruturais do TTS para agentes de voz: naturalidade, profundidade emocional, qualidade de clonagem de voz, baixa latência e suporte multilíngue — cinco capacidades que a maioria dos provedores entrega em duas ou três, mas raramente em todas as cinco.

Para um Voice Agent que atende 10 milhões de usuários em jogos, entretenimento e casos comerciais, um modelo excelente em naturalidade mas fraco em multilinguismo era desclassificado. Um modelo excelente em latência mas sem emoção também era desclassificado. O uso de Voice Agent exigiu uma avaliação de tudo ou nada nas cinco capacidades.

Por que a Fish Audio venceu a avaliação do Voice Agent — os cinco critérios.

A Fish Audio se destacou pela combinação que a Dubbing AI não encontrou em nenhum outro lugar: as cinco capacidades no nível que um agente de voz em tempo real exige. Os vencedores de critério único apresentados por outros provedores não serviam para o caso de Voice Agent. A Fish foi o único modelo que conquistou seu lugar em todas as dimensões de avaliação.

· Naturalidade: Saída de voz que soa como uma pessoa real falando, não como um sintetizador lendo.
· Profundidade emocional: Registro emocional que se mantém ao longo de uma fala, a camada que a maioria dos modelos de baixa latência achata.
· Qualidade de clonagem de voz: Vozes clonadas que mantêm identidade entre conteúdos, importante para os públicos de criadores e entretenimento da Dubbing AI.
· Baixa latência: Resposta em tempo real sem atraso perceptível de processamento, a restrição básica de qualquer agente conversacional.
· Suporte multilíngue: Mais de 80 idiomas com code-switching nativo, necessário para um Voice Agent com base global de usuários.

Como a Dubbing AI usa a Fish Audio para TTS de agentes de voz em tempo real.

A Dubbing AI implanta a Fish Audio via cloud API para geração text-to-speech em tempo real dentro do recurso Voice Agent. Conforme os usuários escrevem o texto que querem que o Voice Agent fale, a Fish o converte em saída de voz natural e emocionalmente expressiva em tempo real, nos idiomas e sotaques exigidos pela base global da Dubbing AI.

O Voice Agent roda de forma multiplataforma em desktop e mobile, acompanhando a cobertura do restante da plataforma Dubbing AI. O Voice Agent está se preparando para lançar a versão beta primeiro para o público gamer da plataforma — o segmento com maior demanda pelos casos de uso para os quais o Voice Agent foi criado. Os resultados de testes internos antes da beta têm sido muito positivos.

Resultados da integração.

Produtos usados: Fish Audio S2 Pro · Text-to-Speech (cloud API)

10M+ usuários na plataforma ampla da Dubbing AI em jogos, streaming e criadores comerciais.

5 de 5 critérios de avaliação atendidos pela Fish Audio: naturalidade, profundidade emocional, qualidade de clonagem, baixa latência, multilíngue.

A beta do Voice Agent será lançada primeiro para o público gamer, com resultados internos positivos.

Implantação multiplataforma em desktop e mobile, alinhada a toda a superfície da Dubbing AI.

O que vem a seguir para Dubbing AI e Fish Audio.

À medida que o Voice Agent passa da beta para disponibilidade geral entre os 10 milhões de usuários da Dubbing AI, a Fish Audio continua sendo a camada de TTS em tempo real que impulsiona a experiência. Futuras expansões do Voice Agent (para mais idiomas, mais situações e mais contextos multiplataforma) serão lançadas junto com as melhorias contínuas dos modelos da Fish.

Está criando um agente de voz?

Fale com nossa equipe sobre TTS em tempo real que equilibra naturalidade, profundidade emocional, latência e suporte multilíngue — a combinação que agentes de voz exigem.

Falar com vendas Ver Fish para Enterprise

Histórias de clientes