Oferta por tempo limitado- 50% DE DESCONTO ANUALResgatar

Infraestrutura de vozpara empresas

O modelo de voz expressivo, controlável e em tempo real por trás de HeyGen, Retell, Sierra e da próxima geração de criadores de IA de voz. Pronto para produção em vídeos com avatares, agentes de voz, apps de personagens, conteúdo de áudio, suporte multilíngue e tradução que preserva a voz.

S2 Pro rodando ao vivo. Escolha uma voz, digite uma frase e ouça o resultado. O mesmo modelo usado por equipes em produção, sem cadastro, chamada de vendas ou ambiente de demo.

80+
Idiomas
2M+
Biblioteca de vozes
$15/1M caracteres
Tarifa fixa de API
<150ms
Primeiro áudio ( cloud )

A confiança de equipes que criam voz em produção

Agentes de Voz & IA Conversacional
Narração de Vídeo, Dublagem & Música
Interativo & Social
Educação & Aprendizado

Seis motivos para equipes de voz migrarem.

A maioria dos TTS soa bem em uma demo. O Fish foi criado para o que vem depois: tráfego de produção, pronúncias difíceis, alternância multilíngue, implantações soberanas e um custo total que permite escalar em vez de apenas sobreviver.

Produção

Listado na Artificial Analysis · metodologia pública

Benchmarks

Impulsiona HeyGen, Retell, Sierra e FinalRound

Pronúncia

Dicionários personalizados · números, nomes, termos do domínio

O S2 Pro está listado no ranking de voz da Artificial Analysis e impulsiona implantações em produção na HeyGen, Retell e Sierra, lidando com tráfego real, pronúncias difíceis e cargas multirregionais que revelam o que benchmarks não mostram.

Resultados em produção,não vitórias de demo.

O destaque não é qualidade. É o que as equipes alcançaram depois da troca. Cada história é um resultado quantificado, escrito pelo cliente.

Escolhido 3 para 1 contra alternativas para clonagem de voz com sotaques de inglês não americanos.

Impulsiona expressividade no nível do personagem para personagens japoneses de IA dentro do Picto VOICE.

TTS de agente de voz em tempo real para mais de 10 mi de usuários: naturalidade, emoção, latência e multilinguismo.

Agentes de voz em produção com orquestração em tempo real para conversas empresariais.

Coaching de entrevistas ao vivo com latência em tempo real.

Seis categorias de produto de voz,
em produção hoje.

De vídeo com avatar a suporte multilíngue ao cliente, cada categoria abaixo é uma implantação empresarial real rodando no Fish, não uma promessa de roadmap.

Voz para agente de IA

Apps de personagens e companhia.

Vídeo com avatar

Suporte multilíngue ao cliente.

Mandarim · Japonês · Coreano · Cantonês

Clonagem de voz em escala.

Ecossistema de 2 mi de vozes · clone em 30 s

Tradução e dublagem de áudio.

Em todos os 80+ idiomas · code-switching

Conecta ao stack de agentes de voz que você já usa.

Suporte drop-in para as ferramentas de orquestração, telefonia e infraestrutura que equipes de voz usam para lançar hoje. SDKs para todas as principais linguagens. Streaming WebSocket, REST e padrões de webhook de entrada documentados.

As coisas básicas que importam numa chamada com cliente.

Comece no nível Enterprise para implantações de produção. Descontos por volume se aplicam em compromissos maiores; fale com vendas para uma precificação alinhada ao seu perfil de tráfego. Para implantações soberanas, o nível premium self-host está disponível com estrutura separada de setup e compromisso.

Até99%

SLA DE DISPONIBILIDADE
Disponível no nível enterprise premium

<150ms

PRIMEIRO ÁUDIO (NUVEM)
Verificado nas regiões EUA, UE e APAC

Custom

STREAMS CONCORRENTES
50+ no High Volume · custom no Enterprise

80+

IDIOMAS
Com vozes de qualidade nativa e code-switching

Criado para como você realmente cresce.

Um único nível enterprise. Preço fixo por caractere. Descontos por volume que se acumulam em vários níveis conforme você escala, negociados com um time em um contrato.

Comece no nível Enterprise para implantações de produção. Descontos por volume se aplicam em compromissos maiores; fale com vendas para uma precificação alinhada ao seu perfil de tráfego. Para implantações soberanas, o nível premium self-host está disponível com estrutura separada de setup e compromisso.

Inclusões do plano
Plano Enterprise
Termos e notas
Preço inicial
A partir de $999 / mês
Descontos por volume em compromissos maiores
TTS · S2 Pro
$15 / 1M caracteres
Cobrado em bytes UTF-8 · cerca de 180K palavras em inglês por 1M
TTS · S1
$15 / 1M caracteres
Mesma tarifa fixa do S2 Pro
ASR · transcribe-l
$0.36 / hora de áudio
Duração arredondada para o próximo segundo
Concorrência
Custom
50+ no High Volume · custom no Enterprise
Vozes
Ilimitadas
Sem cotas de slots · sem taxa por voz
Rollover
90 dias
Créditos não usados rolam por 90 dias
SLA
Até 99%
Disponível no nível enterprise premium
Suporte
Canal dedicado no Slack
Conformidade SOC2 / HIPAA sob solicitação
Self-host premium
A partir de $10K setup + $10K / mês
Compromisso de 12 meses · VPC · on-prem · air-gapped · nuvem soberana

Descontos por volume disponíveis em vários níveis. Fale com vendas para uma precificação alinhada ao seu tráfego. O preço público reflete a entrada no nível Enterprise; compromissos maiores liberam descontos adicionais por cliente.

Prontos quando você estiver.

Fale com nossa equipe sobre sua implantação. Chegaremos preparados.

Perguntas frequentes

Onde meus dados são armazenados? Vocês oferecem residência nos EUA, UE e APAC?

Por padrão, seus dados permanecem nos Estados Unidos, hospedados no Google Cloud com armazenamento Cloudflare R2, e a inferência roda a partir de regiões edge nos EUA e na Ásia-Pacífico (Tóquio), para que seus usuários tenham baixa latência onde quer que estejam. Para cargas com requisitos de conformidade, contratos enterprise podem ativar Zero Data Retention, o que significa que texto e áudio das solicitações nunca são gravados em disco. E se seus dados precisarem permanecer dentro de um país ou região específicos, o nível enterprise self-hosted roda totalmente dentro da sua própria infraestrutura, então nada sai do seu ambiente.

Vocês conseguem suportar implantações em grande escala e picos de tráfego?

Sim, e em volume sério. A capacidade é provisionada como gerações concorrentes que escalam com o seu contrato, e já temos clientes em produção executando mais de 1.000 gerações concorrentes. Um gateway edge em Rust serve inferência em várias regiões de GPU, então quando seu tráfego cresce de repente, nossa equipe pode elevar seus limites no mesmo dia. Você escala sem ficar esperando atrás de um ticket de suporte.

Quais certificações de segurança vocês têm?

A segurança atravessa todas as camadas da plataforma. Nossa auditoria SOC 2 Type II está em andamento, e o relatório ficará disponível para clientes sob NDA assim que for concluído. Zero Data Retention está disponível em contratos enterprise, então payloads de solicitação nunca são persistidos, e o nível self-hosted mantém cada byte dos seus dados dentro do seu próprio ambiente. Também oferecemos suporte a configurações alinhadas à HIPAA e podemos assinar um BAA para cargas de trabalho de saúde qualificadas, e testes de penetração independentes fazem parte do nosso programa contínuo de conformidade.

Vocês oferecem suporte de engenharia para implantações personalizadas?

Com certeza. Clientes enterprise têm uma linha direta com nossa equipe de engenharia, não uma fila de tickets, no canal que melhor combina com a forma como sua equipe trabalha. Entregamos regularmente recursos específicos de integração e extensões de protocolo para clientes individuais, e colocamos implantações self-hosted de pé com você de ponta a ponta, da primeira configuração ao go-live.

Vocês oferecem suporte a SSO e RBAC?

Sim, com controle granular desde o primeiro dia. O controle de acesso baseado em funções permite atribuir roles owner, admin e member no nível da equipe, além de roles manager, contributor e viewer no nível do workspace, para que cada pessoa tenha exatamente o acesso que deve ter. O single sign-on funciona hoje via Google e GitHub OAuth.

Podemos ajustar modelos com nossos dados ou usar nossas próprias vozes?

Ambos, nos seus termos. Você pode criar clones de voz privados com apenas 10 segundos de áudio de referência, 30 segundos ou mais para os melhores resultados, instantaneamente pela API ou pela web UI, e eles permanecem totalmente privados para sua equipe. Para engajamentos mais profundos, também ajustamos modelos personalizados com seus próprios dados.

E a migração de outro fornecedor de voz?

Migrar para a Fish Audio é simples, e a maioria das equipes se surpreende com a rapidez. Suas vozes existentes vêm ao serem recriadas a partir de áudio de referência, nossos SDKs de Python, TypeScript e Go e a API de streaming WebSocket cobrem os padrões de integração em que você já confia, e nossa equipe de engenharia conduz a virada junto com você para que a produção nunca perca o ritmo.