Infraestrutura de vozpara empresas

O modelo de voz expressivo, controlável e em tempo real por trás de HeyGen, Retell, Sierra e da próxima geração de criadores de IA de voz. Pronto para produção em vídeos com avatares, agentes de voz, apps de personagens, conteúdo de áudio, suporte multilíngue e tradução que preserva a voz.

Falar com vendas Ouvir o modelo Ver preços

S2 Pro rodando ao vivo. Escolha uma voz, digite uma frase e ouça o resultado. O mesmo modelo usado por equipes em produção, sem cadastro, chamada de vendas ou ambiente de demo.

80+

Idiomas

2M+

Biblioteca de vozes

$15/1M caracteres

Tarifa fixa de API

<150ms

Primeiro áudio ( cloud )

A confiança de equipes que criam voz em produção

Agentes de Voz & IA Conversacional

Narração de Vídeo, Dublagem & Música

Interativo & Social

Educação & Aprendizado

Seis motivos para equipes de voz migrarem.

A maioria dos TTS soa bem em uma demo. O Fish foi criado para o que vem depois: tráfego de produção, pronúncias difíceis, alternância multilíngue, implantações soberanas e um custo total que permite escalar em vez de apenas sobreviver.

Produção

Listado na Artificial Analysis · metodologia pública

Benchmarks

Impulsiona HeyGen, Retell, Sierra e FinalRound

Pronúncia

Dicionários personalizados · números, nomes, termos do domínio

O S2 Pro está listado no ranking de voz da Artificial Analysis e impulsiona implantações em produção na HeyGen, Retell e Sierra, lidando com tráfego real, pronúncias difíceis e cargas multirregionais que revelam o que benchmarks não mostram.

Produção

Listado na Artificial Analysis · metodologia pública

Pronúncia

Dicionários personalizados · números, nomes, termos do domínio

Benchmarks

Impulsiona HeyGen, Retell, Sierra e FinalRound

15.000+ tags de direção em linguagem natural. Descreva o que você quer — {caloroso, conversacional, leve sotaque de Boston, terminando em uma queda suave} — e o Fish renderiza. O S2 Pro passa no Audio Turing Test com uma pontuação publicada de 0,515: ouvintes não conseguem distingui-lo de forma confiável de uma fala humana. A metodologia e o áudio bruto são públicos.

Mandarim, japonês, coreano e cantonês com qualidade nativa, com code-switching instantâneo entre inglês, mandarim, japonês, espanhol e árabe. A cobertura APAC que outros fornecedores de voz ainda prometem para o próximo trimestre já está em produção hoje.

Explore 2M+ vozes treinadas por criadores prontas para usar hoje, ou clone a sua própria a partir de 30 segundos de áudio. Sem cotas de slots, sem taxas por voz. Clonagem de voz com verificação de consentimento integrada ao fluxo.

Para cargas reguladas, implantações soberanas e equipes que precisam de controle total do modelo em produção, a Fish oferece auto-hospedagem como um nível enterprise premium. Rode na sua VPC, no seu ambiente isolado ou no seu data center. A arquitetura que equipes de compras pedem e raramente recebem.

$15 por milhão de caracteres — fixo, previsível, a mesma tarifa por caractere da sua primeira chamada de API até a bilionésima. Descontos por volume se acumulam conforme você escala, em vários níveis, todos negociados com uma única equipe. Sem taxas por assento. Sem barreiras surpresa para tarifas de produção.

Resultados em produção,não vitórias de demo.

O destaque não é qualidade. É o que as equipes alcançaram depois da troca. Cada história é um resultado quantificado, escrito pelo cliente.

Escolhido 3 para 1 contra alternativas para clonagem de voz com sotaques de inglês não americanos.

Impulsiona expressividade no nível do personagem para personagens japoneses de IA dentro do Picto VOICE.

TTS de agente de voz em tempo real para mais de 10 mi de usuários: naturalidade, emoção, latência e multilinguismo.

Agentes de voz em produção com orquestração em tempo real para conversas empresariais.

Coaching de entrevistas ao vivo com latência em tempo real.

Seis categorias de produto de voz,
em produção hoje.

De vídeo com avatar a suporte multilíngue ao cliente, cada categoria abaixo é uma implantação empresarial real rodando no Fish, não uma promessa de roadmap.

Voz para agente de IA

Apps de personagens e companhia.

Vídeo com avatar

Suporte multilíngue ao cliente.

Mandarim · Japonês · Coreano · Cantonês

Clonagem de voz em escala.

Ecossistema de 2 mi de vozes · clone em 30 s

Tradução e dublagem de áudio.

Em todos os 80+ idiomas · code-switching

Conecta ao stack de agentes de voz que você já usa.

Suporte drop-in para as ferramentas de orquestração, telefonia e infraestrutura que equipes de voz usam para lançar hoje. SDKs para todas as principais linguagens. Streaming WebSocket, REST e padrões de webhook de entrada documentados.

Pipelines em tempo real

Infraestrutura WebRTC

Automação de workflows

Plataforma de agentes de voz

Telefonia · SIP · SMS

Orquestração de agentes de voz

Pipelines em tempo real

Infraestrutura WebRTC

Automação de workflows

Plataforma de agentes de voz

Telefonia · SIP · SMS

Orquestração de agentes de voz

As coisas básicas que importam numa chamada com cliente.

Comece no nível Enterprise para implantações de produção. Descontos por volume se aplicam em compromissos maiores; fale com vendas para uma precificação alinhada ao seu perfil de tráfego. Para implantações soberanas, o nível premium self-host está disponível com estrutura separada de setup e compromisso.

Até99%

SLA DE DISPONIBILIDADE
Disponível no nível enterprise premium

<150ms

PRIMEIRO ÁUDIO (NUVEM)
Verificado nas regiões EUA, UE e APAC

Custom

STREAMS CONCORRENTES
50+ no High Volume · custom no Enterprise

80+

IDIOMAS
Com vozes de qualidade nativa e code-switching

Criado para como você realmente cresce.

Um único nível enterprise. Preço fixo por caractere. Descontos por volume que se acumulam em vários níveis conforme você escala, negociados com um time em um contrato.

Inclusões do plano

Plano Enterprise

Termos e notas

Preço inicial

A partir de $999 / mês

Descontos por volume em compromissos maiores

TTS · S2 Pro

$15 / 1M caracteres

Cobrado em bytes UTF-8 · cerca de 180K palavras em inglês por 1M

TTS · S1

$15 / 1M caracteres

Mesma tarifa fixa do S2 Pro

ASR · transcribe-l

$0.36 / hora de áudio

Duração arredondada para o próximo segundo

Concorrência

Custom

50+ no High Volume · custom no Enterprise

Vozes

Ilimitadas

Sem cotas de slots · sem taxa por voz

Rollover

90 dias

Créditos não usados rolam por 90 dias

SLA

Até 99%

Disponível no nível enterprise premium

Suporte

Canal dedicado no Slack

Conformidade SOC2 / HIPAA sob solicitação

Self-host premium

A partir de $10K setup + $10K / mês

Compromisso de 12 meses · VPC · on-prem · air-gapped · nuvem soberana

Descontos por volume disponíveis em vários níveis. Fale com vendas para uma precificação alinhada ao seu tráfego. O preço público reflete a entrada no nível Enterprise; compromissos maiores liberam descontos adicionais por cliente.

Prontos quando você estiver.

Fale com nossa equipe sobre sua implantação. Chegaremos preparados.

Falar com vendas

Perguntas frequentes

Onde meus dados são armazenados? Vocês oferecem residência nos EUA, UE e APAC?

Por padrão, seus dados permanecem nos Estados Unidos, hospedados no Google Cloud com armazenamento Cloudflare R2, e a inferência roda a partir de regiões edge nos EUA e na Ásia-Pacífico (Tóquio), para que seus usuários tenham baixa latência onde quer que estejam. Para cargas com requisitos de conformidade, contratos enterprise podem ativar Zero Data Retention, o que significa que texto e áudio das solicitações nunca são gravados em disco. E se seus dados precisarem permanecer dentro de um país ou região específicos, o nível enterprise self-hosted roda totalmente dentro da sua própria infraestrutura, então nada sai do seu ambiente.

Vocês conseguem suportar implantações em grande escala e picos de tráfego?

Sim, e em volume sério. A capacidade é provisionada como gerações concorrentes que escalam com o seu contrato, e já temos clientes em produção executando mais de 1.000 gerações concorrentes. Um gateway edge em Rust serve inferência em várias regiões de GPU, então quando seu tráfego cresce de repente, nossa equipe pode elevar seus limites no mesmo dia. Você escala sem ficar esperando atrás de um ticket de suporte.

Quais certificações de segurança vocês têm?

A segurança atravessa todas as camadas da plataforma. Nossa auditoria SOC 2 Type II está em andamento, e o relatório ficará disponível para clientes sob NDA assim que for concluído. Zero Data Retention está disponível em contratos enterprise, então payloads de solicitação nunca são persistidos, e o nível self-hosted mantém cada byte dos seus dados dentro do seu próprio ambiente. Também oferecemos suporte a configurações alinhadas à HIPAA e podemos assinar um BAA para cargas de trabalho de saúde qualificadas, e testes de penetração independentes fazem parte do nosso programa contínuo de conformidade.

Vocês oferecem suporte de engenharia para implantações personalizadas?

Com certeza. Clientes enterprise têm uma linha direta com nossa equipe de engenharia, não uma fila de tickets, no canal que melhor combina com a forma como sua equipe trabalha. Entregamos regularmente recursos específicos de integração e extensões de protocolo para clientes individuais, e colocamos implantações self-hosted de pé com você de ponta a ponta, da primeira configuração ao go-live.

Vocês oferecem suporte a SSO e RBAC?

Sim, com controle granular desde o primeiro dia. O controle de acesso baseado em funções permite atribuir roles owner, admin e member no nível da equipe, além de roles manager, contributor e viewer no nível do workspace, para que cada pessoa tenha exatamente o acesso que deve ter. O single sign-on funciona hoje via Google e GitHub OAuth.

Podemos ajustar modelos com nossos dados ou usar nossas próprias vozes?

Ambos, nos seus termos. Você pode criar clones de voz privados com apenas 10 segundos de áudio de referência, 30 segundos ou mais para os melhores resultados, instantaneamente pela API ou pela web UI, e eles permanecem totalmente privados para sua equipe. Para engajamentos mais profundos, também ajustamos modelos personalizados com seus próprios dados.

E a migração de outro fornecedor de voz?

Migrar para a Fish Audio é simples, e a maioria das equipes se surpreende com a rapidez. Suas vozes existentes vêm ao serem recriadas a partir de áudio de referência, nossos SDKs de Python, TypeScript e Go e a API de streaming WebSocket cobrem os padrões de integração em que você já confia, e nossa equipe de engenharia conduz a virada junto com você para que a produção nunca perca o ritmo.