IA de voz de nível produção.Com preço de startup.Aberta como uma comunidade.
Entregue fala realista, clonagem de voz e transcrição com uma API. SDKs oficiais em Python e TypeScript. Latência abaixo de um segundo. Preço pay-as-you-go desde a primeira chamada.

S2.1 Pro rodando ao vivo. Escolha uma voz, digite uma frase, ouça o resultado. O mesmo modelo por trás do HeyGen, Retell e Sanas em produção — sem cadastro, sem ligação de vendas, sem ambiente de demonstração.
# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "[chuckle] When you’re creating something new, there’s this [emphasis] beautiful mix of wonder and fear.",
"reference_id": "933563129e564b19a115bedd57b7406a",
"format": "mp3"
}' --output speech.mp3Do cadastro ao primeiro áudio em 5 minutos.
Sem ligação de vendas. Obtenha uma chave de API, instale o SDK e coloque no ar.
# Text to speech in one callcurl -X POST \ https://api.fish.audio/v1/tts \-H "Authorization: Bearer $FISH_API_KEY" \-H "Content-Type: application/json" \-H "model: s2.1-pro-free" \-d '{"text": "Hello! Welcome to Fish Audio."}' \--output welcome.mp3
# Text to speech with the Python SDKfrom fish_audio_sdk import Session, TTSRequestsession = Session("YOUR_API_KEY")request = TTSRequest(text="Hello! Welcome to Fish Audio.")with open("welcome.mp3", "wb") as f:for chunk in session.tts(request):f.write(chunk)
O que as equipes lançam no Fish.
Voz que aguenta em câmera
# Vídeo de avatarTTS sincronizável com lábios e consciente de emoção para produtos de avatares com IA. Tags de direção inline conduzem a performance, não apenas as palavras.
IA conversacional em tempo real
# Agente de vozTroca de turnos abaixo de um segundo via WebSocket. TTS e ASR em streaming em uma stack. Com suporte a interrupções.
Conteúdo falado dinâmico.
# Conteúdo em áudio & companheirosNotas em áudio, ferramentas de preparação, companheiros de IA. Preço por caractere que escala com o uso, não com usuários.
Clone em 30 segundos. Ou pule a clonagem completamente.
# Apps de personagensIVC a partir de 30 segundos de áudio. PVC para réplicas de nível estúdio. Ou navegue na biblioteca de vozes e lance sem precisar clonar.
Feito para a stack de tempo real.
Pesos abertos. Licença comercial paga.
Nossos modelos open-source — fish-speech, S1 e S2 — são distribuídos como pesos abertos com uma licença comercial paga. Hospede na sua VPC, on-premises, nuvem soberana ou ambiente air-gapped quando a produção exigir. Hospedagem própria é um contrato de nível Enterprise — veja abaixo.
15,000+ tags de direção. Inline em qualquer chamada.
[warm], [near-whisper], [reassuring] — a direção acompanha o próprio texto. Sem parâmetro separado, sem lista para escolher, sem migração de schema quando o conjunto de tags cresce.
Audio Turing Test: 0.515.
Ouvintes não conseguem distinguir de forma confiável o S2.1 Pro de uma voz humana em avaliação cega. 581 comparações diretas. Metodologia e áudios brutos publicados.
$15 por milhão de caracteres. Desde a sua primeira chamada.
O mesmo modelo por trás do HeyGen, Pictoria, Dubbing AI e Plaud. Pay-as-you-go desde a sua primeira chamada. Sem "fale conosco" para preços de produção.
Use nossa API. Ou hospede o modelo você mesmo
API em nuvem para qualquer equipe que está construindo hoje. Hospedagem própria como contrato Enterprise premium quando a produção exigir.
API Hospedada · Qualquer equipe
API em nuvem, pay-as-you-go, $15 por milhão de caracteres. O caminho mais rápido para produção para equipes que não precisam operar o modelo por conta própria.
- WebSocket streaming, REST, Python + TypeScript SDKs
- $15 / 1M UTF-8 bytes — sem compromisso
- Sintaxe de direção inline em cada chamada
- O mesmo modelo distribuído como open-weight
Hospede o modelo por conta própria.
Nossos modelos open-source — fish-speech, S1, S2 — são distribuídos como pesos abertos com uma licença comercial paga. Implante na sua VPC, data center, nuvem soberana ou ambiente air-gapped. Um contrato premium para equipes de alto volume que precisam de residência de dados, fine-tuning ou implantação regulada.
- WebSocket streaming, REST, Python + TypeScript SDKs
- $10k/mês
- Investimento mínimo efetivo: $120–150K/ano
- Acesso direto ao nosso time de pesquisa
Preços quenão penalizam o crescimento
Pay-as-you-go desde o primeiro dia. Sem taxas por usuário. Sem compromissos anuais. Sem "fale conosco" para preços de produção.
Ver tabela de preços completaPerguntas frequentes
Vindo do ElevenLabs, Cartesia ou Rime?
Comparativos detalhados por capacidade, preço e condições contratuais. Mesma forma de API; a maioria das migrações de produção termina em menos de uma semana.
Os benchmarks, metodologia e áudios brutos
Resultados do Audio Turing Test, metodologia de avaliação cega e a licença de pesos abertos. As provas por trás de cada afirmação nesta página.
Chegue à produção neste fim de semana
Créditos gratuitos para começar. Sem cartão de crédito. Mesmo plano do protótipo à escala.