S2.1 Pro agora é gratuito para desenvolvedores

IA de voz de nível produção.Com preço de startup.Aberta como uma comunidade.

Entregue fala realista, clonagem de voz e transcrição com uma API. SDKs oficiais em Python e TypeScript. Latência abaixo de um segundo. Preço pay-as-you-go desde a primeira chamada.

Obter chave de API Ler a documentação

S2.1 Pro rodando ao vivo. Escolha uma voz, digite uma frase, ouça o resultado. O mesmo modelo por trás do HeyGen, Retell e Sanas em produção — sem cadastro, sem ligação de vendas, sem ambiente de demonstração.

# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
  -H "Authorization: Bearer $FISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[chuckle] When you’re creating something new, there’s this [emphasis] beautiful mix of wonder and fear.",
    "reference_id": "933563129e564b19a115bedd57b7406a",
    "format": "mp3"
  }' --output speech.mp3

Confiado por equipes que constroem com voz em produção

Agentes de Voz & IA Conversacional

Narração de Vídeo, Dublagem & Música

Interativo & Social

Educação & Aprendizado

Do cadastro ao primeiro áudio em 5 minutos.

Sem ligação de vendas. Obtenha uma chave de API, instale o SDK e coloque no ar.

CURL · TEXTO PARA FALA

# Text to speech in one call
curl -X POST \ https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-H "model: s2.1-pro-free" \
-d '{"text": "Hello! Welcome to Fish Audio."}' \
--output welcome.mp3

PYTHON SDK

# Text to speech with the Python SDK
from fish_audio_sdk import Session, TTSRequest
 
session = Session("YOUR_API_KEY")
request = TTSRequest(text="Hello! Welcome to Fish Audio.")
with open("welcome.mp3", "wb") as f:
    for chunk in session.tts(request):
        f.write(chunk)

O que as equipes lançam no Fish.

Voz que aguenta em câmera

# Vídeo de avatar

TTS sincronizável com lábios e consciente de emoção para produtos de avatares com IA. Tags de direção inline conduzem a performance, não apenas as palavras.

IA conversacional em tempo real

# Agente de voz

Troca de turnos abaixo de um segundo via WebSocket. TTS e ASR em streaming em uma stack. Com suporte a interrupções.

Conteúdo falado dinâmico.

# Conteúdo em áudio & companheiros

Notas em áudio, ferramentas de preparação, companheiros de IA. Preço por caractere que escala com o uso, não com usuários.

Clone em 30 segundos. Ou pule a clonagem completamente.

# Apps de personagens

IVC a partir de 30 segundos de áudio. PVC para réplicas de nível estúdio. Ou navegue na biblioteca de vozes e lance sem precisar clonar.

Feito para a stack de tempo real.

Pesos abertos. Licença comercial paga.

Nossos modelos open-source — fish-speech, S1 e S2 — são distribuídos como pesos abertos com uma licença comercial paga. Hospede na sua VPC, on-premises, nuvem soberana ou ambiente air-gapped quando a produção exigir. Hospedagem própria é um contrato de nível Enterprise — veja abaixo.

Ler os termos de licença

15,000+ tags de direção. Inline em qualquer chamada.

[warm], [near-whisper], [reassuring] — a direção acompanha o próprio texto. Sem parâmetro separado, sem lista para escolher, sem migração de schema quando o conjunto de tags cresce.

Explorar a biblioteca de direções

Audio Turing Test: 0.515.

Ouvintes não conseguem distinguir de forma confiável o S2.1 Pro de uma voz humana em avaliação cega. 581 comparações diretas. Metodologia e áudios brutos publicados.

Ler a pesquisa

$15 por milhão de caracteres. Desde a sua primeira chamada.

O mesmo modelo por trás do HeyGen, Pictoria, Dubbing AI e Plaud. Pay-as-you-go desde a sua primeira chamada. Sem "fale conosco" para preços de produção.

Ver tabela de preços completa

Use nossa API. Ou hospede o modelo você mesmo

API em nuvem para qualquer equipe que está construindo hoje. Hospedagem própria como contrato Enterprise premium quando a produção exigir.

API Hospedada · Qualquer equipe

API em nuvem, pay-as-you-go, $15 por milhão de caracteres. O caminho mais rápido para produção para equipes que não precisam operar o modelo por conta própria.

WebSocket streaming, REST, Python + TypeScript SDKs
$15 / 1M UTF-8 bytes — sem compromisso
Sintaxe de direção inline em cada chamada
O mesmo modelo distribuído como open-weight

Obter uma chave de API

Hospede o modelo por conta própria.

Nossos modelos open-source — fish-speech, S1, S2 — são distribuídos como pesos abertos com uma licença comercial paga. Implante na sua VPC, data center, nuvem soberana ou ambiente air-gapped. Um contrato premium para equipes de alto volume que precisam de residência de dados, fine-tuning ou implantação regulada.

WebSocket streaming, REST, Python + TypeScript SDKs
$10k/mês
Investimento mínimo efetivo: $120–150K/ano
Acesso direto ao nosso time de pesquisa

Falar com vendas

Preços quenão penalizam o crescimento

Pay-as-you-go desde o primeiro dia. Sem taxas por usuário. Sem compromissos anuais. Sem "fale conosco" para preços de produção.

Ver tabela de preços completa

Modelo

TTS

ASR

Nome do modelo

S2.1 Pro Free

S2.1 Pro

Transcribe-1

Preço

Gratuito para desenvolvedores

$15 / 1M UTF-8 bytes

$0.36 / hora

Perguntas frequentes

Vindo do ElevenLabs, Cartesia ou Rime?

Comparativos detalhados por capacidade, preço e condições contratuais. Mesma forma de API; a maioria das migrações de produção termina em menos de uma semana.

Ver a comparação

Os benchmarks, metodologia e áudios brutos

Resultados do Audio Turing Test, metodologia de avaliação cega e a licença de pesos abertos. As provas por trás de cada afirmação nesta página.

Ler a pesquisa

Chegue à produção neste fim de semana

Créditos gratuitos para começar. Sem cartão de crédito. Mesmo plano do protótipo à escala.

Obter chave de API Ler a documentação