Fish Audio S2.1 Pro: API Gratuita de Text-to-Speech para Desenvolvedores
Resumo rápido:
S2.1 Pro, o modelo de voz mais avançado da Fish Audio, está agora disponível como uma API gratuita de text-to-speech
83 idiomas, uso ilimitado sob a Política de Uso Justo
String do modelo: s2.1-pro-free — basta inseri-la em suas chamadas de API da Fish existentes
Experimente o S2.1 Pro gratuitamente — primeiro áudio em 5 minutos →
Junho de 2026 | O modelo S2.1 Pro da Fish Audio está agora disponível como uma API gratuita de text-to-speech com acesso ilimitado sob Uso Justo.
Por que IA de Voz de Alta Qualidade Sempre Foi Cara
Se você já passou algum tempo avaliando APIs de text-to-speech, já conhece o padrão: os modelos que realmente soam bem custam caro.
O plano gratuito da ElevenLabs oferece 10.000 créditos por mês (aproximadamente 6 a 10 minutos) antes que a cobrança comece. O OpenAI TTS é pago por uso, sem nenhum plano gratuito. Os modelos Gemini TTS mais recentes do Google — os mais avançados deles — têm zero uso gratuito: você paga desde o primeiro token. O padrão é consistente em toda a indústria: a qualidade de voz de última geração tem sido um recurso pago.
Isso cria um problema real para os desenvolvedores. O mercado de geradores de voz por IA está crescendo quase 20% ao ano — mas as ferramentas para construir produtos habilitados para voz permaneceram atrás de uma barreira de pagamento. Você não consegue avaliar adequadamente um modelo com 10.000 créditos. Você não pode prototipar um agente de voz, testar um pipeline de audiobook ou experimentar com clonagem de voz sem comprometer o orçamento antecipadamente ou passar semanas lutando com alternativas de código aberto que exigem sua própria infraestrutura de GPU.
A Fish Audio está mudando isso hoje.
O Que É o S2.1 Pro?
S2.1 Pro é o modelo de voz de última geração atual da Fish Audio — o melhor modelo que temos, agora disponível para todos os desenvolvedores gratuitamente via API. É um modelo de síntese de voz neural projetado para geração de voz por IA de nível de produção, com pontos fortes particulares em streaming de baixa latência, TTS multilíngue e clonagem de voz. Ele se baseia na base do S2, que lançamos com pesos abertos no início deste ano.
Desempenho
- 61% de taxa de vitória contra a geração anterior S2 Pro em avaliações de escuta cega — veja nossa comparação de provedores de TTS para contexto
- ~70ms de Time-to-First-Audio (TTFA) em requisição única — reduzido de ~100ms na geração anterior
- Melhoria de 2x+ no throughput sob carga de alta concorrência
Para o histórico técnico completo, veja nosso artigo: Aqui
Cobertura de Idiomas
O S2.1 Pro suporta 83 idiomas, incluindo inglês, japonês, chinês, coreano, espanhol, árabe, francês, alemão, português, russo e dezenas de outros. O mesmo modelo lida com todos os idiomas — sem endpoints separados, sem preços por idioma.
Latência
O S2.1-Pro entrega ~90ms de TTFA (Time to First Audio) na API padrão, tornando-o viável para agentes de voz ao vivo e sistemas de diálogo por turnos. Se você precisa de controle refinado sobre a prosódia e entrega, veja também as capacidades de controle de voz em nível de palavra do S2.
Por que a Fish Audio pode oferecer isso gratuitamente agora
A versão curta: reconstruímos a pilha de inferência do zero, e o custo por requisição caiu significativamente o suficiente para que possamos absorvê-lo.
Kernels de GPU Personalizados
Desenvolvemos a fish-scales-ops, uma biblioteca FP8 GEMM e FlashAttention de nível de produção direcionada às arquiteturas NVIDIA Hopper (H100/H200) e Blackwell (RTX 6000 PRO). Nos formatos de decodificação que importam para o serviço de voz por IA, nosso caminho MXFP8 supera a referência cuBLAS fundida por torch.compile em 2,1–4,3×. Você não precisa entender nada disso para usar a API — mas é por isso que o nível gratuito é sustentável.
Maior Throughput
Em uma única H200 com quantização FP8, o sistema sustenta mais de 8.000 tokens/segundo de vazão de saída em 64 requisições simultâneas. Mais throughput por GPU significa mais requisições atendidas por dólar, que é o que torna o acesso gratuito ilimitado economicamente viável.
O que "Gratuito" Realmente Significa
Preferimos ser honestos sobre as restrições do que escondê-las.
O que você recebe:
- String do modelo:
s2.1-pro-free - Acesso de alto volume sem limite fixo de caracteres (sujeito à Política de Uso Justo)
- Mesmo endpoint de API dos planos pagos — sem integração separada
Limitações atuais:
- Duração: O acesso gratuito está disponível até 24 de julho de 2026 — comunicaremos mudanças com aviso prévio
- Sem SLA: Sem garantias de tempo de atividade/TTFA; construído para experimentação e prototipagem
- Sem garantia de latência: Melhor esforço, não contratual
- Retenção de dados: As requisições podem ser usadas para melhorar a qualidade do modelo — veja nossa Política de Privacidade
- Uso comercial: Alguns cenários comerciais podem ter restrições. Produtos que geram mais de US$ 1 milhão de ARR devem entrar em contato conosco antes de usar o S2.1 Pro Free. Veja Preços e Limites de Taxa para detalhes
Se você precisar de SLA de produção e garantias de latência, planos pagos estão disponíveis. Este nível é o lugar certo para construir, avaliar e decidir.
Como usar a API Gratuita de Text-to-Speech: Guia Rápido do S2.1 Pro
Obtenha sua chave de API em fish.audio/app/api-keys, depois faça sua primeira chamada. A API da Fish aceita requisições codificadas em msgpack e retorna áudio no formato escolhido. Referência completa na documentação da API.
JavaScript
import { writeFile } from "fs/promises";
const body = {
text: "Hello, world!",
reference_id: "your_model_id",
format: "mp3",
};
const res = await fetch("https://api.fish.audio/v1/tts", {
method: "POST",
headers: {
Authorization: "Bearer <YOUR_API_KEY>",
"Content-Type": "application/json",
model: "s2.1-pro-free",
},
body: JSON.stringify(body),
});
if (!res.ok) {
throw new Error(`TTS request failed: ${res.status} ${await res.text()}`);
}
const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);
Python
import httpx
body = {
"text": "Hello, world!",
"reference_id": "your_model_id",
"format": "mp3",
}
with httpx.Client() as client:
res = client.post(
"https://api.fish.audio/v1/tts",
headers={
"Authorization": "Bearer <YOUR_API_KEY>",
"Content-Type": "application/json",
"model": "s2.1-pro-free",
},
json=body,
)
res.raise_for_status()
with open("output.mp3", "wb") as f:
f.write(res.content)
A única mudança em relação a qualquer outra chamada de API da Fish Audio: defina model: "s2.1-pro-free" nos cabeçalhos. É só isso.
Obtenha sua chave de API gratuita →
S2.1 Pro vs ElevenLabs e as Melhores APIs de TTS em 2026
As informações dos concorrentes abaixo são baseadas na documentação e páginas de preços disponíveis publicamente em junho de 2026. Preços e recursos podem mudar — verifique diretamente com cada provedor antes de tomar uma decisão de produção.
Para uma análise independente mais profunda, veja nossa comparação cega de provedores de TTS.
Conclusão: Entre os principais provedores de API de TTS que avaliamos, a Fish Audio oferece atualmente um dos modelos de acesso gratuito mais generosos — o único em que o nível gratuito executa o mesmo modelo de última geração que o nível pago, sem limite rígido de uso. O plano gratuito da ElevenLabs é efetivamente um teste de 10.000 créditos. O TTS mais avançado do Google (Gemini TTS) não possui plano gratuito.
Procurando uma alternativa gratuita ao ElevenLabs que não comprometa a qualidade do modelo? O S2.1 Pro está disponível agora sem limite de uso.
Procurando uma alternativa gratuita ao OpenAI TTS? A oferta de TTS da OpenAI não possui nível gratuito — o S2.1 Pro é uma opção atraente para avaliar primeiro.
Veja a documentação completa da API e comece a construir →
O Que Você Pode Construir Com Isso
O nível gratuito é intencionalmente irrestrito para casos de uso. Aqui estão os cenários onde a combinação de geração de voz por IA de baixa latência, suporte multilíngue e clonagem de voz do S2.1 Pro costumam fazer mais diferença.
Agentes de Voz
A IA conversacional em tempo real vive e morre pela latência. Com ~90ms de TTFA para chamadas padrão, o S2.1 Pro é rápido o suficiente para diálogos naturais por turnos. Combine-o com uma camada de fala para texto e um LLM para um pipeline de voz completo sem uma conta por caractere. Você também pode integrar o S2.1 Pro em fluxos de trabalho de agentes através do nosso suporte a MCP e habilidades de agente.
Audiobooks e Narração de Longa Duração
O suporte a 83 idiomas e a prosódia natural tornam o S2.1 Pro adequado para produção de audiobooks e síntese de voz de longa duração. O uso ilimitado significa que você pode processar manuscritos completos sem observar um contador de caracteres ou pré-adquirir créditos.
Clonagem de Voz
O S2.1 Pro suporta clonagem de voz a partir de áudio de referência via API — passe uma amostra de áudio de referência e o modelo sintetiza a fala naquela voz. Construa aplicações de voz personalizadas, localize conteúdo com identidade de falante consistente ou gere vozes de personagens para jogos e animações. A clonagem de voz está disponível no nível gratuito, sujeita à mesma Política de Uso Justo.
Aplicações Multilíngues
Se sua aplicação atende usuários em vários idiomas, a cobertura de 83 idiomas com uma única API de voz por IA consistente é uma simplificação significativa em relação às alternativas que exigem endpoints de modelo separados por idioma ou cobram taxas premium para síntese de fala não inglesa.
Diálogo de NPC em Jogos
Os pipelines de áudio de jogos se beneficiam de alto throughput e custo previsível por requisição. O uso gratuito ilimitado torna prático gerar grandes bibliotecas de diálogos e iterar livremente durante o desenvolvimento antes de se comprometer com um orçamento de produção.
Disponível Através do Nosso Ecossistema de Parceiros
O S2.1 Pro também está disponível através de um número crescente de plataformas parceiras, incluindo Runware, Retell, Sierra e outros.
Se você já está construindo em uma dessas plataformas, o S2.1 Pro está acessível sem integração ou configuração adicional — basta usar o que você já tem.
Estamos expandindo ativamente a rede de parceiros. Se você é um provedor de plataforma ou infraestrutura interessado em integrar o S2.1 Pro, entre em contato com nossa equipe para explorar o que é possível.
Uso Justo e O Que Vem a Seguir
O nível gratuito opera sob uma Política de Uso Justo. Reservamo-nos o direito de restringir ou limitar o acesso para padrões de uso que pareçam abuso em vez de desenvolvimento — o objetivo é proteger o acesso para toda a comunidade de desenvolvedores, não criar limites arbitrários para casos de uso legítimos. Veja Preços e Limites de Taxa para detalhes.
Algumas coisas a esperar:
- O acesso gratuito está disponível agora por um período inicial. Avisaremos com antecedência antes que qualquer coisa mude.
- Planos pagos com garantias de SLA, compromissos de latência e licenciamento comercial estão disponíveis para cargas de trabalho de produção.
- O investimento em infraestrutura é contínuo — o trabalho de engenharia que tornou este nível gratuito possível não é um evento único.
- Infraestrutura de código aberto: Planejamos abrir o código dos componentes de infraestrutura por trás do S2.1 Pro — a mesma pilha que torna o nível gratuito sustentável.
Se você está avaliando a Fish Audio para uma implantação em produção, o nível gratuito é o lugar certo para começar. Construa algo real, meça o que importa para sua aplicação e entre em contato quando estiver pronto para discutir os requisitos de produção.
Sem cartão de crédito. Sem lista de espera. Sem limite para o que você pode testar.

