23 de jun. de 2026Pesquisa

Fish Audio S2.1 Pro: API Gratuita de Text-to-Speech para Desenvolvedores

Resumo rápido:

S2.1 Pro, o modelo de voz mais avançado da Fish Audio, está agora disponível como uma API gratuita de text-to-speech

83 idiomas, uso ilimitado sob a Política de Uso Justo

String do modelo: s2.1-pro-free — basta inseri-la em suas chamadas de API da Fish existentes

Experimente o S2.1 Pro gratuitamente — primeiro áudio em 5 minutos →

Junho de 2026 | O modelo S2.1 Pro da Fish Audio está agora disponível como uma API gratuita de text-to-speech com acesso ilimitado sob Uso Justo.

Por que IA de Voz de Alta Qualidade Sempre Foi Cara

Se você já passou algum tempo avaliando APIs de text-to-speech, já conhece o padrão: os modelos que realmente soam bem custam caro.

O plano gratuito da ElevenLabs oferece 10.000 créditos por mês (aproximadamente 6 a 10 minutos) antes que a cobrança comece. O OpenAI TTS é pago por uso, sem nenhum plano gratuito. Os modelos Gemini TTS mais recentes do Google — os mais avançados deles — têm zero uso gratuito: você paga desde o primeiro token. O padrão é consistente em toda a indústria: a qualidade de voz de última geração tem sido um recurso pago.

Isso cria um problema real para os desenvolvedores. O mercado de geradores de voz por IA está crescendo quase 20% ao ano — mas as ferramentas para construir produtos habilitados para voz permaneceram atrás de uma barreira de pagamento. Você não consegue avaliar adequadamente um modelo com 10.000 créditos. Você não pode prototipar um agente de voz, testar um pipeline de audiobook ou experimentar com clonagem de voz sem comprometer o orçamento antecipadamente ou passar semanas lutando com alternativas de código aberto que exigem sua própria infraestrutura de GPU.

A Fish Audio está mudando isso hoje.

O Que É o S2.1 Pro?

Benchmark do S2.1-Pro: throughput (tok/s) e TTFB p50 (ms) em níveis de concorrência de 1 a 512, mostrando 8.006 tok/s em c=64 e 73,2ms de TTFB em c=1

S2.1 Pro é o modelo de voz de última geração atual da Fish Audio — o melhor modelo que temos, agora disponível para todos os desenvolvedores gratuitamente via API. É um modelo de síntese de voz neural projetado para geração de voz por IA de nível de produção, com pontos fortes particulares em streaming de baixa latência, TTS multilíngue e clonagem de voz. Ele se baseia na base do S2, que lançamos com pesos abertos no início deste ano.

Desempenho

61% de taxa de vitória contra a geração anterior S2 Pro em avaliações de escuta cega — veja nossa comparação de provedores de TTS para contexto
~70ms de Time-to-First-Audio (TTFA) em requisição única — reduzido de ~100ms na geração anterior
Melhoria de 2x+ no throughput sob carga de alta concorrência

Para o histórico técnico completo, veja nosso artigo: Aqui

Cobertura de Idiomas

O S2.1 Pro suporta 83 idiomas, incluindo inglês, japonês, chinês, coreano, espanhol, árabe, francês, alemão, português, russo e dezenas de outros. O mesmo modelo lida com todos os idiomas — sem endpoints separados, sem preços por idioma.

Latência

O S2.1-Pro entrega ~90ms de TTFA (Time to First Audio) na API padrão, tornando-o viável para agentes de voz ao vivo e sistemas de diálogo por turnos. Se você precisa de controle refinado sobre a prosódia e entrega, veja também as capacidades de controle de voz em nível de palavra do S2.

Por que a Fish Audio pode oferecer isso gratuitamente agora

Infraestrutura de inferência Fish Audio S2.1-Pro: NVIDIA H200 com FP8 GEMM e agendador personalizado entregando 125 audio tok/s por requisição (RTF 0,17) e ~70ms TTFA

A versão curta: reconstruímos a pilha de inferência do zero, e o custo por requisição caiu significativamente o suficiente para que possamos absorvê-lo.

Kernels de GPU Personalizados

Desenvolvemos a fish-scales-ops, uma biblioteca FP8 GEMM e FlashAttention de nível de produção direcionada às arquiteturas NVIDIA Hopper (H100/H200) e Blackwell (RTX 6000 PRO). Nos formatos de decodificação que importam para o serviço de voz por IA, nosso caminho MXFP8 supera a referência cuBLAS fundida por torch.compile em 2,1–4,3×. Você não precisa entender nada disso para usar a API — mas é por isso que o nível gratuito é sustentável.

Maior Throughput

Em uma única H200 com quantização FP8, o sistema sustenta mais de 8.000 tokens/segundo de vazão de saída em 64 requisições simultâneas. Mais throughput por GPU significa mais requisições atendidas por dólar, que é o que torna o acesso gratuito ilimitado economicamente viável.

O que "Gratuito" Realmente Significa

Preferimos ser honestos sobre as restrições do que escondê-las.

O que você recebe:

String do modelo: s2.1-pro-free
Acesso de alto volume sem limite fixo de caracteres (sujeito à Política de Uso Justo)
Mesmo endpoint de API dos planos pagos — sem integração separada

Limitações atuais:

Duração: O acesso gratuito está disponível até 24 de julho de 2026 — comunicaremos mudanças com aviso prévio
Sem SLA: Sem garantias de tempo de atividade/TTFA; construído para experimentação e prototipagem
Sem garantia de latência: Melhor esforço, não contratual
Retenção de dados: As requisições podem ser usadas para melhorar a qualidade do modelo — veja nossa Política de Privacidade
Uso comercial: Alguns cenários comerciais podem ter restrições. Produtos que geram mais de US$ 1 milhão de ARR devem entrar em contato conosco antes de usar o S2.1 Pro Free. Veja Preços e Limites de Taxa para detalhes

Se você precisar de SLA de produção e garantias de latência, planos pagos estão disponíveis. Este nível é o lugar certo para construir, avaliar e decidir.

Como usar a API Gratuita de Text-to-Speech: Guia Rápido do S2.1 Pro

Obtenha sua chave de API em fish.audio/app/api-keys, depois faça sua primeira chamada. A API da Fish aceita requisições codificadas em msgpack e retorna áudio no formato escolhido. Referência completa na documentação da API.

JavaScript

import { writeFile } from "fs/promises";

const body = {
  text: "Hello, world!",
  reference_id: "your_model_id",
  format: "mp3",
};

const res = await fetch("https://api.fish.audio/v1/tts", {
  method: "POST",
  headers: {
    Authorization: "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json",
    model: "s2.1-pro-free",
  },
  body: JSON.stringify(body),
});

if (!res.ok) {
  throw new Error(`TTS request failed: ${res.status} ${await res.text()}`);
}

const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);

Python

import httpx

body = {
    "text": "Hello, world!",
    "reference_id": "your_model_id",
    "format": "mp3",
}

with httpx.Client() as client:
    res = client.post(
        "https://api.fish.audio/v1/tts",
        headers={
            "Authorization": "Bearer <YOUR_API_KEY>",
            "Content-Type": "application/json",
            "model": "s2.1-pro-free",
        },
        json=body,
    )

res.raise_for_status()

with open("output.mp3", "wb") as f:
    f.write(res.content)

A única mudança em relação a qualquer outra chamada de API da Fish Audio: defina model: "s2.1-pro-free" nos cabeçalhos. É só isso.

Obtenha sua chave de API gratuita →

S2.1 Pro vs ElevenLabs e as Melhores APIs de TTS em 2026

As informações dos concorrentes abaixo são baseadas na documentação e páginas de preços disponíveis publicamente em junho de 2026. Preços e recursos podem mudar — verifique diretamente com cada provedor antes de tomar uma decisão de produção.

Comparação de APIs de TTS gratuitas em 2026: Fish Audio S2.1-Pro vs ElevenLabs vs OpenAI TTS vs Google Cloud TTS

Para uma análise independente mais profunda, veja nossa comparação cega de provedores de TTS.

Conclusão: Entre os principais provedores de API de TTS que avaliamos, a Fish Audio oferece atualmente um dos modelos de acesso gratuito mais generosos — o único em que o nível gratuito executa o mesmo modelo de última geração que o nível pago, sem limite rígido de uso. O plano gratuito da ElevenLabs é efetivamente um teste de 10.000 créditos. O TTS mais avançado do Google (Gemini TTS) não possui plano gratuito.

Procurando uma alternativa gratuita ao ElevenLabs que não comprometa a qualidade do modelo? O S2.1 Pro está disponível agora sem limite de uso.

Procurando uma alternativa gratuita ao OpenAI TTS? A oferta de TTS da OpenAI não possui nível gratuito — o S2.1 Pro é uma opção atraente para avaliar primeiro.

Veja a documentação completa da API e comece a construir →

O Que Você Pode Construir Com Isso

O nível gratuito é intencionalmente irrestrito para casos de uso. Aqui estão os cenários onde a combinação de geração de voz por IA de baixa latência, suporte multilíngue e clonagem de voz do S2.1 Pro costumam fazer mais diferença.

Agentes de Voz

A IA conversacional em tempo real vive e morre pela latência. Com ~90ms de TTFA para chamadas padrão, o S2.1 Pro é rápido o suficiente para diálogos naturais por turnos. Combine-o com uma camada de fala para texto e um LLM para um pipeline de voz completo sem uma conta por caractere. Você também pode integrar o S2.1 Pro em fluxos de trabalho de agentes através do nosso suporte a MCP e habilidades de agente.

Audiobooks e Narração de Longa Duração

O suporte a 83 idiomas e a prosódia natural tornam o S2.1 Pro adequado para produção de audiobooks e síntese de voz de longa duração. O uso ilimitado significa que você pode processar manuscritos completos sem observar um contador de caracteres ou pré-adquirir créditos.

Clonagem de Voz

O S2.1 Pro suporta clonagem de voz a partir de áudio de referência via API — passe uma amostra de áudio de referência e o modelo sintetiza a fala naquela voz. Construa aplicações de voz personalizadas, localize conteúdo com identidade de falante consistente ou gere vozes de personagens para jogos e animações. A clonagem de voz está disponível no nível gratuito, sujeita à mesma Política de Uso Justo.

Aplicações Multilíngues

Se sua aplicação atende usuários em vários idiomas, a cobertura de 83 idiomas com uma única API de voz por IA consistente é uma simplificação significativa em relação às alternativas que exigem endpoints de modelo separados por idioma ou cobram taxas premium para síntese de fala não inglesa.

Diálogo de NPC em Jogos

Os pipelines de áudio de jogos se beneficiam de alto throughput e custo previsível por requisição. O uso gratuito ilimitado torna prático gerar grandes bibliotecas de diálogos e iterar livremente durante o desenvolvimento antes de se comprometer com um orçamento de produção.

Disponível Através do Nosso Ecossistema de Parceiros

O S2.1 Pro também está disponível através de um número crescente de plataformas parceiras, incluindo Runware, Retell, Sierra e outros.

Se você já está construindo em uma dessas plataformas, o S2.1 Pro está acessível sem integração ou configuração adicional — basta usar o que você já tem.

Estamos expandindo ativamente a rede de parceiros. Se você é um provedor de plataforma ou infraestrutura interessado em integrar o S2.1 Pro, entre em contato com nossa equipe para explorar o que é possível.

Uso Justo e O Que Vem a Seguir

O nível gratuito opera sob uma Política de Uso Justo. Reservamo-nos o direito de restringir ou limitar o acesso para padrões de uso que pareçam abuso em vez de desenvolvimento — o objetivo é proteger o acesso para toda a comunidade de desenvolvedores, não criar limites arbitrários para casos de uso legítimos. Veja Preços e Limites de Taxa para detalhes.

Algumas coisas a esperar:

O acesso gratuito está disponível agora por um período inicial. Avisaremos com antecedência antes que qualquer coisa mude.
Planos pagos com garantias de SLA, compromissos de latência e licenciamento comercial estão disponíveis para cargas de trabalho de produção.
O investimento em infraestrutura é contínuo — o trabalho de engenharia que tornou este nível gratuito possível não é um evento único.
Infraestrutura de código aberto: Planejamos abrir o código dos componentes de infraestrutura por trás do S2.1 Pro — a mesma pilha que torna o nível gratuito sustentável.

Se você está avaliando a Fish Audio para uma implantação em produção, o nível gratuito é o lugar certo para começar. Construa algo real, meça o que importa para sua aplicação e entre em contato quando estiver pronto para discutir os requisitos de produção.

Sem cartão de crédito. Sem lista de espera. Sem limite para o que você pode testar.

Obtenha sua chave de API gratuita →

Perguntas Frequentes

O que é uma API de text-to-speech?

Uma API de text-to-speech (API de TTS) é um serviço web que converte texto escrito em áudio falado. Os desenvolvedores enviam uma string de texto para o endpoint da API e recebem de volta um arquivo de áudio — normalmente MP3, WAV ou Opus — que pode ser reproduzido em aplicativos, armazenado ou transmitido em tempo real. APIs de voz por IA modernas como a S2.1 Pro usam modelos de síntese de fala neural para produzir áudio com som natural que é difícil de distinguir da fala humana.

O Fish Audio S2.1 Pro é realmente gratuito?

Sim. O S2.1 Pro está disponível sem custo via API da Fish usando a string de modelo `s2.1-pro-free`. Não há limite rígido de caracteres — o uso está sujeito a uma Política de Uso Justo para evitar abusos. O nível gratuito não possui SLA nem garantia de latência, e as requisições podem ser retidas para melhoria do modelo. Ele foi projetado para desenvolvimento, prototipagem e avaliação. Veja Preços e Limites de Taxa para detalhes completos.

Qual é a melhor API de TTS gratuita em 2026?

A melhor API de TTS gratuita depende do seu caso de uso. Entre os principais provedores: Fish Audio S2.1 Pro oferece acesso gratuito generoso a um modelo de geração atual, sem limite rígido de uso e suporte a 83 idiomas. A ElevenLabs oferece 10.000 créditos gratuitos por mês com acesso à sua biblioteca de vozes. As vozes legadas WaveNet do Google são gratuitas até 4 milhões de caracteres por mês. O OpenAI TTS e o Gemini TTS mais recente do Google não possuem plano gratuito. Para desenvolvedores que desejam avaliar uma API de voz por IA de última geração sem restrições de orçamento, o S2.1 Pro é um forte ponto de partida.

Como a Fish Audio se compara à ElevenLabs?

Tanto a Fish Audio quanto a ElevenLabs oferecem geração de voz neural e clonagem de voz de alta qualidade. As principais diferenças práticas no nível gratuito: o nível gratuito da Fish Audio executa o mesmo modelo S2.1 Pro que o nível pago, sem limite rígido de uso; o nível gratuito da ElevenLabs é limitado a 10.000 créditos por mês. Na cobertura de idiomas, a Fish Audio suporta 83 idiomas contra 70+ da ElevenLabs. A ElevenLabs possui uma biblioteca maior de vozes pré-construídas e um ecossistema de conteúdo criativo mais estabelecido. A Fish Audio tende a ser mais forte para casos de uso focados em desenvolvedores que exigem baixa latência, alta concorrência ou suporte multilíngue. Veja nossa comparação cega de TTS para um benchmark independente.

A Fish Audio suporta clonagem de voz?

Sim. O S2.1 Pro suporta clonagem de voz a partir de áudio de referência. Você pode enviar uma amostra de áudio de referência e o modelo sintetizará a fala com aquela voz. Isso funciona em todos os 83 idiomas suportados, tornando-o especialmente útil para localização de conteúdo onde a identidade consistente do falante é crítica. Nosso sistema de clonagem de voz é um dos mais fortes de sua categoria, entregando alta consistência do falante, prosódia natural e desempenho estável em diferentes idiomas e sotaques. A clonagem de voz está disponível no nível gratuito, sujeita à mesma Política de Uso Justo que todo o resto do uso do s2.1-pro-free.

Posso usar a Fish Audio comercialmente?

O nível gratuito (`s2.1-pro-free`) pode ter restrições em certos cenários comerciais. Para uso comercial em produção com licenciamento completo, SLA e sem retenção de dados, consulte os planos pagos da Fish Audio. Veja Preços e Limites de Taxa e os Termos de Serviço para a política atual.

Quais idiomas a Fish Audio suporta?

O S2.1 Pro suporta 83 idiomas, incluindo inglês, japonês, coreano, chinês, espanhol, português, árabe, francês, alemão, russo, italiano, turco, holandês, polonês, vietnamita, tailandês, indonésio e muitos outros. Todos os idiomas são atendidos pelo mesmo modelo — não há endpoints separados ou níveis de preços específicos por idioma.

Shijia Liao

Founder & Chief-Scientist of Fish Audio.

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Inscreva-se grátis

Já tem uma conta? Entrar

Last Updates

22 de jun. de 2026info

Melhores Modificadores de Voz por IA em Tempo Real para Jogos e Streaming em 2026

Kevin YoungDigital Marketing Specialist

Clonagem de voz profissional no Fish Audio — um clone de IA verificado da sua voz com qualidade de estúdio

15 de jun. de 2026GUIA

Clonagem de Voz Profissional: Um Clone Verificado da Sua Voz com Qualidade de Estúdio

Sabrina ShuSupport & Marketing Specialist

Design de voz com IA no Fish Audio — transforme um comando de texto em uma voz personalizada

13 de jun. de 2026GUIA

Design de Voz com IA: Crie uma Voz Personalizada a partir de um Único Comando de Texto

Sabrina ShuSupport & Marketing Specialist

Fish Audio S2.1 Pro: API Gratuita de Text-to-Speech para Desenvolvedores

Por que IA de Voz de Alta Qualidade Sempre Foi Cara

O Que É o S2.1 Pro?

Desempenho

Cobertura de Idiomas

Latência

Por que a Fish Audio pode oferecer isso gratuitamente agora

Kernels de GPU Personalizados

Maior Throughput

O que "Gratuito" Realmente Significa

Como usar a API Gratuita de Text-to-Speech: Guia Rápido do S2.1 Pro

JavaScript

Python

S2.1 Pro vs ElevenLabs e as Melhores APIs de TTS em 2026

O Que Você Pode Construir Com Isso

Agentes de Voz

Audiobooks e Narração de Longa Duração

Clonagem de Voz

Aplicações Multilíngues

Diálogo de NPC em Jogos

Disponível Através do Nosso Ecossistema de Parceiros

Uso Justo e O Que Vem a Seguir

Perguntas Frequentes

Crie vozes que parecem reais

Last Updates

Melhores Modificadores de Voz por IA em Tempo Real para Jogos e Streaming em 2026

Clonagem de Voz Profissional: Um Clone Verificado da Sua Voz com Qualidade de Estúdio

Design de Voz com IA: Crie uma Voz Personalizada a partir de um Único Comando de Texto

Recommended

Clonagem de Voz Profissional: Um Clone Verificado da Sua Voz com Qualidade de Estúdio

Design de Voz com IA: Crie uma Voz Personalizada a partir de um Único Comando de Texto

Realizamos Testes Cego de Nosso TTS Contra Todos os Principais Concorrentes. Aqui Estão os Resultados.

Ferramenta de Transcrição de Podcast — Como Transcrever seu Podcast com o Fish Audio

O Melhor TTS com IA para Equipes Criativas! O Plano Team da Fish Audio Explicado

Fish Audio S2! Controle de Voz por IA de Grão Fino ao Nível da Palavra