A API de Text to Speech Mais Barata para Desenvolvedores em 2026: Uma Análise Real de Custos
1 de mar. de 2026
Você define um orçamento de $40 por mês para vozes no seu app. Seis meses depois, a conta é de $380, e você não consegue explicar o porquê de imediato. Esse é um arco comum para desenvolvedores que escolheram uma API de TTS baseada no nível gratuito sem modelar o que acontece quando usuários reais aparecem.
A lacuna entre "mais barato no papel" e "mais barato no seu uso real" é grande. A maioria das páginas de preços destaca a cota gratuita e esconde a taxa de excesso. Algumas plataformas reestruturam todo o seu modelo de custos em torno de funcionalidades que você não precisará. Acertar isso antes de se prender a uma integração economiza mais do que apenas dinheiro.
Os Custos que a Maioria das Páginas de Preços de TTS Não Coloca na Manchete
Três coisas inflam as contas de TTS que raramente aparecem nos artigos de comparação que você lê antes de escolher:
Preço por caractere vs. por solicitação. O preço por caractere é previsível. O preço por solicitação é traiçoeiro quando seu app envia strings curtas dezenas de vezes por sessão. Uma mensagem de confirmação de 10 palavras custa o mesmo que um parágrafo de 200 palavras em modelos de cobrança por solicitação.
Bloqueios de funcionalidades (Feature gates). Algumas plataformas cobram a taxa base para vozes padrão, depois adicionam um multiplicador para vozes neurais, outro para voice cloning e um item separado para streaming. O que começa como $0,006 por 1.000 caracteres torna-se $0,024 no momento em que você ativa os recursos que seu produto realmente precisa.
Abismos do nível gratuito (Free tier cliffs). O nível gratuito do Google é generoso. O da Azure é ainda mais generoso, com 500.000 caracteres por mês. Mas ambos reiniciam bruscamente no limite, e nenhum deles avisa antes que você o atinja no meio do ciclo de faturamento. Um pico de tráfego e você estará pagando retroativamente por um mês inteiro à taxa paga.
Atingi o limite do nível gratuito do Google TTS às 22h de uma sexta-feira. A API começou a retornar erros 429, o console de faturamento mostrava $0, e levei vinte minutos para entender que a cota mensal tinha sido reiniciada no nível de caractere — não no nível de solicitação. A documentação cobre isso, mas não na seção que você está lendo rapidamente enquanto depura um erro 429 à noite. Esse caso omisso na documentação custa uma noite de sono.
A opção de self-hosting é a única saída que muda tudo isso. Se o provedor de API tiver um modelo de código aberto, seu teto de custo passa a ser o preço do processamento (compute), e não uma taxa por caractere que escala com cada novo usuário.
Nota do Desenvolvedor: A maioria das APIs de TTS reinicia as cotas do nível gratuito à meia-noite UTC no dia 1º do mês, não na data de aniversário da sua conta. Se você estiver se aproximando do limite na última semana do mês, limite suas chamadas de TTS não críticas ou você atingirá o abismo e será transferido para a taxa paga pelo restante do ciclo.
Comparação de Preços de API de TTS: 2026
| Plataforma | Nível Gratuito | Pay-as-you-go | Início do Plano | Voice Cloning | Streaming | Código Aberto |
|---|---|---|---|---|---|---|
| Fish Audio | Sim | Transparente, por uso | Flexível | Incluído | Sim | Sim (Fish Speech) |
| ElevenLabs | 10.000 carac./mês | Incluído nos planos | $5/mês | Incluído (pago) | Sim | Não |
| Azure TTS | 500.000 carac./mês | ~$4/1M carac. | Enterprise | Limitado | Sim | Não |
| Google TTS | 4M carac./mês (Padrão) | ~$4/1M carac. | Pay-as-you-go | Não | Limitado | Não |
| OpenAI TTS | Nenhum | Por caractere | Nenhum | Não | Sim | Não |
| Amazon Polly | 5M carac./mês (Padrão) | ~$4/1M (Padrão) | Pay-as-you-go | Não | Sim | Não |
A tabela parece relativamente estável até que você considere o que cada plataforma inclui em cada faixa de preço.
Fish Audio: O Que Realmente Significa Pay-as-You-Go Sem Bloqueio de Recursos
A maioria das APIs de TTS vende um nível (tier), e esse nível determina o que você recebe. A estrutura da Fish Audio é diferente: pay-as-you-go sem bloqueio de funcionalidades. Voice cloning, streaming, suporte multilíngue e acesso a mais de 2.000.000 de vozes da comunidade vêm com a mesma chamada de API.
Para um desenvolvedor construindo um produto, isso importa mais do que apenas a taxa por caractere. Você não está pagando um preço por TTS básico e outro para desbloquear os recursos que seu produto precisa para competir. O modelo de custo permanece linear à medida que seu conjunto de recursos cresce, e não exponencial.
Uma nota honesta sobre a biblioteca de vozes: o catálogo da comunidade da Fish Audio é enorme, mas a qualidade é inconsistente. Algumas vozes na coleção de mais de 2 milhões são claramente gravações de amadores que não sobreviveriam a uma revisão de QA de produção. Você gastará tempo filtrando antes de encontrar um punhado de vozes que realmente usaria em produção. Essa etapa de filtragem é um esforço real que a página de preços não menciona.
O teto de concorrência também vale a pena notar. A Fish Audio suporta um alto número de solicitações simultâneas. Isso significa que seu custo por solicitação não muda com base em quantos usuários acessam a API simultaneamente, que é o modo de falha que transforma uma conta gerenciável em uma emergência quando um produto ganha tração.
Com 20 milhões de caracteres por mês, a diferença entre o pay-as-you-go da Fish Audio e o nível Business da ElevenLabs chega a aproximadamente $800 por mês — um número que vale a pena colocar em uma planilha antes de se comprometer. Essa lacuna aumenta ainda mais quando você adiciona conteúdo multilíngue, onde a vantagem de qualidade da ElevenLabs diminui.
A parte que redefine os cálculos: Fish Audio disponibiliza seu modelo subjacente, Fish Speech, como código aberto no GitHub. Acima de 50 milhões de caracteres por mês, o ponto de equilíbrio do self-hosting chega rápido — você paga pelo processamento, não por uma taxa por caractere. Para a maioria dos produtos em estágio inicial, isso é prematuro, mas saber que a rampa de saída existe muda a forma como você pensa sobre a dependência de fornecedor (vendor lock-in).
A documentação da API está em docs.fish.audio, e os preços em fish.audio/plan. O modelo pay-as-you-go significa que você não está se comprometendo com um valor mínimo mensal enquanto ainda está validando se os usuários realmente querem voz no seu app.
Em uma integração de chatbot que testei, a latência de ponta a ponta ficou abaixo de 500ms. O custo permaneceu previsível em escala porque a entrega por streaming reduz o tamanho do payload por sessão — você não está retendo um buffer de áudio completo no lado do servidor antes de retorná-lo, o que importa tanto para a latência quanto para o volume do que você está faturando.
Nota do Desenvolvedor: O preço por caractere parece simples até que você perceba que diferentes plataformas contam os caracteres de forma diferente. Algumas contam espaços, outras não; algumas contam tags de marcação SSML como caracteres faturáveis. Antes de migrar de uma plataforma para outra, envie o mesmo corpus de teste de 10.000 caracteres para ambas as APIs e compare as contagens faturadas reais. A discrepância pode ser de 5% a 15%, dependendo do seu tipo de conteúdo.
ElevenLabs: A Escolha Certa para Inglês, com um Preço
A ElevenLabs tem a melhor qualidade de voz em inglês do mercado atualmente. O plano inicial de $5/mês oferece 30.000 caracteres, o que atende confortavelmente a um app de baixo tráfego. O voice cloning está incluído nos níveis pagos.
O problema é o que acontece após 100.000 caracteres por mês. No nível Creator da ElevenLabs ($22/mês), a taxa de excesso é maior que a taxa do plano — o que significa que seu 101.000º caractere custa mais do que o seu 50.000º. Se você não tiver um limite rígido para chamadas de TTS no seu app, uma semana movimentada pode elevar sua conta muito além do preço do plano. Desenvolvedores que criam companheiros de IA ou ferramentas de audiolivro já foram prejudicados por isso na hora da fatura.
Para conteúdo que não seja em inglês, a lacuna de qualidade entre a ElevenLabs e outros provedores diminui significativamente, e o prêmio de preço torna-se mais difícil de justificar.
É a escolha certa para aplicativos em língua inglesa onde a qualidade da voz é um diferencial central do produto e o volume permanece moderado.
Google TTS: O Melhor Nível Gratuito, com Ressalvas
Quatro milhões de caracteres de voz padrão por mês gratuitamente é genuinamente um dos melhores subsídios para desenvolvedores na economia de APIs. Use-o. Para um protótipo ou produto em estágio inicial, você pode não pagar nada por meses — a API é simples, a documentação é extensa e já está incorporada na maioria dos fluxos de trabalho do Google Cloud.
O problema: sem voice cloning, personalização limitada e a lacuna de qualidade em relação aos modelos neurais mais novos é perceptível em conteúdos de formato longo. Depois de exceder o nível gratuito, a taxa por caractere é competitiva, mas você fica preso ao catálogo de vozes do Google sem caminho para customização, a menos que troque de provedor inteiramente.
Ideal para prototipagem e aplicativos de baixo volume onde o custo é a única variável que importa.
Azure TTS: Generosa Até Você Precisar de Algo Personalizado
Meio milhão de caracteres por mês grátis é o nível gratuito mais generoso nesta comparação, e a qualidade do Neural TTS da Azure melhorou consideravelmente. Se você já utiliza a infraestrutura da Azure, a consolidação do faturamento por si só pode tornar esta a escolha prática.
A contrapartida é a personalização. Vozes neurais personalizadas exigem contratos enterprise e uma configuração significativa. A taxa por caractere após o nível gratuito é justa, mas a profundidade de recursos para desenvolvedores que precisam de clonagem ou controle emocional é limitada em comparação com plataformas de TTS especializadas.
OpenAI TTS: Conveniente, Mas Não Competitiva em Preço
Se o seu produto já está chamando a API da OpenAI para outros recursos, adicionar TTS através do mesmo cliente tem baixo atrito. As opções de voz são limitadas (11 vozes), não há nível gratuito para TTS e o custo por caractere é maior do que o de alternativas especializadas.
Vale a pena considerar como uma jogada de conveniência se você estiver construindo na stack da OpenAI e quiser um único fornecedor. Não é a escolha certa se o TTS for um recurso principal e a eficiência de custos for importante.
Amazon Polly: A Opção AWS
O nível gratuito de 12 meses da Polly, com 5 milhões de caracteres por mês, é a oferta limitada por tempo mais generosa da categoria. Depois disso, a taxa do Neural TTS está alinhada com Google e Azure.
O suporte a SSML é forte, o que importa para sistemas de URA (IVR) e aplicações que precisam de controle preciso sobre a pronúncia e o ritmo. Sem voice cloning. Se você está na AWS, a integração é limpa. Se não estiver, o custo operacional de configuração não vale a pena em comparação com uma API de TTS independente.
Qual Plataforma Faz Sentido para o Seu Volume
A API de TTS mais barata depende quase inteiramente de onde você está no ciclo de vida do produto.
Prototipagem (menos de 4M carac./mês): O nível gratuito do Google TTS atende você. Não pague nada até ter usuários.
Produto em estágio inicial (1-10M carac./mês): Fish Audio ou Google, dependendo se você precisa de clonagem e suporte multilíngue. Se precisar, o preço "tudo incluído" da Fish Audio nesta faixa provavelmente será mais econômico do que montar recursos de vários provedores.
Produto em crescimento (10-50M carac./mês): Modele os custos de excesso cuidadosamente. Neste volume, o pay-as-you-go da Fish Audio geralmente supera as plataformas com níveis que forçam você a fazer upgrades de plano. A diferença de $800/mês em 20M de caracteres é uma referência útil para sua planilha.
Escala (mais de 50M carac./mês): Comece a fazer os cálculos de self-hosting. O modelo de código aberto da Fish Audio significa que seu custo por caractere eventualmente se torna um custo de processamento, não um custo de fornecedor. Nenhuma outra plataforma nesta comparação oferece isso.
Apenas inglês, qualidade é o produto: ElevenLabs. A qualidade da voz justifica o prêmio se seus usuários estiverem ouvindo atentamente e o inglês for o único idioma atendido — apenas defina limites rígidos para suas chamadas de TTS para que as taxas de excesso não peguem você de surpresa.
Conclusão
O "mais barato" muda a cada ordem de magnitude de uso. A plataforma que não custa nada no primeiro mês pode ser o item mais caro da sua infraestrutura no décimo segundo mês se você não modelou a estrutura de excessos antes de integrar.
O preço pay-as-you-go da Fish Audio, a ausência de bloqueios de funcionalidades e a rampa de saída com código aberto tornam-na a opção com custo mais previsível desde o estágio inicial até a alta escala. Não é perfeita — o catálogo de vozes da comunidade precisa de filtragem, e você vai querer fazer um QA das vozes antes de lançar. Para aplicativos de baixo volume e apenas em inglês, o nível gratuito do Google é difícil de bater. A ElevenLabs é a opção premium para qualidade em inglês em volume moderado, com a ressalva de que os preços de excesso podem surpreender se você não estiver atento.
Verifique a página de preços antes de se comprometer com qualquer integração. O nível gratuito é fácil de testar, e a documentação da API em docs.fish.audio torna a chamada inicial simples.

