La API de texto a voz más barata para desarrolladores en 2026: un desglose real de costes

1 mar 2026

La API de texto a voz más barata para desarrolladores en 2026: un desglose real de costes

Presupuestas $40 al mes para voz en tu aplicación. Seis meses después, la factura es de $380 y no puedes explicar inmediatamente por qué. Esa es una trayectoria común para los desarrolladores que eligieron una API de TTS basándose en el nivel gratuito sin modelar lo que sucede cuando aparecen los usuarios reales.

La brecha entre el "más barato sobre el papel" y el "más barato con tu uso real" es amplia. La mayoría de las páginas de precios destacan la cuota gratuita y ocultan la tarifa por exceso de uso. Algunas plataformas reestructuran todo su modelo de costes en torno a funciones que no necesitarás. Acertar con esto antes de quedar bloqueado en una integración ahorra más que dinero.

Los costes que la mayoría de las páginas de precios de TTS no ponen en el titular

Tres cosas inflan las facturas de TTS que rara vez aparecen en la lista comparativa que lees antes de elegir:

Precio por carácter vs. por solicitud. El precio por carácter es predecible. El precio por solicitud es engañoso cuando tu aplicación envía cadenas cortas docenas de veces por sesión. Un mensaje de confirmación de 10 palabras cuesta lo mismo que un párrafo de 200 palabras bajo los modelos de precio por solicitud.

Barreras por funciones (Feature gates). Algunas plataformas cobran la tarifa base por voces estándar, luego añaden un multiplicador para voces neuronales, otro para la clonación de voz y una partida aparte para el streaming. Lo que comienza como $0.006 por cada 1,000 caracteres se convierte en $0.024 en el momento en que has habilitado las funciones que tu producto realmente necesita.

Acantilados del nivel gratuito. El nivel gratuito de Google es generoso. El de Azure es aún más generoso con 500,000 caracteres al mes. Pero ambos se cortan en seco al llegar al límite, y ninguno te avisa antes de alcanzarlo a mitad del ciclo de facturación. Un pico de tráfico y estarás pagando todo un mes a la tarifa de pago, de forma retroactiva.

Alcancé el límite del nivel gratuito de Google TTS a las 10 de la noche de un viernes. La API empezó a devolver errores 429, la consola de facturación mostraba $0 y tardé veinte minutos en darme cuenta de que la cuota mensual se había reiniciado a nivel de caracteres, no de solicitudes. La documentación lo explica, pero no en la sección que estás escaneando cuando depuras un 429 por la noche. Ese caso extremo no documentado te cuesta una noche de insomnio.

La opción de auto-alojamiento es la única vía de escape que cambia todo esto. Si el proveedor de la API tiene un modelo de código abierto, tu techo de costes se convierte en el precio del cómputo, no en una tarifa por carácter que escala con cada nuevo usuario.

Nota del desarrollador: La mayoría de las API de TTS reinician las cuotas del nivel gratuito a la medianoche UTC del día 1 de cada mes, no en la fecha de aniversario de tu cuenta. Si te acercas al límite en la última semana del mes, limita tus llamadas de TTS no críticas o caerás por el acantilado y pasarás a la tarifa de pago por el resto del ciclo.

Comparativa de precios de API TTS: 2026

Plataforma	Nivel gratuito	Pago por uso	Inicio de plan	Clonación de voz	Streaming	Código abierto
Fish Audio	Sí	Transparente, por uso	Flexible	Incluido	Sí	Sí (Fish Speech)
ElevenLabs	10,000 caracteres/mes	Incluido en planes	$5/mes	Incluido (pago)	Sí	No
Azure TTS	500,000 caracteres/mes	~$4/1M caracteres	Empresarial	Limitado	Sí	No
Google TTS	4M caracteres/mes (Standard)	~$4/1M caracteres	Pago por uso	No	Limitado	No
OpenAI TTS	Ninguno	Por carácter	Ninguno	No	Sí	No
Amazon Polly	5M caracteres/mes (Standard)	~$4/1M (Standard)	Pago por uso	No	Sí	No

La tabla parece relativamente plana hasta que factorizas lo que cada plataforma incluye en cada punto de precio.

Fish Audio: Qué significa realmente el pago por uso sin barreras por funciones

La mayoría de las API de TTS te venden un nivel, y ese nivel determina lo que obtienes. La estructura de Fish Audio es diferente: pago por uso sin bloqueo de funciones. La clonación de voz, el streaming, el soporte multilingüe y el acceso a más de 2,000,000 de voces de la comunidad vienen con la misma llamada a la API.

Para un desarrollador que construye un producto, eso importa más que la tarifa por carácter por sí sola. No estás pagando un precio por TTS básico y otro para desbloquear las funciones que tu producto necesita para competir. El modelo de costes se mantiene lineal a medida que crece tu conjunto de funciones, no exponencial.

Una nota honesta sobre la biblioteca de voces: el catálogo comunitario de Fish Audio es enorme, pero la calidad es inconsistente. Algunas voces de la colección de más de 2 millones son claramente grabaciones de aficionados que no sobrevivirían a una revisión de control de calidad de producción. Pasarás tiempo filtrando antes de encontrar un puñado de voces con las que realmente lanzarías tu producto. Ese paso de filtrado es un esfuerzo real que la página de precios no menciona.

El techo de concurrencia también es digno de mención. Fish Audio admite un alto número de solicitudes simultáneas. Eso significa que tu coste por solicitud no cambia según cuántos usuarios utilicen la API al mismo tiempo, que es el modo de fallo que convierte una factura manejable en una emergencia cuando un producto gana tracción.

A los 20 millones de caracteres al mes, la diferencia entre el pago por uso de Fish Audio y el nivel Business de ElevenLabs asciende a unos $800 al mes, una cifra que vale la pena poner en una hoja de cálculo antes de comprometerse. Esa brecha se amplía aún más cuando añades contenido multilingüe, donde la ventaja de calidad de ElevenLabs se reduce.

La parte que cambia los cálculos: Fish Audio ofrece su modelo subyacente, Fish Speech, como código abierto en GitHub. Pasados los 50 millones de caracteres al mes, el punto de equilibrio del auto-alojamiento se alcanza rápido: pagas por el cómputo, no por una tarifa por carácter. Para la mayoría de los productos en fase inicial eso es prematuro, pero saber que existe esa rampa de salida cambia tu forma de pensar sobre la dependencia del proveedor.

La documentación de la API está en docs.fish.audio y los precios en fish.audio/plan. El modelo de pago por uso significa que no te comprometes a un mínimo mensual mientras aún validas si los usuarios realmente quieren voz en tu aplicación.

En una integración de chatbot que probé, la latencia de extremo a extremo fue inferior a 500 ms. El coste se mantuvo predecible a escala porque la entrega por streaming reduce el tamaño de la carga útil por sesión; no estás reteniendo un búfer de audio completo en el servidor antes de devolverlo, lo cual importa tanto para la latencia como para el volumen de lo que se factura.

Nota del desarrollador: El precio por carácter suena sencillo hasta que te das cuenta de que diferentes plataformas cuentan los caracteres de forma distinta. Algunas cuentan los espacios, otras no, y algunas cuentan las etiquetas de marcado SSML como caracteres facturables. Antes de migrar de una plataforma a otra, envía el mismo corpus de prueba de 10,000 caracteres a través de ambas API y compara los recuentos facturados reales. La discrepancia puede ser del 5 al 15% dependiendo de tu tipo de contenido.

ElevenLabs: La elección correcta para inglés, a un precio

ElevenLabs tiene la mejor calidad de voz en inglés del mercado actual. El plan básico de $5/mes te ofrece 30,000 caracteres, lo que cubre cómodamente una aplicación de poco tráfico. La clonación de voz está incluida en los niveles de pago.

El problema es lo que sucede después de los 100,000 caracteres al mes. En el nivel Creator de ElevenLabs ($22/mes), la tarifa por exceso es más alta que la tarifa del plan, lo que significa que tu carácter número 101,000 cuesta más que el número 50,000. Si no tienes un límite estricto para las llamadas de TTS en tu aplicación, una semana de mucha actividad puede disparar tu factura mucho más allá del precio del plan. Los desarrolladores que crean compañeros de IA o herramientas de audiolibros se han visto perjudicados por esto al recibir la factura.

Para contenido que no es en inglés, la brecha de calidad entre ElevenLabs y otros proveedores se estrecha significativamente, y el sobreprecio se vuelve más difícil de justificar.

Es la elección correcta para aplicaciones en inglés donde la calidad de la voz es un diferenciador clave del producto y el volumen se mantiene moderado.

Google TTS: El mejor nivel gratuito, con matices

Cuatro millones de caracteres de voz estándar al mes de forma gratuita es genuinamente uno de los mejores subsidios para desarrolladores en la economía de las API. Úsalo. Para un prototipo o un producto en fase inicial, podrías no pagar nada durante meses; la API es simple, la documentación es extensa y ya está integrada en la mayoría de los flujos de trabajo de Google Cloud.

El inconveniente: no hay clonación de voz, la personalización es limitada y la brecha de calidad frente a los modelos neuronales más nuevos es notable en contenidos de formato largo. Una vez que superas el nivel gratuito, la tarifa por carácter es competitiva, pero estás atado al catálogo de voces de Google sin ruta de personalización que no sea cambiar de proveedor por completo.

Ideal para prototipos y aplicaciones de bajo volumen donde el coste es la única variable que importa.

Azure TTS: Generoso hasta que necesitas algo personalizado

Medio millón de caracteres al mes gratis es el nivel gratuito más generoso de la comparativa, y la calidad de Neural TTS de Azure ha mejorado considerablemente. Si ya estás trabajando con la infraestructura de Azure, la consolidación de la facturación por sí sola podría hacer de esta la opción más práctica.

La contrapartida es la personalización. Las voces neuronales personalizadas requieren acuerdos empresariales y una configuración significativa. La tarifa por carácter tras el nivel gratuito es justa, pero la profundidad de las funciones para desarrolladores que necesitan clonación o control emocional es limitada en comparación con las plataformas de TTS especializadas.

OpenAI TTS: Conveniente, pero no competitivo en precio

Si tu producto ya realiza llamadas a la API de OpenAI para otras funciones, añadir TTS a través del mismo cliente supone poca fricción. Las opciones de voz son limitadas (11 voces), no hay nivel gratuito para TTS y el coste por carácter es más alto que en las alternativas especializadas.

Vale la pena considerarlo como una opción de conveniencia si estás construyendo sobre el ecosistema de OpenAI y quieres un único proveedor. No es la elección correcta si el TTS es una función principal y la eficiencia de costes importa.

Amazon Polly: La opción de AWS

El nivel gratuito de 12 meses de Polly de 5 millones de caracteres al mes es la oferta limitada en el tiempo más generosa de la categoría. Después de eso, la tarifa de Neural TTS está en línea con Google y Azure.

El soporte de SSML es sólido, lo cual es importante para sistemas IVR y aplicaciones que necesitan un control preciso sobre la pronunciación y el ritmo. No tiene clonación de voz. Si estás en AWS, se integra perfectamente. Si no lo estás, la sobrecarga de configuración no vale la pena en comparación con una API de TTS independiente.

Qué plataforma tiene sentido según tu volumen

La API de TTS más barata depende casi por completo de en qué punto del ciclo de vida del producto te encuentres.

Prototipado (menos de 4M de caracteres/mes): El nivel gratuito de Google TTS te cubre. No pagues nada hasta que tengas usuarios.

Producto en fase inicial (1-10M de caracteres/mes): Fish Audio o Google, dependiendo de si necesitas clonación y soporte multilingüe. Si los necesitas, el precio todo incluido de Fish Audio en este rango es probablemente más rentable que reunir funciones de múltiples proveedores.

Producto en crecimiento (10-50M de caracteres/mes): Modela cuidadosamente los costes por exceso de uso. A este volumen, el pago por uso de Fish Audio suele superar a las plataformas por niveles que te obligan a actualizar el plan. La diferencia de $800/mes a los 20M de caracteres es una buena referencia para tu hoja de cálculo.

Escala (más de 50M de caracteres/mes): Empieza a hacer cálculos para el auto-alojamiento. El modelo de código abierto de Fish Audio significa que tu coste por carácter se convierte eventualmente en un coste de cómputo, no en un coste de proveedor. Ninguna otra plataforma en esta comparativa ofrece eso.

Solo inglés, la calidad es el producto: ElevenLabs. La calidad de la voz justifica el sobreprecio si tus usuarios escuchan con atención y el inglés es el único idioma que ofreces; solo asegúrate de establecer límites de tarifa estrictos en tus llamadas de TTS para que los cargos por exceso de uso no te sorprendan.

Conclusión

Lo "más barato" cambia con cada orden de magnitud de uso. La plataforma que no cuesta nada en el primer mes podría ser tu mayor partida de infraestructura en el mes doce si no modelaste la estructura de excesos antes de realizar la integración.

El precio de pago por uso de Fish Audio, la ausencia de barreras por funciones y la rampa de salida de código abierto la convierten en la opción con costes más predecibles desde la fase inicial hasta la alta escala. No es perfecta: el catálogo de voces comunitarias necesita filtrado y querrás realizar un control de calidad de las voces antes de lanzarlas. Para aplicaciones de bajo volumen y solo en inglés, el nivel gratuito de Google es difícil de batir. ElevenLabs es la opción premium para calidad en inglés a volumen moderado, con la advertencia de que el precio por exceso puede sorprenderte si no vigilas.

Consulta la página de precios antes de comprometerte con cualquier integración. El nivel gratuito es fácil de probar y la documentación de la API en docs.fish.audio hace que la llamada inicial sea sencilla.

Preguntas Frecuentes

Para prototipos y productos en fase inicial con menos de 4 millones de caracteres al mes, el nivel gratuito de voz Standard de Google TTS no cuesta nada. Para productos que necesitan clonación de voz, streaming o soporte multilingüe desde el principio, el modelo de pago por uso de [Fish Audio](https://fish.audio) suele ser el más rentable porque esas funciones no conllevan un recargo premium.

Sí. [Fish Audio](https://fish.audio) ofrece un nivel gratuito con cuota suficiente para construir y probar una integración completa. Consulta [fish.audio/plan](https://fish.audio/plan/) para ver los detalles actuales de la cuota gratuita.

A ese volumen, auto-alojar el [modelo de código abierto de Fish Audio](https://github.com/fishaudio) (Fish Speech) es la opción más eficiente en costes. Tu coste por carácter se convierte en coste de cómputo en lugar de coste de API. Ningún otro proveedor importante de TTS ofrece una ruta de código abierto comparable.

La mayoría de las plataformas tienen al menos una: multiplicadores por voces premium, recargos por streaming, tarifas de clonación de voz por solicitud o tarifas de almacenamiento para el audio generado. El modelo de [Fish Audio](https://fish.audio) incluye clonación de voz, streaming y soporte multilingüe en el precio base sin recargos por bloqueo de funciones.

El patrón de integración principal (solicitud HTTP con texto, recibir audio) es similar en todos los proveedores principales. El cambio suele implicar la actualización de las URL de los endpoints, la autenticación y los parámetros de ID de voz. El esfuerzo principal es volver a validar la calidad de la voz en tu contenido específico.

Para aplicaciones exclusivamente en inglés donde la calidad de la voz es un diferenciador principal del producto, sí. Para aplicaciones multilingües o productos donde el TTS es una función de apoyo en lugar de una experiencia central, el sobreprecio es más difícil de justificar en comparación con [Fish Audio](https://fish.audio). Vigila de cerca la estructura de excesos antes de comprometerte.

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

Regístrate gratis

¿Ya tienes una cuenta? Iniciar sesión

Compartir este artículo

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Leer más de Kyle Cui >