Fish Audio S2.1 Pro: API de Texto a Voz Gratuita para Desarrolladores
Resumen rápido:
S2.1 Pro, el modelo de voz más avanzado de Fish Audio, ya está disponible como una API de texto a voz gratuita.
83 idiomas, uso ilimitado bajo la Política de Uso Justo.
Cadena del modelo: s2.1-pro-free — incorpóralo en tus llamadas existentes a la API de Fish.
Prueba S2.1 Pro gratis — primer audio en 5 minutos →
Junio de 2026 | El modelo S2.1 Pro de Fish Audio ya está disponible como una API de texto a voz gratuita con acceso ilimitado bajo Uso Justo.
Por qué la IA de Voz de Alta Calidad Siempre ha Sido Costosa
Si has pasado tiempo evaluando APIs de texto a voz, ya conoces el patrón: los modelos que realmente suenan bien cuestan dinero.
El plan gratuito de ElevenLabs te ofrece 10,000 créditos al mes (aproximadamente 6 - 10 minutos) antes de que aparezca el muro de pago. OpenAI TTS es de pago por uso sin ningún plan gratuito. Los últimos modelos Gemini TTS de Google —los más avanzados— no tienen uso gratuito: pagas desde el primer token. El patrón es constante en toda la industria: la calidad de voz de última generación ha sido una función de pago.
Esto crea un problema real para los desarrolladores. El mercado de generadores de voz por IA crece casi un 20% anual, pero las herramientas para crear productos con voz han permanecido tras un muro de pago. No puedes evaluar adecuadamente un modelo con 10,000 créditos. No puedes prototipar un agente de voz, probar un flujo de audiolibros o experimentar con la clonación de voz sin comprometer presupuesto por adelantado o pasar semanas lidiando con alternativas de código abierto que requieren tu propia infraestructura de GPU.
Fish Audio cambia eso hoy.
¿Qué es S2.1 Pro?
S2.1 Pro es el modelo de voz de última generación actual de Fish Audio — el mejor modelo que tenemos, ahora disponible para todos los desarrolladores de forma gratuita a través de la API. Es un modelo de síntesis de habla neuronal diseñado para la generación de voz por IA de nivel de producción, con fortalezas particulares en el streaming de baja latencia, TTS multilingüe y clonación de voz. Se basa en los cimientos de S2, que lanzamos con pesos abiertos a principios de este año.
Rendimiento
- 61% de tasa de éxito frente a la generación anterior S2 Pro en evaluaciones de escucha comparativa (head-to-head) — consulta nuestra comparativa ciega de proveedores de TTS para más contexto.
- ~70ms de Tiempo hasta el Primer Audio (TTFA) en solicitud única — frente a los ~100ms de la generación anterior.
- Mejora de más del doble en el rendimiento (throughput) bajo carga de alta concurrencia.
Para obtener todos los antecedentes técnicos, consulta nuestro artículo: Aquí
Cobertura de Idiomas
S2.1 Pro admite 83 idiomas, incluyendo español, inglés, japonés, chino, coreano, árabe, francés, alemán, portugués, ruso y docenas más. El mismo modelo gestiona todos los idiomas — sin endpoints separados, sin precios por idioma.
Latencia
S2.1-Pro ofrece un TTFA (Tiempo hasta el Primer Audio) de ~90ms en la API estándar, lo que lo hace viable para agentes de voz en vivo y sistemas de diálogo por turnos. Si necesitas un control detallado sobre la prosodia y la entrega, consulta también las capacidades de control de voz a nivel de palabra de S2.
Por qué Fish Audio puede Ofrecer esto Gratis Ahora
La versión corta: reconstruimos la pila de inferencia desde cero y el coste por solicitud bajó lo suficiente como para que podamos absorberlo.
Kernels de GPU Personalizados
Desarrollamos fish-scales-ops, una librería de FP8 GEMM y FlashAttention de grado de producción dirigida a arquitecturas NVIDIA Hopper (H100/H200) y Blackwell (RTX 6000 PRO). En las formas de decodificación que importan para el servicio de IA de voz, nuestra ruta MXFP8 supera la referencia de cuBLAS fusionada con torch.compile entre 2.1 y 4.3 veces. No necesitas entender nada de esto para usar la API, pero es la razón por la que el nivel gratuito es sostenible.
Mayor Rendimiento
En una sola H200 con cuantificación FP8, el sistema mantiene un rendimiento de salida de más de 8,000 tokens/segundo con 64 solicitudes concurrentes. Más rendimiento por GPU significa más solicitudes atendidas por dólar, que es lo que hace que el acceso gratuito ilimitado sea económicamente viable.
Qué Significa Realmente "Gratis"
Preferimos ser honestos sobre las limitaciones que ocultarlas.
Lo que obtienes:
- Cadena del modelo:
s2.1-pro-free - Acceso de alto volumen sin límite estricto de caracteres (sujeto a la Política de Uso Justo)
- El mismo endpoint de API que los planes de pago — sin integraciones separadas
Limitaciones actuales:
- Duración: El acceso gratuito está disponible hasta el 24 de julio de 2026 — comunicaremos cualquier cambio con previo aviso
- Sin SLA: No hay garantías de tiempo de actividad o TTFA; diseñado para experimentación y prototipado
- Sin garantía de latencia: Basado en el mejor esfuerzo, no contractual
- Retención de datos: Las solicitudes pueden usarse para mejorar la calidad del modelo — consulta nuestra Política de Privacidad
- Uso comercial: Algunos escenarios comerciales pueden tener restricciones. Los productos que generen más de 1 millón de dólares en ingresos anuales recurrentes (ARR) deben contactarnos antes de usar S2.1 Pro Free. Consulta Precios y Límites de Velocidad para más detalles.
Si necesitas garantías de SLA de producción y latencia, hay planes de pago disponibles. Este nivel es el lugar adecuado para construir, evaluar y decidir.
Cómo usar la API de Texto a Voz Gratuita: Guía Rápida de S2.1 Pro
Obtén tu clave de API en fish.audio/app/api-keys y realiza tu primera llamada. La API de Fish acepta solicitudes codificadas con msgpack y devuelve audio en el formato elegido. Referencia completa en la documentación de la API.
JavaScript
import { writeFile } from "fs/promises";
const body = {
text: "¡Hola, mundo!",
reference_id: "tu_id_de_modelo",
format: "mp3",
};
const res = await fetch("https://api.fish.audio/v1/tts", {
method: "POST",
headers: {
Authorization: "Bearer <TU_CLAVE_DE_API>",
"Content-Type": "application/json",
model: "s2.1-pro-free",
},
body: JSON.stringify(body),
});
if (!res.ok) {
throw new Error(`La solicitud TTS falló: ${res.status} ${await res.text()}`);
}
const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);
Python
import httpx
body = {
"text": "¡Hola, mundo!",
"reference_id": "tu_id_de_modelo",
"format": "mp3",
}
with httpx.Client() as client:
res = client.post(
"https://api.fish.audio/v1/tts",
headers={
"Authorization": "Bearer <TU_CLAVE_DE_API>",
"Content-Type": "application/json",
"model": "s2.1-pro-free",
},
json=body,
)
res.raise_for_status()
with open("output.mp3", "wb") as f:
f.write(res.content)
El único cambio respecto a cualquier otra llamada a la API de Fish Audio: establece model: "s2.1-pro-free" en las cabeceras. Eso es todo.
Obtén tu clave de API gratuita →
S2.1 Pro vs ElevenLabs y las mejores APIs de TTS en 2026
La información de los competidores a continuación se basa en documentación pública y páginas de precios disponibles a fecha de junio de 2026. Los precios y funciones pueden cambiar — verifícalo directamente con cada proveedor antes de tomar una decisión de producción.
Para un análisis independiente más profundo, consulta nuestra comparativa ciega de proveedores de TTS.
Conclusión: Entre los principales proveedores de API de TTS que evaluamos, Fish Audio ofrece actualmente uno de los modelos de acceso gratuito más generosos — el único donde el nivel gratuito ejecuta el mismo modelo de última generación que el nivel de pago, sin límite estricto de uso. El nivel gratuito de ElevenLabs es efectivamente una prueba de 10,000 créditos. El TTS más avanzado de Google (Gemini TTS) no tiene ningún nivel gratuito.
¿Buscas una alternativa gratuita a ElevenLabs que no comprometa la calidad del modelo? S2.1 Pro está disponible ahora sin límite de uso.
¿Buscas una alternativa gratuita a OpenAI TTS? La oferta de TTS de OpenAI no tiene nivel gratuito — S2.1 Pro es una opción convincente para evaluar primero.
Consulta la documentación completa de la API y empieza a construir →
Qué Puedes Construir con Ello
El nivel gratuito no tiene restricciones intencionadas sobre los casos de uso. Estos son los escenarios donde la combinación de generación de voz por IA de baja latencia, soporte multilingüe y clonación de voz de S2.1 Pro suele marcar la mayor diferencia.
Agentes de Voz
La IA conversacional en tiempo real depende totalmente de la latencia. Con ~90ms de TTFA para llamadas estándar, S2.1 Pro es lo suficientemente rápido para un diálogo natural por turnos. Combínalo con una capa de voz a texto y un LLM para un flujo de voz completo sin una factura por cada carácter. También puedes integrar S2.1 Pro en flujos de trabajo de agentes a través de nuestro soporte para MCP y habilidades de agente.
Audiolibros y Narración de Larga Duración
El soporte para 83 idiomas y la prosodia natural hacen que S2.1 Pro sea ideal para la producción de audiolibros y la síntesis de voz de larga duración. El uso ilimitado significa que puedes procesar manuscritos completos sin vigilar un contador de caracteres o comprar créditos por adelantado.
Clonación de Voz
S2.1 Pro admite la clonación de voz a partir de audio de referencia a través de la API — envía una muestra de audio de referencia y el modelo sintetiza el habla en esa voz. Crea aplicaciones de voz personalizadas, localiza contenido con una identidad de hablante consistente o genera voces de personajes para juegos y animación. La clonación de voz está disponible en el nivel gratuito, sujeta a la misma Política de Uso Justo.
Aplicaciones Multilingües
Si tu aplicación sirve a usuarios en múltiples idiomas, la cobertura de 83 idiomas con una única API de voz por IA consistente es una simplificación significativa frente a alternativas que requieren endpoints de modelos separados por idioma o cobran tarifas premium por la síntesis de voz que no sea en inglés.
Diálogo de NPC para Juegos
Los flujos de audio para juegos se benefician del alto rendimiento y un coste predecible por solicitud. El uso gratuito ilimitado hace que sea práctico generar grandes librerías de diálogo e iterar libremente durante el desarrollo antes de comprometerse con un presupuesto de producción.
Disponible a Través de Nuestro Ecosistema de Socios
S2.1 Pro también está disponible a través de un número creciente de plataformas asociadas, incluyendo Runware, Retell, Sierra y otros.
Si ya estás construyendo en una de estas plataformas, S2.1 Pro es accesible sin integración o configuración adicional — simplemente usa lo que ya tienes.
Estamos expandiendo activamente la red de socios. Si eres un proveedor de plataforma o infraestructura interesado en integrar S2.1 Pro, ponte en contacto con nuestro equipo para explorar las posibilidades.
Uso Justo y Qué Sigue
El nivel gratuito opera bajo una Política de Uso Justo. Nos reservamos el derecho de regular o limitar el acceso para patrones de uso que parezcan abuso en lugar de desarrollo — el objetivo es proteger el acceso para toda la comunidad de desarrolladores, no crear límites arbitrarios para casos de uso legítimos. Consulta Precios y Límites de Velocidad para más detalles.
Algunas cosas que puedes esperar:
- El acceso gratuito está disponible ahora por un periodo inicial. Avisaremos con antelación antes de cualquier cambio.
- Planes de pago con garantías de SLA, compromisos de latencia y licencias comerciales están disponibles para cargas de trabajo de producción.
- La inversión en infraestructura es continua — el trabajo de ingeniería que hizo posible este nivel gratuito no es un evento de una sola vez.
- Infraestructura de código abierto: Planeamos abrir el código de los componentes de infraestructura detrás de S2.1 Pro — la misma pila que hace que el nivel gratuito sea sostenible.
Si estás evaluando Fish Audio para un despliegue en producción, el nivel gratuito es el lugar adecuado para comenzar. Construye algo real, mide lo que importa para tu aplicación y contáctanos cuando estés listo para discutir los requisitos de producción.
Sin tarjeta de crédito. Sin lista de espera. Sin límites en lo que puedes probar.

