Oferta por tiempo limitado- 50% DE DESCUENTO ANUALCanjear
23 jun 2026Investigación

Fish Audio S2.1 Pro: API de Texto a Voz Gratuita para Desarrolladores

Fish Audio S2.1 Pro: API de Texto a Voz Gratuita para Desarrolladores

Resumen rápido:

  • S2.1 Pro, el modelo de voz más avanzado de Fish Audio, ya está disponible como una API de texto a voz gratuita.

  • 83 idiomas, uso ilimitado bajo la Política de Uso Justo.

  • Cadena del modelo: s2.1-pro-free — incorpóralo en tus llamadas existentes a la API de Fish.

Prueba S2.1 Pro gratis — primer audio en 5 minutos →

Junio de 2026 | El modelo S2.1 Pro de Fish Audio ya está disponible como una API de texto a voz gratuita con acceso ilimitado bajo Uso Justo.


Por qué la IA de Voz de Alta Calidad Siempre ha Sido Costosa

Si has pasado tiempo evaluando APIs de texto a voz, ya conoces el patrón: los modelos que realmente suenan bien cuestan dinero.

El plan gratuito de ElevenLabs te ofrece 10,000 créditos al mes (aproximadamente 6 - 10 minutos) antes de que aparezca el muro de pago. OpenAI TTS es de pago por uso sin ningún plan gratuito. Los últimos modelos Gemini TTS de Google —los más avanzados— no tienen uso gratuito: pagas desde el primer token. El patrón es constante en toda la industria: la calidad de voz de última generación ha sido una función de pago.

Esto crea un problema real para los desarrolladores. El mercado de generadores de voz por IA crece casi un 20% anual, pero las herramientas para crear productos con voz han permanecido tras un muro de pago. No puedes evaluar adecuadamente un modelo con 10,000 créditos. No puedes prototipar un agente de voz, probar un flujo de audiolibros o experimentar con la clonación de voz sin comprometer presupuesto por adelantado o pasar semanas lidiando con alternativas de código abierto que requieren tu propia infraestructura de GPU.

Fish Audio cambia eso hoy.


¿Qué es S2.1 Pro?

Benchmark de S2.1-Pro: rendimiento (tok/s) y TTFB p50 (ms) en niveles de concurrencia de 1 a 512, mostrando 8,006 tok/s a c=64 y 73.2ms de TTFB a c=1

S2.1 Pro es el modelo de voz de última generación actual de Fish Audio — el mejor modelo que tenemos, ahora disponible para todos los desarrolladores de forma gratuita a través de la API. Es un modelo de síntesis de habla neuronal diseñado para la generación de voz por IA de nivel de producción, con fortalezas particulares en el streaming de baja latencia, TTS multilingüe y clonación de voz. Se basa en los cimientos de S2, que lanzamos con pesos abiertos a principios de este año.

Rendimiento

  • 61% de tasa de éxito frente a la generación anterior S2 Pro en evaluaciones de escucha comparativa (head-to-head) — consulta nuestra comparativa ciega de proveedores de TTS para más contexto.
  • ~70ms de Tiempo hasta el Primer Audio (TTFA) en solicitud única — frente a los ~100ms de la generación anterior.
  • Mejora de más del doble en el rendimiento (throughput) bajo carga de alta concurrencia.

Para obtener todos los antecedentes técnicos, consulta nuestro artículo: Aquí

Cobertura de Idiomas

S2.1 Pro admite 83 idiomas, incluyendo español, inglés, japonés, chino, coreano, árabe, francés, alemán, portugués, ruso y docenas más. El mismo modelo gestiona todos los idiomas — sin endpoints separados, sin precios por idioma.

Latencia

S2.1-Pro ofrece un TTFA (Tiempo hasta el Primer Audio) de ~90ms en la API estándar, lo que lo hace viable para agentes de voz en vivo y sistemas de diálogo por turnos. Si necesitas un control detallado sobre la prosodia y la entrega, consulta también las capacidades de control de voz a nivel de palabra de S2.


Por qué Fish Audio puede Ofrecer esto Gratis Ahora

Infraestructura de inferencia de Fish Audio S2.1-Pro: NVIDIA H200 con FP8 GEMM y planificador personalizado que entrega 125 audio tok/s por solicitud (RTF 0.17) y ~70ms TTFA

La versión corta: reconstruimos la pila de inferencia desde cero y el coste por solicitud bajó lo suficiente como para que podamos absorberlo.

Kernels de GPU Personalizados

Desarrollamos fish-scales-ops, una librería de FP8 GEMM y FlashAttention de grado de producción dirigida a arquitecturas NVIDIA Hopper (H100/H200) y Blackwell (RTX 6000 PRO). En las formas de decodificación que importan para el servicio de IA de voz, nuestra ruta MXFP8 supera la referencia de cuBLAS fusionada con torch.compile entre 2.1 y 4.3 veces. No necesitas entender nada de esto para usar la API, pero es la razón por la que el nivel gratuito es sostenible.

Mayor Rendimiento

En una sola H200 con cuantificación FP8, el sistema mantiene un rendimiento de salida de más de 8,000 tokens/segundo con 64 solicitudes concurrentes. Más rendimiento por GPU significa más solicitudes atendidas por dólar, que es lo que hace que el acceso gratuito ilimitado sea económicamente viable.


Qué Significa Realmente "Gratis"

Preferimos ser honestos sobre las limitaciones que ocultarlas.

Lo que obtienes:

  • Cadena del modelo: s2.1-pro-free
  • Acceso de alto volumen sin límite estricto de caracteres (sujeto a la Política de Uso Justo)
  • El mismo endpoint de API que los planes de pago — sin integraciones separadas

Limitaciones actuales:

  • Duración: El acceso gratuito está disponible hasta el 24 de julio de 2026 — comunicaremos cualquier cambio con previo aviso
  • Sin SLA: No hay garantías de tiempo de actividad o TTFA; diseñado para experimentación y prototipado
  • Sin garantía de latencia: Basado en el mejor esfuerzo, no contractual
  • Retención de datos: Las solicitudes pueden usarse para mejorar la calidad del modelo — consulta nuestra Política de Privacidad
  • Uso comercial: Algunos escenarios comerciales pueden tener restricciones. Los productos que generen más de 1 millón de dólares en ingresos anuales recurrentes (ARR) deben contactarnos antes de usar S2.1 Pro Free. Consulta Precios y Límites de Velocidad para más detalles.

Si necesitas garantías de SLA de producción y latencia, hay planes de pago disponibles. Este nivel es el lugar adecuado para construir, evaluar y decidir.


Cómo usar la API de Texto a Voz Gratuita: Guía Rápida de S2.1 Pro

Obtén tu clave de API en fish.audio/app/api-keys y realiza tu primera llamada. La API de Fish acepta solicitudes codificadas con msgpack y devuelve audio en el formato elegido. Referencia completa en la documentación de la API.

JavaScript

import { writeFile } from "fs/promises";

const body = {
  text: "¡Hola, mundo!",
  reference_id: "tu_id_de_modelo",
  format: "mp3",
};

const res = await fetch("https://api.fish.audio/v1/tts", {
  method: "POST",
  headers: {
    Authorization: "Bearer <TU_CLAVE_DE_API>",
    "Content-Type": "application/json",
    model: "s2.1-pro-free",
  },
  body: JSON.stringify(body),
});

if (!res.ok) {
  throw new Error(`La solicitud TTS falló: ${res.status} ${await res.text()}`);
}

const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);

Python

import httpx

body = {
    "text": "¡Hola, mundo!",
    "reference_id": "tu_id_de_modelo",
    "format": "mp3",
}

with httpx.Client() as client:
    res = client.post(
        "https://api.fish.audio/v1/tts",
        headers={
            "Authorization": "Bearer <TU_CLAVE_DE_API>",
            "Content-Type": "application/json",
            "model": "s2.1-pro-free",
        },
        json=body,
    )

res.raise_for_status()

with open("output.mp3", "wb") as f:
    f.write(res.content)

El único cambio respecto a cualquier otra llamada a la API de Fish Audio: establece model: "s2.1-pro-free" en las cabeceras. Eso es todo.

Obtén tu clave de API gratuita →


S2.1 Pro vs ElevenLabs y las mejores APIs de TTS en 2026

La información de los competidores a continuación se basa en documentación pública y páginas de precios disponibles a fecha de junio de 2026. Los precios y funciones pueden cambiar — verifícalo directamente con cada proveedor antes de tomar una decisión de producción.

Comparación de APIs de TTS gratuitas en 2026: Fish Audio S2.1-Pro vs ElevenLabs vs OpenAI TTS vs Google Cloud TTS

Para un análisis independiente más profundo, consulta nuestra comparativa ciega de proveedores de TTS.

Conclusión: Entre los principales proveedores de API de TTS que evaluamos, Fish Audio ofrece actualmente uno de los modelos de acceso gratuito más generosos — el único donde el nivel gratuito ejecuta el mismo modelo de última generación que el nivel de pago, sin límite estricto de uso. El nivel gratuito de ElevenLabs es efectivamente una prueba de 10,000 créditos. El TTS más avanzado de Google (Gemini TTS) no tiene ningún nivel gratuito.

¿Buscas una alternativa gratuita a ElevenLabs que no comprometa la calidad del modelo? S2.1 Pro está disponible ahora sin límite de uso.

¿Buscas una alternativa gratuita a OpenAI TTS? La oferta de TTS de OpenAI no tiene nivel gratuito — S2.1 Pro es una opción convincente para evaluar primero.

Consulta la documentación completa de la API y empieza a construir →


Qué Puedes Construir con Ello

El nivel gratuito no tiene restricciones intencionadas sobre los casos de uso. Estos son los escenarios donde la combinación de generación de voz por IA de baja latencia, soporte multilingüe y clonación de voz de S2.1 Pro suele marcar la mayor diferencia.

Agentes de Voz

La IA conversacional en tiempo real depende totalmente de la latencia. Con ~90ms de TTFA para llamadas estándar, S2.1 Pro es lo suficientemente rápido para un diálogo natural por turnos. Combínalo con una capa de voz a texto y un LLM para un flujo de voz completo sin una factura por cada carácter. También puedes integrar S2.1 Pro en flujos de trabajo de agentes a través de nuestro soporte para MCP y habilidades de agente.

Audiolibros y Narración de Larga Duración

El soporte para 83 idiomas y la prosodia natural hacen que S2.1 Pro sea ideal para la producción de audiolibros y la síntesis de voz de larga duración. El uso ilimitado significa que puedes procesar manuscritos completos sin vigilar un contador de caracteres o comprar créditos por adelantado.

Clonación de Voz

S2.1 Pro admite la clonación de voz a partir de audio de referencia a través de la API — envía una muestra de audio de referencia y el modelo sintetiza el habla en esa voz. Crea aplicaciones de voz personalizadas, localiza contenido con una identidad de hablante consistente o genera voces de personajes para juegos y animación. La clonación de voz está disponible en el nivel gratuito, sujeta a la misma Política de Uso Justo.

Aplicaciones Multilingües

Si tu aplicación sirve a usuarios en múltiples idiomas, la cobertura de 83 idiomas con una única API de voz por IA consistente es una simplificación significativa frente a alternativas que requieren endpoints de modelos separados por idioma o cobran tarifas premium por la síntesis de voz que no sea en inglés.

Diálogo de NPC para Juegos

Los flujos de audio para juegos se benefician del alto rendimiento y un coste predecible por solicitud. El uso gratuito ilimitado hace que sea práctico generar grandes librerías de diálogo e iterar libremente durante el desarrollo antes de comprometerse con un presupuesto de producción.


Disponible a Través de Nuestro Ecosistema de Socios

S2.1 Pro también está disponible a través de un número creciente de plataformas asociadas, incluyendo Runware, Retell, Sierra y otros.

Si ya estás construyendo en una de estas plataformas, S2.1 Pro es accesible sin integración o configuración adicional — simplemente usa lo que ya tienes.

Estamos expandiendo activamente la red de socios. Si eres un proveedor de plataforma o infraestructura interesado en integrar S2.1 Pro, ponte en contacto con nuestro equipo para explorar las posibilidades.


Uso Justo y Qué Sigue

El nivel gratuito opera bajo una Política de Uso Justo. Nos reservamos el derecho de regular o limitar el acceso para patrones de uso que parezcan abuso en lugar de desarrollo — el objetivo es proteger el acceso para toda la comunidad de desarrolladores, no crear límites arbitrarios para casos de uso legítimos. Consulta Precios y Límites de Velocidad para más detalles.

Algunas cosas que puedes esperar:

  • El acceso gratuito está disponible ahora por un periodo inicial. Avisaremos con antelación antes de cualquier cambio.
  • Planes de pago con garantías de SLA, compromisos de latencia y licencias comerciales están disponibles para cargas de trabajo de producción.
  • La inversión en infraestructura es continua — el trabajo de ingeniería que hizo posible este nivel gratuito no es un evento de una sola vez.
  • Infraestructura de código abierto: Planeamos abrir el código de los componentes de infraestructura detrás de S2.1 Pro — la misma pila que hace que el nivel gratuito sea sostenible.

Si estás evaluando Fish Audio para un despliegue en producción, el nivel gratuito es el lugar adecuado para comenzar. Construye algo real, mide lo que importa para tu aplicación y contáctanos cuando estés listo para discutir los requisitos de producción.

Sin tarjeta de crédito. Sin lista de espera. Sin límites en lo que puedes probar.

Obtén tu clave de API gratuita →

Preguntas Frecuentes

¿Qué es una API de texto a voz?
Una API de texto a voz (API de TTS) es un servicio web que convierte texto escrito en audio hablado. Los desarrolladores envían una cadena de texto al endpoint de la API y reciben de vuelta un archivo de audio — típicamente MP3, WAV u Opus — que puede reproducirse en aplicaciones, almacenarse o transmitirse en tiempo real. Las APIs de voz de IA modernas como S2.1 Pro utilizan modelos de síntesis de habla neuronal para producir un audio de sonido natural que es difícil de distinguir del habla humana.
¿Es Fish Audio S2.1 Pro realmente gratuita?
Sí. S2.1 Pro está disponible sin coste a través de la API de Fish utilizando la cadena de modelo `s2.1-pro-free`. No hay un límite estricto de caracteres — el uso está sujeto a una Política de Uso Justo para prevenir el abuso. El nivel gratuito no tiene SLA ni garantía de latencia, y las solicitudes pueden conservarse para mejorar el modelo. Está diseñado para el desarrollo, prototipado y evaluación. Consulta [Precios y Límites de Velocidad](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) para más detalles.
¿Cuál es la mejor API de TTS gratuita en 2026?
La mejor API de TTS gratuita depende de tu caso de uso. Entre los principales proveedores: Fish Audio S2.1 Pro ofrece un generoso acceso gratuito a un modelo de generación actual, sin límite de uso estricto y con soporte para 83 idiomas. ElevenLabs ofrece 10,000 créditos gratuitos al mes con acceso a su biblioteca de voces. Las voces WaveNet heredadas de Google son gratuitas hasta 4 millones de caracteres al mes. OpenAI TTS y el último Gemini TTS de Google no tienen nivel gratuito. Para los desarrolladores que desean evaluar una API de voz de IA de última generación sin restricciones de presupuesto, S2.1 Pro es un punto de partida sólido.
¿Cómo se compara Fish Audio con ElevenLabs?
Tanto Fish Audio como ElevenLabs ofrecen generación de voz neuronal y clonación de voz de alta calidad. Las principales diferencias prácticas en el nivel gratuito: el nivel gratuito de Fish Audio ejecuta el mismo modelo S2.1 Pro que el nivel de pago sin límite de uso estricto; el nivel gratuito de ElevenLabs está limitado a 10,000 créditos al mes. En cuanto a la cobertura de idiomas, Fish Audio admite 83 idiomas frente a los más de 70 de ElevenLabs. ElevenLabs tiene una biblioteca más grande de voces preestablecidas y un ecosistema de contenido creativo más establecido. Fish Audio suele ser más fuerte para casos de uso enfocados en desarrolladores que requieren baja latencia, alta concurrencia o soporte multilingüe. Consulta nuestra [comparativa ciega de TTS](https://fish.audio/blog/blind-tts-provider-comparison-2026/) para ver un benchmark independiente.
¿Admite Fish Audio la clonación de voz?
Sí. S2.1 Pro admite la [clonación de voz a partir de audio de referencia](https://docs.fish.audio/features/voice-cloning). Puedes enviar una muestra de audio de referencia y el modelo sintetizará el habla con esa voz. Esto funciona en los 83 idiomas admitidos, lo que lo hace especialmente útil para la localización de contenido donde es crítica una identidad de hablante consistente. Nuestro sistema de clonación de voz es uno de los más fuertes de su clase, ofreciendo una alta consistencia del hablante, prosodia natural y rendimiento estable en diferentes idiomas y acentos. La clonación de voz está disponible en el nivel gratuito, sujeta a la misma Política de Uso Justo que el resto del uso de s2.1-pro-free.
¿Puedo usar Fish Audio comercialmente?
El nivel gratuito (`s2.1-pro-free`) puede tener restricciones en ciertos escenarios comerciales. Para uso comercial en producción con licencia completa, SLA y sin retención de datos, consulta los planes de pago de Fish Audio. Consulta [Precios y Límites de Velocidad](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) y los [Términos de Servicio](https://fish.audio/terms/) para conocer la política actual.
¿Qué idiomas admite Fish Audio?
S2.1 Pro admite 83 idiomas, incluyendo español, inglés, japonés, coreano, chino, portugués, árabe, francés, alemán, ruso, italiano, turco, neerlandés, polaco, vietnamita, tailandés, indonesio y muchos más. Todos los idiomas son servidos por el mismo modelo — no hay endpoints separados ni niveles de precios específicos por idioma.
Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Leer más de Shijia Liao

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

¿Ya tienes una cuenta? Iniciar sesión