Oferta por tiempo limitado- 50% DE DESCUENTO ANUALCanjear

Infraestructura de vozpara empresas

El modelo de voz expresivo, controlable y en tiempo real detrás de HeyGen, Retell, Sierra y la próxima generación de creadores de IA de voz. Listo para producción en video con avatares, agentes de voz, apps de personajes, contenido de audio, soporte multilingüe y traducción que conserva la voz.

S2 Pro en vivo. Elige una voz, escribe una línea y escúchala al instante. El mismo modelo detrás de equipos en producción, sin registro, sin llamada de ventas y sin entorno de demo.

80+
Idiomas
2M+
Biblioteca de voces
$15/1M caracteres
Tarifa plana de API
<150ms
Primer audio ( cloud )

Con la confianza de equipos que crean voz en producción

Agentes de voz e IA conversacional
Voz en off para vídeo, doblaje y música
Interactivo y social
Educación y aprendizaje

Seis razones por las que los equipos de voz cambian.

La mayoría de los TTS suenan bien en una demo. Fish está creado para lo que viene después: tráfico de producción, pronunciación en casos límite, cambio entre idiomas, despliegues soberanos y un coste total que permite escalar en lugar de solo sobrevivir.

Producción

Listado en Artificial Analysis · metodología pública

Benchmarks

Impulsa HeyGen, Retell, Sierra y FinalRound

Pronunciación

Diccionarios personalizados · números, nombres, términos del dominio

S2 Pro aparece en la clasificación de voz de Artificial Analysis y potencia despliegues en producción en HeyGen, Retell y Sierra, gestionando tráfico real, pronunciación en casos límite y cargas multirregión que revelan lo que los benchmarks no muestran.

Resultados en producción,no victorias de demo.

El titular no es la calidad. Es lo que los equipos lograron después de cambiar. Cada historia es un resultado cuantificado, escrito por el cliente.

Elegido 3 a 1 frente a alternativas para clonación de voz con acentos de inglés no estadounidenses.

Impulsa expresividad a nivel de personaje para personajes de IA japoneses dentro de Picto VOICE.

TTS de agente de voz en tiempo real para más de 10 M de usuarios: naturalidad, emoción, latencia y multilingüe.

Agentes de voz en producción con orquestación en tiempo real para conversaciones empresariales.

Coaching de entrevistas en vivo con latencia en tiempo real.

Seis categorías de producto de voz,
en producción hoy.

Desde video con avatares hasta soporte multilingüe al cliente: cada categoría siguiente es una implementación empresarial real sobre Fish, no una promesa de roadmap.

Voz para agentes de IA

Apps de personajes y compañía.

Video con avatares

Soporte multilingüe al cliente.

Mandarín · Japonés · Coreano · Cantonés

Clonación de voz a escala.

Ecosistema de 2 M de voces · clon en 30 s

Traducción y doblaje de audio.

En más de 80 idiomas · cambio de código

Se integra con el stack de agentes de voz que ya usas.

Soporte directo para las herramientas de orquestación, telefonía e infraestructura con las que los equipos de voz lanzan hoy. SDKs para los principales lenguajes. Streaming WebSocket, REST y patrones de webhook entrante documentados.

Lo básico que importa en una llamada con un cliente.

Empieza en el nivel Enterprise para despliegues de producción. Los descuentos por volumen se aplican con compromisos más altos: habla con ventas para una tarifa que encaje con tu tráfico. Para despliegues soberanos, el nivel premium self-host está disponible con una estructura separada de configuración y compromiso.

Hasta99%

SLA DE DISPONIBILIDAD
Disponible en el nivel enterprise premium

<150ms

PRIMER AUDIO (NUBE)
Verificado en regiones de EE. UU., UE y APAC

A medida

STREAMS CONCURRENTES
50+ en High Volume · a medida en Enterprise

80+

IDIOMAS
Con voces de calidad nativa y cambio de código

Creado para la forma en que realmente creces.

Un solo nivel enterprise. Precio plano por carácter. Descuentos por volumen que se acumulan por varios niveles al escalar, negociados con un equipo y en un contrato.

Empieza en el nivel Enterprise para despliegues de producción. Los descuentos por volumen se aplican con compromisos más altos: habla con ventas para una tarifa que encaje con tu tráfico. Para despliegues soberanos, el nivel premium self-host está disponible con una estructura separada de configuración y compromiso.

Incluido en el plan
Plan Enterprise
Condiciones y notas
Precio inicial
Desde $999 / mes
Descuentos por volumen en compromisos superiores
TTS · S2 Pro
$15 / 1M caracteres
Facturado en bytes UTF-8 · unos 180K términos ingleses por 1M
TTS · S1
$15 / 1M caracteres
Misma tarifa plana que S2 Pro
ASR · transcribe-l
$0.36 / hora de audio
Duración redondeada al segundo superior
Concurrencia
A medida
50+ en High Volume · a medida en Enterprise
Voces
Ilimitadas
Sin cupos de slots · sin cargos por voz
Acumulación
90 días
Créditos no usados se trasladan 90 días
SLA
Hasta 99%
Disponible en el nivel enterprise premium
Soporte
Canal Slack dedicado
Cumplimiento SOC2 / HIPAA bajo solicitud
Self-host premium
Desde $10K setup + $10K / mes
Compromiso 12 meses · VPC · on-prem · aislado · nube soberana

Hay descuentos por volumen en varios niveles. Contacta a ventas para una tarifa acorde a tu tráfico. El precio público refleja la entrada al nivel Enterprise; compromisos mayores desbloquean descuentos adicionales por cliente.

Listos cuando tú lo estés.

Habla con nuestro equipo sobre tu despliegue. Llegaremos preparados.

Preguntas frecuentes

¿Dónde se almacenan mis datos? ¿Admiten residencia en EE. UU., la UE y APAC?

De forma predeterminada, tus datos permanecen en Estados Unidos, alojados en Google Cloud con almacenamiento Cloudflare R2, y la inferencia se ejecuta desde regiones edge en EE. UU. y Asia-Pacífico (Tokio) para que tus usuarios tengan baja latencia estén donde estén. Para cargas con requisitos de cumplimiento, los contratos enterprise pueden activar Zero Data Retention, lo que significa que el texto y el audio de las solicitudes nunca se escriben en disco. Y si tus datos deben permanecer dentro de un país o una región específicos, el nivel enterprise self-hosted se ejecuta completamente dentro de tu propia infraestructura, por lo que nada sale de tu entorno.

¿Pueden admitir despliegues a gran escala y picos de tráfico?

Sí, y a un volumen serio. La capacidad se aprovisiona como generaciones concurrentes que escalan con tu contrato, y ya tenemos clientes en producción ejecutando más de 1.000 generaciones concurrentes. Un gateway edge en Rust sirve la inferencia en varias regiones GPU, así que cuando tu tráfico aumenta, nuestro equipo puede elevar tus límites el mismo día. Escalas sin esperar nunca detrás de un ticket de soporte.

¿Qué certificaciones de seguridad tienen?

La seguridad atraviesa cada capa de la plataforma. Nuestra auditoría SOC 2 Type II está actualmente en curso, y el informe estará disponible para clientes bajo NDA una vez completado. Zero Data Retention está disponible en contratos enterprise, por lo que los payloads de las solicitudes nunca se persisten, y el nivel self-hosted mantiene cada byte de tus datos dentro de tu propio entorno. También admitimos configuraciones alineadas con HIPAA y podemos firmar un BAA para cargas sanitarias calificadas, y las pruebas de penetración independientes forman parte de nuestro programa continuo de cumplimiento.

¿Ofrecen soporte de ingeniería para despliegues personalizados?

Por supuesto. Los clientes enterprise tienen una línea directa con nuestro equipo de ingeniería, no una cola de tickets, en el canal que mejor se adapte a cómo trabaja su equipo. Entregamos funciones específicas de integración y extensiones de protocolo para clientes individuales de forma regular, y levantamos despliegues self-hosted contigo de extremo a extremo, desde la primera configuración hasta el go-live.

¿Admiten SSO y RBAC?

Sí, con control granular desde el primer día. El control de acceso basado en roles te permite asignar roles owner, admin y member a nivel de equipo, además de roles manager, contributor y viewer a nivel de workspace, para que cada persona tenga exactamente el acceso que debe. El inicio de sesión único funciona hoy con Google y GitHub OAuth.

¿Podemos ajustar modelos con nuestros datos o usar nuestras propias voces?

Ambas cosas, y en tus términos. Puedes crear clones de voz privados con tan solo 10 segundos de audio de referencia, 30 segundos o más para obtener los mejores resultados, al instante mediante la API o la web UI, y permanecen totalmente privados para tu equipo. Para colaboraciones más profundas, también ajustamos modelos personalizados con tus propios datos.

¿Qué pasa si migramos desde otro proveedor de voz?

Migrar a Fish Audio es sencillo, y a la mayoría de los equipos les sorprende lo rápido que avanza. Tus voces existentes se trasladan recreándolas a partir de audio de referencia, nuestros SDKs de Python, TypeScript y Go y la API de streaming WebSocket cubren los patrones de integración de los que ya dependes, y nuestro equipo de ingeniería ejecuta el cambio contigo para que producción no se interrumpa.