Infraestructura de vozpara empresas

El modelo de voz expresivo, controlable y en tiempo real detrás de HeyGen, Retell, Sierra y la próxima generación de creadores de IA de voz. Listo para producción en video con avatares, agentes de voz, apps de personajes, contenido de audio, soporte multilingüe y traducción que conserva la voz.

Hablar con ventas Escuchar el modelo Ver precios

S2 Pro en vivo. Elige una voz, escribe una línea y escúchala al instante. El mismo modelo detrás de equipos en producción, sin registro, sin llamada de ventas y sin entorno de demo.

80+

Idiomas

2M+

Biblioteca de voces

$15/1M caracteres

Tarifa plana de API

<150ms

Primer audio ( cloud )

Con la confianza de equipos que crean voz en producción

Agentes de voz e IA conversacional

Voz en off para vídeo, doblaje y música

Interactivo y social

Educación y aprendizaje

Seis razones por las que los equipos de voz cambian.

La mayoría de los TTS suenan bien en una demo. Fish está creado para lo que viene después: tráfico de producción, pronunciación en casos límite, cambio entre idiomas, despliegues soberanos y un coste total que permite escalar en lugar de solo sobrevivir.

Producción

Listado en Artificial Analysis · metodología pública

Benchmarks

Impulsa HeyGen, Retell, Sierra y FinalRound

Pronunciación

Diccionarios personalizados · números, nombres, términos del dominio

S2 Pro aparece en la clasificación de voz de Artificial Analysis y potencia despliegues en producción en HeyGen, Retell y Sierra, gestionando tráfico real, pronunciación en casos límite y cargas multirregión que revelan lo que los benchmarks no muestran.

Producción

Listado en Artificial Analysis · metodología pública

Pronunciación

Diccionarios personalizados · números, nombres, términos del dominio

Benchmarks

Impulsa HeyGen, Retell, Sierra y FinalRound

15.000+ etiquetas de dirección en lenguaje natural. Describe lo que quieres — {cálido, conversacional, ligero acento de Boston, terminando con una caída suave} — y Fish lo renderiza. S2 Pro supera el Audio Turing Test con una puntuación publicada de 0,515: los oyentes no pueden distinguirlo de forma fiable de una voz humana. La metodología y el audio bruto son públicos.

Mandarín, japonés, coreano y cantonés con calidad nativa, con cambio de código instantáneo entre inglés, mandarín, japonés, español y árabe. La cobertura APAC que otros proveedores de voz aún prometen para el próximo trimestre ya se entrega en producción hoy.

Explora 2M+ voces entrenadas por creadores listas para usar hoy, o clona la tuya desde 30 segundos de audio. Sin cuotas de slots, sin tarifas por voz. Clonación de voz con verificación de consentimiento integrada en el flujo.

Para cargas reguladas, despliegues soberanos y equipos que necesitan control total del modelo en producción, Fish ofrece autohospedaje como un nivel empresarial premium. Ejecútalo en tu VPC, tu entorno aislado o tu centro de datos. La arquitectura que los equipos de compras piden y rara vez reciben.

$15 por millón de caracteres: plano, predecible, la misma tarifa por carácter desde tu primera llamada API hasta la milmillonésima. Los descuentos por volumen se acumulan al escalar, en varios niveles, negociados con un solo equipo. Sin tarifas por asiento. Sin barreras inesperadas para tarifas de producción.

Resultados en producción,no victorias de demo.

El titular no es la calidad. Es lo que los equipos lograron después de cambiar. Cada historia es un resultado cuantificado, escrito por el cliente.

Elegido 3 a 1 frente a alternativas para clonación de voz con acentos de inglés no estadounidenses.

Impulsa expresividad a nivel de personaje para personajes de IA japoneses dentro de Picto VOICE.

TTS de agente de voz en tiempo real para más de 10 M de usuarios: naturalidad, emoción, latencia y multilingüe.

Agentes de voz en producción con orquestación en tiempo real para conversaciones empresariales.

Coaching de entrevistas en vivo con latencia en tiempo real.

Seis categorías de producto de voz,
en producción hoy.

Desde video con avatares hasta soporte multilingüe al cliente: cada categoría siguiente es una implementación empresarial real sobre Fish, no una promesa de roadmap.

Voz para agentes de IA

Apps de personajes y compañía.

Video con avatares

Soporte multilingüe al cliente.

Mandarín · Japonés · Coreano · Cantonés

Clonación de voz a escala.

Ecosistema de 2 M de voces · clon en 30 s

Traducción y doblaje de audio.

En más de 80 idiomas · cambio de código

Se integra con el stack de agentes de voz que ya usas.

Soporte directo para las herramientas de orquestación, telefonía e infraestructura con las que los equipos de voz lanzan hoy. SDKs para los principales lenguajes. Streaming WebSocket, REST y patrones de webhook entrante documentados.

Pipelines en tiempo real

Infraestructura WebRTC

Automatización de flujos

Plataforma de agentes de voz

Telefonía · SIP · SMS

Orquestación de agentes de voz

Pipelines en tiempo real

Infraestructura WebRTC

Automatización de flujos

Plataforma de agentes de voz

Telefonía · SIP · SMS

Orquestación de agentes de voz

Lo básico que importa en una llamada con un cliente.

Empieza en el nivel Enterprise para despliegues de producción. Los descuentos por volumen se aplican con compromisos más altos: habla con ventas para una tarifa que encaje con tu tráfico. Para despliegues soberanos, el nivel premium self-host está disponible con una estructura separada de configuración y compromiso.

Hasta99%

SLA DE DISPONIBILIDAD
Disponible en el nivel enterprise premium

<150ms

PRIMER AUDIO (NUBE)
Verificado en regiones de EE. UU., UE y APAC

A medida

STREAMS CONCURRENTES
50+ en High Volume · a medida en Enterprise

80+

IDIOMAS
Con voces de calidad nativa y cambio de código

Creado para la forma en que realmente creces.

Un solo nivel enterprise. Precio plano por carácter. Descuentos por volumen que se acumulan por varios niveles al escalar, negociados con un equipo y en un contrato.

Incluido en el plan

Plan Enterprise

Condiciones y notas

Precio inicial

Desde $999 / mes

Descuentos por volumen en compromisos superiores

TTS · S2 Pro

$15 / 1M caracteres

Facturado en bytes UTF-8 · unos 180K términos ingleses por 1M

TTS · S1

$15 / 1M caracteres

Misma tarifa plana que S2 Pro

ASR · transcribe-l

$0.36 / hora de audio

Duración redondeada al segundo superior

Concurrencia

A medida

50+ en High Volume · a medida en Enterprise

Voces

Ilimitadas

Sin cupos de slots · sin cargos por voz

Acumulación

90 días

Créditos no usados se trasladan 90 días

SLA

Hasta 99%

Disponible en el nivel enterprise premium

Soporte

Canal Slack dedicado

Cumplimiento SOC2 / HIPAA bajo solicitud

Self-host premium

Desde $10K setup + $10K / mes

Compromiso 12 meses · VPC · on-prem · aislado · nube soberana

Hay descuentos por volumen en varios niveles. Contacta a ventas para una tarifa acorde a tu tráfico. El precio público refleja la entrada al nivel Enterprise; compromisos mayores desbloquean descuentos adicionales por cliente.

Listos cuando tú lo estés.

Habla con nuestro equipo sobre tu despliegue. Llegaremos preparados.

Hablar con ventas

Preguntas frecuentes

¿Dónde se almacenan mis datos? ¿Admiten residencia en EE. UU., la UE y APAC?

De forma predeterminada, tus datos permanecen en Estados Unidos, alojados en Google Cloud con almacenamiento Cloudflare R2, y la inferencia se ejecuta desde regiones edge en EE. UU. y Asia-Pacífico (Tokio) para que tus usuarios tengan baja latencia estén donde estén. Para cargas con requisitos de cumplimiento, los contratos enterprise pueden activar Zero Data Retention, lo que significa que el texto y el audio de las solicitudes nunca se escriben en disco. Y si tus datos deben permanecer dentro de un país o una región específicos, el nivel enterprise self-hosted se ejecuta completamente dentro de tu propia infraestructura, por lo que nada sale de tu entorno.

¿Pueden admitir despliegues a gran escala y picos de tráfico?

Sí, y a un volumen serio. La capacidad se aprovisiona como generaciones concurrentes que escalan con tu contrato, y ya tenemos clientes en producción ejecutando más de 1.000 generaciones concurrentes. Un gateway edge en Rust sirve la inferencia en varias regiones GPU, así que cuando tu tráfico aumenta, nuestro equipo puede elevar tus límites el mismo día. Escalas sin esperar nunca detrás de un ticket de soporte.

¿Qué certificaciones de seguridad tienen?

La seguridad atraviesa cada capa de la plataforma. Nuestra auditoría SOC 2 Type II está actualmente en curso, y el informe estará disponible para clientes bajo NDA una vez completado. Zero Data Retention está disponible en contratos enterprise, por lo que los payloads de las solicitudes nunca se persisten, y el nivel self-hosted mantiene cada byte de tus datos dentro de tu propio entorno. También admitimos configuraciones alineadas con HIPAA y podemos firmar un BAA para cargas sanitarias calificadas, y las pruebas de penetración independientes forman parte de nuestro programa continuo de cumplimiento.

¿Ofrecen soporte de ingeniería para despliegues personalizados?

Por supuesto. Los clientes enterprise tienen una línea directa con nuestro equipo de ingeniería, no una cola de tickets, en el canal que mejor se adapte a cómo trabaja su equipo. Entregamos funciones específicas de integración y extensiones de protocolo para clientes individuales de forma regular, y levantamos despliegues self-hosted contigo de extremo a extremo, desde la primera configuración hasta el go-live.

¿Admiten SSO y RBAC?

Sí, con control granular desde el primer día. El control de acceso basado en roles te permite asignar roles owner, admin y member a nivel de equipo, además de roles manager, contributor y viewer a nivel de workspace, para que cada persona tenga exactamente el acceso que debe. El inicio de sesión único funciona hoy con Google y GitHub OAuth.

¿Podemos ajustar modelos con nuestros datos o usar nuestras propias voces?

Ambas cosas, y en tus términos. Puedes crear clones de voz privados con tan solo 10 segundos de audio de referencia, 30 segundos o más para obtener los mejores resultados, al instante mediante la API o la web UI, y permanecen totalmente privados para tu equipo. Para colaboraciones más profundas, también ajustamos modelos personalizados con tus propios datos.

¿Qué pasa si migramos desde otro proveedor de voz?

Migrar a Fish Audio es sencillo, y a la mayoría de los equipos les sorprende lo rápido que avanza. Tus voces existentes se trasladan recreándolas a partir de audio de referencia, nuestros SDKs de Python, TypeScript y Go y la API de streaming WebSocket cubren los patrones de integración de los que ya dependes, y nuestro equipo de ingeniería ejecuta el cambio contigo para que producción no se interrumpa.