Offre à durée limitée- 50% DE RÉDUCTION ANNUELLEÉchanger

Infrastructure vocalepour les entreprises

Le modèle vocal expressif, contrôlable et temps réel derrière HeyGen, Retell, Sierra et la nouvelle génération de créateurs d’IA vocale. Prêt pour la production sur la vidéo avatar, les agents vocaux, les apps de personnages, le contenu audio, le multilingue et la traduction qui préserve la voix.

S2 Pro en direct. Choisissez une voix, écrivez une ligne et écoutez le résultat. Le même modèle que celui utilisé par des équipes en production, sans inscription, appel commercial ni environnement de démo.

80+
Langues
2M+
Bibliothèque vocale
$15/1M caractères
Tarif API fixe
<150ms
Premier audio ( cloud )

Des équipes qui créent de la voix en production nous font confiance

Agents vocaux et IA conversationnelle
Voix-off vidéo, doublage et musique
Interactif et social
Éducation et apprentissage

Six raisons pour lesquelles les équipes voix migrent.

La plupart des TTS sonnent bien en démonstration. Fish est conçu pour ce qui vient ensuite : trafic de production, prononciations difficiles, alternance multilingue, déploiements souverains et un coût total qui permet de scaler au lieu de simplement tenir.

Production

Référencé sur Artificial Analysis · méthodologie publique

Benchmarks

Alimente HeyGen, Retell, Sierra et FinalRound

Prononciation

Dictionnaires personnalisés · nombres, noms, termes métier

S2 Pro figure au classement vocal d’Artificial Analysis et alimente des déploiements en production chez HeyGen, Retell et Sierra, avec du trafic réel, des prononciations difficiles et des charges multirégions qui révèlent ce que les benchmarks manquent.

Des résultats en production,pas des victoires de démo.

Le sujet n'est pas seulement la qualité. C'est ce que les équipes ont obtenu après la migration. Chaque histoire est un résultat quantifié, écrit par le client.

Choisi 3 contre 1 face aux alternatives pour le clonage vocal avec des accents anglais non américains.

Apporte une expressivité au niveau du personnage aux personnages IA japonais dans Picto VOICE.

TTS d’agent vocal temps réel pour plus de 10 M d’utilisateurs : naturel, émotion, latence et multilingue.

Agents vocaux en production avec orchestration temps réel pour les conversations d’entreprise.

Coaching d’entretien en direct avec latence temps réel.

Six catégories de produits vocaux,
déjà en production aujourd’hui.

De la vidéo avatar au support client multilingue, chaque catégorie ci-dessous est un déploiement entreprise réel sur Fish, pas une promesse de feuille de route.

Voix pour agent IA

Apps de personnages et compagnons.

Vidéo avatar

Support client multilingue.

Mandarin · Japonais · Coréen · Cantonais

Clonage vocal à grande échelle.

Écosystème de 2 M de voix · clone en 30 s

Traduction et doublage audio.

Dans plus de 80 langues · alternance codique

Se branche au stack d’agents vocaux que vous utilisez déjà.

Support prêt à l’emploi pour les outils d’orchestration, de téléphonie et d’infrastructure avec lesquels les équipes vocales livrent aujourd’hui. SDK pour tous les grands langages. Streaming WebSocket, REST et modèles de webhook entrant documentés.

Les détails pratiques qui comptent lors d’un appel client.

Commencez par le niveau Enterprise pour les déploiements en production. Des remises au volume s’appliquent avec des engagements plus élevés : contactez les ventes pour une tarification adaptée à votre profil de trafic. Pour les déploiements souverains, le niveau premium self-host est disponible avec une structure de mise en place et d’engagement séparée.

Jusqu’à99%

SLA DE DISPONIBILITÉ
Disponible au niveau enterprise premium

<150ms

PREMIER AUDIO (CLOUD)
Vérifié aux États-Unis, en UE et en APAC

Custom

FLUX CONCURRENTS
50+ en High Volume · custom en Enterprise

80+

LANGUES
Avec voix de qualité native et alternance codique

Conçu pour votre vraie croissance.

Un seul niveau enterprise. Tarification fixe par caractère. Des remises au volume qui se cumulent sur plusieurs niveaux à mesure que vous grandissez, négociées avec une équipe dans un contrat.

Commencez par le niveau Enterprise pour les déploiements en production. Des remises au volume s’appliquent avec des engagements plus élevés : contactez les ventes pour une tarification adaptée à votre profil de trafic. Pour les déploiements souverains, le niveau premium self-host est disponible avec une structure de mise en place et d’engagement séparée.

Inclus dans le plan
Plan Enterprise
Conditions et notes
Prix de départ
À partir de 999 $ / mois
Remises au volume avec engagements supérieurs
TTS · S2 Pro
15 $ / 1M caractères
Facturé en octets UTF-8 · environ 180K mots anglais par 1M
TTS · S1
15 $ / 1M caractères
Même tarif fixe que S2 Pro
ASR · transcribe-l
0,36 $ / heure audio
Durée arrondie à la seconde supérieure
Concurrence
Custom
50+ en High Volume · custom en Enterprise
Voix
Illimitées
Pas de quotas de slots · pas de frais par voix
Report
90 jours
Crédits inutilisés reportés pendant 90 jours
SLA
Jusqu’à 99 %
Disponible au niveau enterprise premium
Support
Canal Slack dédié
Conformité SOC2 / HIPAA sur demande
Self-host premium
Dès 10K $ setup + 10K $ / mois
Engagement 12 mois · VPC · on-prem · air-gapped · cloud souverain

Des remises au volume sont disponibles sur plusieurs niveaux. Contactez les ventes pour une tarification adaptée à votre trafic. Le prix public reflète l’entrée Enterprise; des engagements plus importants débloquent des remises supplémentaires par client.

Prêts quand vous l’êtes.

Parlez de votre déploiement avec notre équipe. Nous arriverons préparés.

Questions fréquentes

Où mes données sont-elles stockées ? Prenez-vous en charge la résidence des données aux États-Unis, dans l’UE et en APAC ?

Par défaut, vos données restent aux États-Unis, hébergées sur Google Cloud avec le stockage Cloudflare R2, et l’inférence s’exécute depuis des régions edge aux États-Unis et en Asie-Pacifique (Tokyo) afin que vos utilisateurs bénéficient d’une faible latence où qu’ils soient. Pour les charges soumises à des contraintes de conformité, les contrats enterprise peuvent activer Zero Data Retention, ce qui signifie que le texte et l’audio des requêtes ne sont jamais écrits sur disque. Et si vos données doivent rester dans un pays ou une région spécifique, le niveau enterprise self-hosted fonctionne entièrement dans votre propre infrastructure, donc rien ne quitte votre environnement.

Pouvez-vous prendre en charge des déploiements à grande échelle et des pics de trafic ?

Oui, et à très grand volume. La capacité est provisionnée sous forme de générations simultanées qui évoluent avec votre contrat, et nous avons déjà des clients en production exécutant plus de 1 000 générations simultanées. Un gateway edge en Rust sert l’inférence sur plusieurs régions GPU, donc lorsque votre trafic augmente, notre équipe peut relever vos limites le jour même. Vous montez en charge sans jamais attendre derrière un ticket de support.

Quelles certifications de sécurité possédez-vous ?

La sécurité traverse chaque couche de la plateforme. Notre audit SOC 2 Type II est actuellement en cours, et le rapport sera disponible pour les clients sous NDA une fois terminé. Zero Data Retention est disponible sur les contrats enterprise, les payloads de requête ne sont donc jamais persistés, et le niveau self-hosted garde chaque octet de vos données dans votre propre environnement. Nous prenons aussi en charge des configurations alignées sur HIPAA et pouvons signer un BAA pour les charges de travail de santé éligibles, tandis que des tests d’intrusion indépendants font partie de notre programme de conformité continu.

Proposez-vous un support d’ingénierie pour les déploiements personnalisés ?

Absolument. Les clients enterprise disposent d’une ligne directe avec notre équipe d’ingénierie, pas d’une file de tickets, sur le canal qui correspond à leur façon de travailler. Nous livrons régulièrement des fonctionnalités spécifiques à une intégration et des extensions de protocole pour des clients individuels, et nous mettons en place les déploiements self-hosted avec vous de bout en bout, de la première configuration au go-live.

Prenez-vous en charge SSO et RBAC ?

Oui, avec un contrôle fin dès le premier jour. Le contrôle d’accès basé sur les rôles vous permet d’attribuer les rôles owner, admin et member au niveau de l’équipe, ainsi que les rôles manager, contributor et viewer au niveau du workspace, afin que chacun dispose exactement de l’accès approprié. Le single sign-on fonctionne aujourd’hui via Google et GitHub OAuth.

Pouvons-nous affiner les modèles avec nos données ou utiliser nos propres voix ?

Les deux, selon vos conditions. Vous pouvez créer des clones vocaux privés avec seulement 10 secondes d’audio de référence, 30 secondes ou plus pour de meilleurs résultats, instantanément via l’API ou la web UI, et ils restent entièrement privés pour votre équipe. Pour des engagements plus poussés, nous affinons aussi des modèles personnalisés sur vos propres données.

Comment se passe une migration depuis un autre fournisseur vocal ?

Migrer vers Fish Audio est simple, et la plupart des équipes sont surprises par la rapidité du processus. Vos voix existantes sont recréées à partir d’audio de référence, nos SDK Python, TypeScript et Go ainsi que notre API de streaming WebSocket couvrent les schémas d’intégration sur lesquels vous vous appuyez déjà, et notre équipe d’ingénierie pilote la bascule avec vous afin que la production ne manque jamais un temps.