Infrastructure vocalepour les entreprises

Le modèle vocal expressif, contrôlable et temps réel derrière HeyGen, Retell, Sierra et la nouvelle génération de créateurs d’IA vocale. Prêt pour la production sur la vidéo avatar, les agents vocaux, les apps de personnages, le contenu audio, le multilingue et la traduction qui préserve la voix.

Contacter l’équipe commerciale Écouter le modèle Voir les tarifs

S2 Pro en direct. Choisissez une voix, écrivez une ligne et écoutez le résultat. Le même modèle que celui utilisé par des équipes en production, sans inscription, appel commercial ni environnement de démo.

80+

Langues

2M+

Bibliothèque vocale

$15/1M caractères

Tarif API fixe

<150ms

Premier audio ( cloud )

Des équipes qui créent de la voix en production nous font confiance

Agents vocaux et IA conversationnelle

Voix-off vidéo, doublage et musique

Interactif et social

Éducation et apprentissage

Six raisons pour lesquelles les équipes voix migrent.

La plupart des TTS sonnent bien en démonstration. Fish est conçu pour ce qui vient ensuite : trafic de production, prononciations difficiles, alternance multilingue, déploiements souverains et un coût total qui permet de scaler au lieu de simplement tenir.

Production

Référencé sur Artificial Analysis · méthodologie publique

Benchmarks

Alimente HeyGen, Retell, Sierra et FinalRound

Prononciation

Dictionnaires personnalisés · nombres, noms, termes métier

S2 Pro figure au classement vocal d’Artificial Analysis et alimente des déploiements en production chez HeyGen, Retell et Sierra, avec du trafic réel, des prononciations difficiles et des charges multirégions qui révèlent ce que les benchmarks manquent.

Production

Référencé sur Artificial Analysis · méthodologie publique

Prononciation

Dictionnaires personnalisés · nombres, noms, termes métier

Benchmarks

Alimente HeyGen, Retell, Sierra et FinalRound

15 000+ tags de direction en langage naturel. Décrivez ce que vous voulez — {chaleureux, conversationnel, léger accent de Boston, finissant sur une intonation douce descendante} — et Fish le rend. S2 Pro réussit l’Audio Turing Test avec un score publié de 0,515 : les auditeurs ne peuvent pas le distinguer de manière fiable d’une voix humaine. La méthodologie et l’audio brut sont publics.

Mandarin, japonais, coréen et cantonais de qualité native, avec code-switching instantané entre anglais, mandarin, japonais, espagnol et arabe. La couverture APAC que d’autres fournisseurs vocaux promettent encore pour le trimestre prochain est déjà disponible en production aujourd’hui.

Parcourez plus de 2M de voix entraînées par des créateurs, prêtes à l’emploi aujourd’hui, ou clonez la vôtre à partir de 30 secondes d’audio. Aucun quota de slot, aucun frais par voix. Le clonage vocal intègre la vérification du consentement dans le flux.

Pour les charges réglementées, les déploiements souverains et les équipes qui ont besoin d’un contrôle total du modèle en production, Fish propose l’auto-hébergement comme niveau enterprise premium. Exécutez-le dans votre VPC, votre environnement isolé ou votre centre de données. L’architecture que les achats demandent et obtiennent rarement.

$15 par million de caractères — plat, prévisible, le même tarif par caractère de votre premier appel API à votre milliardième. Les remises de volume se cumulent à mesure que vous scalez, sur plusieurs niveaux, négociées avec une seule équipe. Pas de frais par siège. Pas de verrouillage surprise pour les tarifs de production.

Des résultats en production,pas des victoires de démo.

Le sujet n'est pas seulement la qualité. C'est ce que les équipes ont obtenu après la migration. Chaque histoire est un résultat quantifié, écrit par le client.

Choisi 3 contre 1 face aux alternatives pour le clonage vocal avec des accents anglais non américains.

Apporte une expressivité au niveau du personnage aux personnages IA japonais dans Picto VOICE.

TTS d’agent vocal temps réel pour plus de 10 M d’utilisateurs : naturel, émotion, latence et multilingue.

Agents vocaux en production avec orchestration temps réel pour les conversations d’entreprise.

Coaching d’entretien en direct avec latence temps réel.

Six catégories de produits vocaux,
déjà en production aujourd’hui.

De la vidéo avatar au support client multilingue, chaque catégorie ci-dessous est un déploiement entreprise réel sur Fish, pas une promesse de feuille de route.

Voix pour agent IA

Apps de personnages et compagnons.

Vidéo avatar

Support client multilingue.

Mandarin · Japonais · Coréen · Cantonais

Clonage vocal à grande échelle.

Écosystème de 2 M de voix · clone en 30 s

Traduction et doublage audio.

Dans plus de 80 langues · alternance codique

Se branche au stack d’agents vocaux que vous utilisez déjà.

Support prêt à l’emploi pour les outils d’orchestration, de téléphonie et d’infrastructure avec lesquels les équipes vocales livrent aujourd’hui. SDK pour tous les grands langages. Streaming WebSocket, REST et modèles de webhook entrant documentés.

Pipelines temps réel

Infrastructure WebRTC

Automatisation des workflows

Plateforme d’agents vocaux

Téléphonie · SIP · SMS

Orchestration d’agents vocaux

Pipelines temps réel

Infrastructure WebRTC

Automatisation des workflows

Plateforme d’agents vocaux

Téléphonie · SIP · SMS

Orchestration d’agents vocaux

Les détails pratiques qui comptent lors d’un appel client.

Commencez par le niveau Enterprise pour les déploiements en production. Des remises au volume s’appliquent avec des engagements plus élevés : contactez les ventes pour une tarification adaptée à votre profil de trafic. Pour les déploiements souverains, le niveau premium self-host est disponible avec une structure de mise en place et d’engagement séparée.

Jusqu’à99%

SLA DE DISPONIBILITÉ
Disponible au niveau enterprise premium

<150ms

PREMIER AUDIO (CLOUD)
Vérifié aux États-Unis, en UE et en APAC

Custom

FLUX CONCURRENTS
50+ en High Volume · custom en Enterprise

80+

LANGUES
Avec voix de qualité native et alternance codique

Conçu pour votre vraie croissance.

Un seul niveau enterprise. Tarification fixe par caractère. Des remises au volume qui se cumulent sur plusieurs niveaux à mesure que vous grandissez, négociées avec une équipe dans un contrat.

Inclus dans le plan

Plan Enterprise

Conditions et notes

Prix de départ

À partir de 999 $ / mois

Remises au volume avec engagements supérieurs

TTS · S2 Pro

15 $ / 1M caractères

Facturé en octets UTF-8 · environ 180K mots anglais par 1M

TTS · S1

15 $ / 1M caractères

Même tarif fixe que S2 Pro

ASR · transcribe-l

0,36 $ / heure audio

Durée arrondie à la seconde supérieure

Concurrence

Custom

50+ en High Volume · custom en Enterprise

Voix

Illimitées

Pas de quotas de slots · pas de frais par voix

Report

90 jours

Crédits inutilisés reportés pendant 90 jours

SLA

Jusqu’à 99 %

Disponible au niveau enterprise premium

Support

Canal Slack dédié

Conformité SOC2 / HIPAA sur demande

Self-host premium

Dès 10K $ setup + 10K $ / mois

Engagement 12 mois · VPC · on-prem · air-gapped · cloud souverain

Des remises au volume sont disponibles sur plusieurs niveaux. Contactez les ventes pour une tarification adaptée à votre trafic. Le prix public reflète l’entrée Enterprise; des engagements plus importants débloquent des remises supplémentaires par client.

Prêts quand vous l’êtes.

Parlez de votre déploiement avec notre équipe. Nous arriverons préparés.

Contacter les ventes

Questions fréquentes

Où mes données sont-elles stockées ? Prenez-vous en charge la résidence des données aux États-Unis, dans l’UE et en APAC ?

Par défaut, vos données restent aux États-Unis, hébergées sur Google Cloud avec le stockage Cloudflare R2, et l’inférence s’exécute depuis des régions edge aux États-Unis et en Asie-Pacifique (Tokyo) afin que vos utilisateurs bénéficient d’une faible latence où qu’ils soient. Pour les charges soumises à des contraintes de conformité, les contrats enterprise peuvent activer Zero Data Retention, ce qui signifie que le texte et l’audio des requêtes ne sont jamais écrits sur disque. Et si vos données doivent rester dans un pays ou une région spécifique, le niveau enterprise self-hosted fonctionne entièrement dans votre propre infrastructure, donc rien ne quitte votre environnement.

Pouvez-vous prendre en charge des déploiements à grande échelle et des pics de trafic ?

Oui, et à très grand volume. La capacité est provisionnée sous forme de générations simultanées qui évoluent avec votre contrat, et nous avons déjà des clients en production exécutant plus de 1 000 générations simultanées. Un gateway edge en Rust sert l’inférence sur plusieurs régions GPU, donc lorsque votre trafic augmente, notre équipe peut relever vos limites le jour même. Vous montez en charge sans jamais attendre derrière un ticket de support.

Quelles certifications de sécurité possédez-vous ?

La sécurité traverse chaque couche de la plateforme. Notre audit SOC 2 Type II est actuellement en cours, et le rapport sera disponible pour les clients sous NDA une fois terminé. Zero Data Retention est disponible sur les contrats enterprise, les payloads de requête ne sont donc jamais persistés, et le niveau self-hosted garde chaque octet de vos données dans votre propre environnement. Nous prenons aussi en charge des configurations alignées sur HIPAA et pouvons signer un BAA pour les charges de travail de santé éligibles, tandis que des tests d’intrusion indépendants font partie de notre programme de conformité continu.

Proposez-vous un support d’ingénierie pour les déploiements personnalisés ?

Absolument. Les clients enterprise disposent d’une ligne directe avec notre équipe d’ingénierie, pas d’une file de tickets, sur le canal qui correspond à leur façon de travailler. Nous livrons régulièrement des fonctionnalités spécifiques à une intégration et des extensions de protocole pour des clients individuels, et nous mettons en place les déploiements self-hosted avec vous de bout en bout, de la première configuration au go-live.

Prenez-vous en charge SSO et RBAC ?

Oui, avec un contrôle fin dès le premier jour. Le contrôle d’accès basé sur les rôles vous permet d’attribuer les rôles owner, admin et member au niveau de l’équipe, ainsi que les rôles manager, contributor et viewer au niveau du workspace, afin que chacun dispose exactement de l’accès approprié. Le single sign-on fonctionne aujourd’hui via Google et GitHub OAuth.

Pouvons-nous affiner les modèles avec nos données ou utiliser nos propres voix ?

Les deux, selon vos conditions. Vous pouvez créer des clones vocaux privés avec seulement 10 secondes d’audio de référence, 30 secondes ou plus pour de meilleurs résultats, instantanément via l’API ou la web UI, et ils restent entièrement privés pour votre équipe. Pour des engagements plus poussés, nous affinons aussi des modèles personnalisés sur vos propres données.

Comment se passe une migration depuis un autre fournisseur vocal ?

Migrer vers Fish Audio est simple, et la plupart des équipes sont surprises par la rapidité du processus. Vos voix existantes sont recréées à partir d’audio de référence, nos SDK Python, TypeScript et Go ainsi que notre API de streaming WebSocket couvrent les schémas d’intégration sur lesquels vous vous appuyez déjà, et notre équipe d’ingénierie pilote la bascule avec vous afin que la production ne manque jamais un temps.