Fish Audio S2.1 Pro : API Text-to-Speech gratuite pour les développeurs
Résumé rapide :
S2.1 Pro, le modèle vocal le plus avancé de Fish Audio, est désormais disponible via une API text-to-speech gratuite.
83 langues, utilisation illimitée sous réserve de la politique d'utilisation équitable (Fair Use Policy).
Identifiant du modèle : s2.1-pro-free — à intégrer directement dans vos appels API Fish existants.
Essayez S2.1 Pro gratuitement — premier audio en 5 minutes →
Juin 2026 | Le modèle S2.1 Pro de Fish Audio est désormais disponible sous forme d'API text-to-speech gratuite avec un accès illimité dans le cadre d'un usage équitable.
Pourquoi l'IA vocale de haute qualité a toujours été coûteuse
Si vous avez déjà évalué des API de synthèse vocale (text-to-speech), vous connaissez déjà le schéma : les modèles qui sonnent vraiment bien sont payants.
L'offre gratuite d'ElevenLabs vous donne 10 000 crédits par mois (environ 6 à 10 minutes) avant que la barrière payante ne s'active. OpenAI TTS est facturé à l'utilisation sans aucune offre gratuite. Les derniers modèles Gemini TTS de Google — leurs plus avancés — n'offrent aucune utilisation gratuite : vous payez dès le premier jeton. Le schéma est constant dans toute l'industrie : la qualité vocale de pointe a toujours été une fonctionnalité payante.
Cela crée un réel problème pour les développeurs. Le marché des générateurs de voix par IA croît de près de 20 % par an — mais les outils pour créer des produits vocaux sont restés derrière un paywall. On ne peut pas évaluer correctement un modèle avec 10 000 crédits. On ne peut pas prototyper un agent vocal, tester un pipeline de livre audio ou expérimenter le clonage de voix sans engager un budget au préalable ou passer des semaines à se battre avec des alternatives open-source nécessitant sa propre infrastructure GPU.
Fish Audio change cela aujourd'hui.
Qu'est-ce que S2.1 Pro ?
S2.1 Pro est le modèle vocal actuel le plus performant de Fish Audio — notre meilleur modèle, désormais accessible gratuitement à tout développeur via API. C'est un modèle de synthèse vocale neuronale conçu pour une génération de voix de qualité production, avec des points forts particuliers dans le streaming à faible latence, le TTS multilingue et le clonage de voix. Il s'appuie sur les bases de S2, que nous avons publié en open-weights plus tôt cette année.
Performance
- Taux de victoire de 61 % par rapport à la génération précédente S2 Pro lors d'évaluations d'écoute comparative — voir notre comparaison à l'aveugle des fournisseurs de TTS pour plus de contexte.
- Environ 70ms de délai avant le premier audio (TTFA) pour une requête unique — contre environ 100ms pour la génération précédente.
- Amélioration du débit de plus de 2x sous charge de haute concurrence.
Pour tout le contexte technique, consultez notre article : Ici
Couverture linguistique
S2.1 Pro prend en charge 83 langues, dont l'anglais, le japonais, le chinois, le coréen, l'espagnol, l'arabe, le français, l'allemand, le portugais, le russe et des dizaines d'autres. Le même modèle gère toutes les langues — pas de points de terminaison distincts, pas de tarification par langue.
Latence
S2.1-Pro offre un TTFA (Time to First Audio) d'environ 90ms sur l'API standard, ce qui le rend viable pour les agents vocaux en direct et les systèmes de dialogue interactifs. Si vous avez besoin d'un contrôle précis sur la prosodie et le débit, consultez également les capacités de contrôle vocal au niveau du mot de S2.
Pourquoi Fish Audio peut proposer cela gratuitement maintenant
La version courte : nous avons reconstruit la pile d'inférence de A à Z, et le coût par requête a suffisamment chuté pour que nous puissions l'absorber.
Noyaux GPU personnalisés
Nous avons développé fish-scales-ops, une bibliothèque FP8 GEMM et FlashAttention de qualité production ciblant les architectures NVIDIA Hopper (H100/H200) et Blackwell (RTX 6000 PRO). Sur les formats de décodage cruciaux pour le service d'IA vocale, notre chemin MXFP8 surpasse la référence cuBLAS fusionnée par torch.compile de 2,1 à 4,3 fois. Vous n'avez pas besoin de comprendre tout cela pour utiliser l'API — mais c'est ce qui rend le niveau gratuit durable.
Débit plus élevé
Sur un seul H200 avec quantification FP8, le système maintient un débit de sortie de plus de 8 000 jetons/seconde à 64 requêtes simultanées. Plus de débit par GPU signifie plus de requêtes servies par dollar investi, ce qui rend l'accès gratuit illimité économiquement viable.
Ce que « Gratuit » signifie réellement
Nous préférons être transparents sur les contraintes plutôt que de les cacher.
Ce que vous obtenez :
- Identifiant du modèle :
s2.1-pro-free - Accès à haut volume sans limite stricte de caractères (sous réserve de la politique d'utilisation équitable).
- Même point de terminaison API que les plans payants — pas d'intégration séparée.
Limitations actuelles :
- Durée : L'accès gratuit est disponible jusqu'au 24 juillet 2026 — nous communiquerons tout changement avec un préavis.
- Pas de SLA : Pas de garanties de disponibilité ou de TTFA ; conçu pour l'expérimentation et le prototypage.
- Pas de garantie de latence : Au mieux (best-effort), non contractuel.
- Rétention des données : Les requêtes peuvent être utilisées pour améliorer la qualité du modèle — voir notre Politique de confidentialité.
- Usage commercial : Certains scénarios commerciaux peuvent faire l'objet de restrictions. Les produits générant plus de 1M$ de revenus annuels récurrents (ARR) doivent nous contacter avant d'utiliser S2.1 Pro Free. Voir Tarifs et limites de débit pour plus de détails.
Si vous avez besoin de garanties de SLA et de latence pour la production, des plans payants sont disponibles. Ce niveau est l'endroit idéal pour construire, évaluer et décider.
Comment utiliser l'API Text-to-Speech gratuite : Guide de démarrage S2.1 Pro
Obtenez votre clé API sur fish.audio/app/api-keys, puis effectuez votre premier appel. L'API Fish accepte les requêtes encodées en msgpack et renvoie l'audio dans le format de votre choix. Référence complète dans la documentation de l'API.
JavaScript
import { writeFile } from "fs/promises";
const body = {
text: "Bonjour le monde !",
reference_id: "votre_id_modele",
format: "mp3",
};
const res = await fetch("https://api.fish.audio/v1/tts", {
method: "POST",
headers: {
Authorization: "Bearer <VOTRE_CLÉ_API>",
"Content-Type": "application/json",
model: "s2.1-pro-free",
},
body: JSON.stringify(body),
});
if (!res.ok) {
throw new Error(`Échec de la requête TTS : ${res.status} ${await res.text()}`);
}
const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);
Python
import httpx
body = {
"text": "Bonjour le monde !",
"reference_id": "votre_id_modele",
"format": "mp3",
}
with httpx.Client() as client:
res = client.post(
"https://api.fish.audio/v1/tts",
headers={
"Authorization": "Bearer <VOTRE_CLÉ_API>",
"Content-Type": "application/json",
"model": "s2.1-pro-free",
},
json=body,
)
res.raise_for_status()
with open("output.mp3", "wb") as f:
f.write(res.content)
Le seul changement par rapport à tout autre appel API Fish Audio : définissez model: "s2.1-pro-free" dans les en-têtes. C'est tout.
Obtenez votre clé API gratuite →
S2.1 Pro vs ElevenLabs et les meilleures API TTS en 2026
Les informations sur les concurrents ci-dessous sont basées sur la documentation publique et les pages de tarifs au mois de juin 2026. Les prix et fonctionnalités peuvent changer — vérifiez directement auprès de chaque fournisseur avant toute décision de mise en production.
Pour une analyse indépendante plus approfondie, voir notre comparaison à l'aveugle des fournisseurs de TTS.
L'essentiel : Parmi les principaux fournisseurs d'API TTS que nous avons évalués, Fish Audio propose actuellement l'un des modèles d'accès gratuit les plus généreux — le seul où le niveau gratuit utilise le même modèle de pointe que le niveau payant, sans limite d'utilisation stricte. L'offre gratuite d'ElevenLabs est effectivement un essai limité à 10 000 crédits. Le TTS le plus avancé de Google (Gemini TTS) n'a aucune offre gratuite.
Vous cherchez une alternative gratuite à ElevenLabs qui ne fait pas de compromis sur la qualité du modèle ? S2.1 Pro est disponible dès maintenant sans limite d'utilisation.
Vous cherchez une alternative gratuite à OpenAI TTS ? L'offre TTS d'OpenAI n'a pas de niveau gratuit — S2.1 Pro est une option convaincante à évaluer en priorité.
Voir la doc API complète et commencer à construire →
Ce que vous pouvez construire avec
Le niveau gratuit est intentionnellement sans restriction sur les cas d'utilisation. Voici les scénarios où la combinaison de génération de voix par IA à faible latence, de support multilingue et de clonage de voix de S2.1 Pro tend à faire la plus grande différence.
Agents vocaux
L'IA conversationnelle en temps réel dépend entièrement de la latence. À ~90ms de TTFA pour les appels standards, S2.1 Pro est assez rapide pour un dialogue naturel. Associez-le à une couche de reconnaissance vocale et à un LLM pour un pipeline vocal complet sans facture par caractère. Vous pouvez également intégrer S2.1 Pro dans les flux d'agents via notre support MCP et compétences d'agent.
Livres audio et narration longue
Le support de 83 langues et une prosodie naturelle rendent S2.1 Pro idéal pour la production de livres audio et la synthèse vocale de long format. L'utilisation illimitée signifie que vous pouvez traiter des manuscrits entiers sans surveiller un compteur de caractères ou pré-acheter des crédits.
Clonage de voix
S2.1 Pro permet le clonage de voix à partir d'un audio de référence via API — transmettez un échantillon audio de référence et le modèle synthétise la parole avec cette voix. Créez des applications vocales personnalisées, localisez du contenu avec une identité vocale cohérente ou générez des voix de personnages pour les jeux et l'animation. Le clonage de voix est disponible sur le niveau gratuit, soumis à la même politique d'utilisation équitable.
Applications multilingues
Si votre application s'adresse à des utilisateurs dans plusieurs langues, la couverture de 83 langues avec une seule API vocale IA cohérente est une simplification significative par rapport aux alternatives qui nécessitent des modèles distincts par langue ou facturent des tarifs premium pour la synthèse vocale non-anglaise.
Dialogue de PNJ de jeux vidéo
Les pipelines audio de jeux bénéficient d'un débit élevé et d'un coût par requête prévisible. L'utilisation gratuite illimitée permet de générer de vastes bibliothèques de dialogues et d'itérer librement pendant le développement avant de s'engager sur un budget de production.
Disponible via notre écosystème de partenaires
S2.1 Pro est également disponible via un nombre croissant de plateformes partenaires, notamment Runware, Retell, Sierra, et d'autres.
Si vous construisez déjà sur l'une de ces plateformes, S2.1 Pro est accessible sans intégration ou configuration supplémentaire — utilisez simplement ce que vous avez déjà.
Nous élargissons activement le réseau de partenaires. Si vous êtes un fournisseur de plateforme ou d'infrastructure intéressé par l'intégration de S2.1 Pro, contactez notre équipe pour explorer les possibilités.
Utilisation équitable et suite des événements
Le niveau gratuit fonctionne sous une politique d'utilisation équitable (Fair Use Policy). Nous nous réservons le droit de restreindre ou de limiter l'accès pour des schémas d'utilisation s'apparentant à de l'abus plutôt qu'à du développement — l'objectif est de protéger l'accès pour toute la communauté des développeurs, et non de créer des limites arbitraires pour les cas d'utilisation légitimes. Voir Tarifs et limites de débit pour plus de détails.
À quoi s'attendre :
- L'accès gratuit est disponible dès maintenant pour une période initiale. Nous donnerons un préavis avant tout changement.
- Des plans payants avec garanties de SLA, engagements de latence et licences commerciales sont disponibles pour les charges de travail en production.
- L'investissement dans l'infrastructure est continu — le travail d'ingénierie qui a rendu ce niveau gratuit possible n'est pas un événement ponctuel.
- Infrastructure open-source : Nous prévoyons de rendre open-source les composants d'infrastructure derrière S2.1 Pro — la même pile qui rend le niveau gratuit durable.
Si vous évaluez Fish Audio pour un déploiement en production, le niveau gratuit est le bon endroit pour commencer. Construisez quelque chose de concret, mesurez ce qui compte pour votre application et contactez-nous quand vous serez prêt à discuter des exigences de production.
Pas de carte de crédit. Pas de liste d'attente. Pas de limite à ce que vous pouvez essayer.

