Offre à durée limitée- 50% DE RÉDUCTION ANNUELLEÉchanger
23 juin 2026Recherche

Fish Audio S2.1 Pro : API Text-to-Speech gratuite pour les développeurs

Fish Audio S2.1 Pro : API Text-to-Speech gratuite pour les développeurs

Résumé rapide :

  • S2.1 Pro, le modèle vocal le plus avancé de Fish Audio, est désormais disponible via une API text-to-speech gratuite.

  • 83 langues, utilisation illimitée sous réserve de la politique d'utilisation équitable (Fair Use Policy).

  • Identifiant du modèle : s2.1-pro-free — à intégrer directement dans vos appels API Fish existants.

Essayez S2.1 Pro gratuitement — premier audio en 5 minutes →

Juin 2026 | Le modèle S2.1 Pro de Fish Audio est désormais disponible sous forme d'API text-to-speech gratuite avec un accès illimité dans le cadre d'un usage équitable.


Pourquoi l'IA vocale de haute qualité a toujours été coûteuse

Si vous avez déjà évalué des API de synthèse vocale (text-to-speech), vous connaissez déjà le schéma : les modèles qui sonnent vraiment bien sont payants.

L'offre gratuite d'ElevenLabs vous donne 10 000 crédits par mois (environ 6 à 10 minutes) avant que la barrière payante ne s'active. OpenAI TTS est facturé à l'utilisation sans aucune offre gratuite. Les derniers modèles Gemini TTS de Google — leurs plus avancés — n'offrent aucune utilisation gratuite : vous payez dès le premier jeton. Le schéma est constant dans toute l'industrie : la qualité vocale de pointe a toujours été une fonctionnalité payante.

Cela crée un réel problème pour les développeurs. Le marché des générateurs de voix par IA croît de près de 20 % par an — mais les outils pour créer des produits vocaux sont restés derrière un paywall. On ne peut pas évaluer correctement un modèle avec 10 000 crédits. On ne peut pas prototyper un agent vocal, tester un pipeline de livre audio ou expérimenter le clonage de voix sans engager un budget au préalable ou passer des semaines à se battre avec des alternatives open-source nécessitant sa propre infrastructure GPU.

Fish Audio change cela aujourd'hui.


Qu'est-ce que S2.1 Pro ?

Benchmark S2.1-Pro : débit (tok/s) et TTFB p50 (ms) selon les niveaux de concurrence de 1 à 512, montrant 8 006 tok/s à c=64 et 73,2ms de TTFB à c=1

S2.1 Pro est le modèle vocal actuel le plus performant de Fish Audio — notre meilleur modèle, désormais accessible gratuitement à tout développeur via API. C'est un modèle de synthèse vocale neuronale conçu pour une génération de voix de qualité production, avec des points forts particuliers dans le streaming à faible latence, le TTS multilingue et le clonage de voix. Il s'appuie sur les bases de S2, que nous avons publié en open-weights plus tôt cette année.

Performance

  • Taux de victoire de 61 % par rapport à la génération précédente S2 Pro lors d'évaluations d'écoute comparative — voir notre comparaison à l'aveugle des fournisseurs de TTS pour plus de contexte.
  • Environ 70ms de délai avant le premier audio (TTFA) pour une requête unique — contre environ 100ms pour la génération précédente.
  • Amélioration du débit de plus de 2x sous charge de haute concurrence.

Pour tout le contexte technique, consultez notre article : Ici

Couverture linguistique

S2.1 Pro prend en charge 83 langues, dont l'anglais, le japonais, le chinois, le coréen, l'espagnol, l'arabe, le français, l'allemand, le portugais, le russe et des dizaines d'autres. Le même modèle gère toutes les langues — pas de points de terminaison distincts, pas de tarification par langue.

Latence

S2.1-Pro offre un TTFA (Time to First Audio) d'environ 90ms sur l'API standard, ce qui le rend viable pour les agents vocaux en direct et les systèmes de dialogue interactifs. Si vous avez besoin d'un contrôle précis sur la prosodie et le débit, consultez également les capacités de contrôle vocal au niveau du mot de S2.


Pourquoi Fish Audio peut proposer cela gratuitement maintenant

Infrastructure d'inférence Fish Audio S2.1-Pro : NVIDIA H200 avec FP8 GEMM et ordonnanceur personnalisé délivrant 125 tok/s audio par requête (RTF 0.17) et ~70ms TTFA

La version courte : nous avons reconstruit la pile d'inférence de A à Z, et le coût par requête a suffisamment chuté pour que nous puissions l'absorber.

Noyaux GPU personnalisés

Nous avons développé fish-scales-ops, une bibliothèque FP8 GEMM et FlashAttention de qualité production ciblant les architectures NVIDIA Hopper (H100/H200) et Blackwell (RTX 6000 PRO). Sur les formats de décodage cruciaux pour le service d'IA vocale, notre chemin MXFP8 surpasse la référence cuBLAS fusionnée par torch.compile de 2,1 à 4,3 fois. Vous n'avez pas besoin de comprendre tout cela pour utiliser l'API — mais c'est ce qui rend le niveau gratuit durable.

Débit plus élevé

Sur un seul H200 avec quantification FP8, le système maintient un débit de sortie de plus de 8 000 jetons/seconde à 64 requêtes simultanées. Plus de débit par GPU signifie plus de requêtes servies par dollar investi, ce qui rend l'accès gratuit illimité économiquement viable.


Ce que « Gratuit » signifie réellement

Nous préférons être transparents sur les contraintes plutôt que de les cacher.

Ce que vous obtenez :

  • Identifiant du modèle : s2.1-pro-free
  • Accès à haut volume sans limite stricte de caractères (sous réserve de la politique d'utilisation équitable).
  • Même point de terminaison API que les plans payants — pas d'intégration séparée.

Limitations actuelles :

  • Durée : L'accès gratuit est disponible jusqu'au 24 juillet 2026 — nous communiquerons tout changement avec un préavis.
  • Pas de SLA : Pas de garanties de disponibilité ou de TTFA ; conçu pour l'expérimentation et le prototypage.
  • Pas de garantie de latence : Au mieux (best-effort), non contractuel.
  • Rétention des données : Les requêtes peuvent être utilisées pour améliorer la qualité du modèle — voir notre Politique de confidentialité.
  • Usage commercial : Certains scénarios commerciaux peuvent faire l'objet de restrictions. Les produits générant plus de 1M$ de revenus annuels récurrents (ARR) doivent nous contacter avant d'utiliser S2.1 Pro Free. Voir Tarifs et limites de débit pour plus de détails.

Si vous avez besoin de garanties de SLA et de latence pour la production, des plans payants sont disponibles. Ce niveau est l'endroit idéal pour construire, évaluer et décider.


Comment utiliser l'API Text-to-Speech gratuite : Guide de démarrage S2.1 Pro

Obtenez votre clé API sur fish.audio/app/api-keys, puis effectuez votre premier appel. L'API Fish accepte les requêtes encodées en msgpack et renvoie l'audio dans le format de votre choix. Référence complète dans la documentation de l'API.

JavaScript

import { writeFile } from "fs/promises";

const body = {
  text: "Bonjour le monde !",
  reference_id: "votre_id_modele",
  format: "mp3",
};

const res = await fetch("https://api.fish.audio/v1/tts", {
  method: "POST",
  headers: {
    Authorization: "Bearer <VOTRE_CLÉ_API>",
    "Content-Type": "application/json",
    model: "s2.1-pro-free",
  },
  body: JSON.stringify(body),
});

if (!res.ok) {
  throw new Error(`Échec de la requête TTS : ${res.status} ${await res.text()}`);
}

const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);

Python

import httpx

body = {
    "text": "Bonjour le monde !",
    "reference_id": "votre_id_modele",
    "format": "mp3",
}

with httpx.Client() as client:
    res = client.post(
        "https://api.fish.audio/v1/tts",
        headers={
            "Authorization": "Bearer <VOTRE_CLÉ_API>",
            "Content-Type": "application/json",
            "model": "s2.1-pro-free",
        },
        json=body,
    )

res.raise_for_status()

with open("output.mp3", "wb") as f:
    f.write(res.content)

Le seul changement par rapport à tout autre appel API Fish Audio : définissez model: "s2.1-pro-free" dans les en-têtes. C'est tout.

Obtenez votre clé API gratuite →


S2.1 Pro vs ElevenLabs et les meilleures API TTS en 2026

Les informations sur les concurrents ci-dessous sont basées sur la documentation publique et les pages de tarifs au mois de juin 2026. Les prix et fonctionnalités peuvent changer — vérifiez directement auprès de chaque fournisseur avant toute décision de mise en production.

Comparaison des API TTS gratuites en 2026 : Fish Audio S2.1-Pro vs ElevenLabs vs OpenAI TTS vs Google Cloud TTS

Pour une analyse indépendante plus approfondie, voir notre comparaison à l'aveugle des fournisseurs de TTS.

L'essentiel : Parmi les principaux fournisseurs d'API TTS que nous avons évalués, Fish Audio propose actuellement l'un des modèles d'accès gratuit les plus généreux — le seul où le niveau gratuit utilise le même modèle de pointe que le niveau payant, sans limite d'utilisation stricte. L'offre gratuite d'ElevenLabs est effectivement un essai limité à 10 000 crédits. Le TTS le plus avancé de Google (Gemini TTS) n'a aucune offre gratuite.

Vous cherchez une alternative gratuite à ElevenLabs qui ne fait pas de compromis sur la qualité du modèle ? S2.1 Pro est disponible dès maintenant sans limite d'utilisation.

Vous cherchez une alternative gratuite à OpenAI TTS ? L'offre TTS d'OpenAI n'a pas de niveau gratuit — S2.1 Pro est une option convaincante à évaluer en priorité.

Voir la doc API complète et commencer à construire →


Ce que vous pouvez construire avec

Le niveau gratuit est intentionnellement sans restriction sur les cas d'utilisation. Voici les scénarios où la combinaison de génération de voix par IA à faible latence, de support multilingue et de clonage de voix de S2.1 Pro tend à faire la plus grande différence.

Agents vocaux

L'IA conversationnelle en temps réel dépend entièrement de la latence. À ~90ms de TTFA pour les appels standards, S2.1 Pro est assez rapide pour un dialogue naturel. Associez-le à une couche de reconnaissance vocale et à un LLM pour un pipeline vocal complet sans facture par caractère. Vous pouvez également intégrer S2.1 Pro dans les flux d'agents via notre support MCP et compétences d'agent.

Livres audio et narration longue

Le support de 83 langues et une prosodie naturelle rendent S2.1 Pro idéal pour la production de livres audio et la synthèse vocale de long format. L'utilisation illimitée signifie que vous pouvez traiter des manuscrits entiers sans surveiller un compteur de caractères ou pré-acheter des crédits.

Clonage de voix

S2.1 Pro permet le clonage de voix à partir d'un audio de référence via API — transmettez un échantillon audio de référence et le modèle synthétise la parole avec cette voix. Créez des applications vocales personnalisées, localisez du contenu avec une identité vocale cohérente ou générez des voix de personnages pour les jeux et l'animation. Le clonage de voix est disponible sur le niveau gratuit, soumis à la même politique d'utilisation équitable.

Applications multilingues

Si votre application s'adresse à des utilisateurs dans plusieurs langues, la couverture de 83 langues avec une seule API vocale IA cohérente est une simplification significative par rapport aux alternatives qui nécessitent des modèles distincts par langue ou facturent des tarifs premium pour la synthèse vocale non-anglaise.

Dialogue de PNJ de jeux vidéo

Les pipelines audio de jeux bénéficient d'un débit élevé et d'un coût par requête prévisible. L'utilisation gratuite illimitée permet de générer de vastes bibliothèques de dialogues et d'itérer librement pendant le développement avant de s'engager sur un budget de production.


Disponible via notre écosystème de partenaires

S2.1 Pro est également disponible via un nombre croissant de plateformes partenaires, notamment Runware, Retell, Sierra, et d'autres.

Si vous construisez déjà sur l'une de ces plateformes, S2.1 Pro est accessible sans intégration ou configuration supplémentaire — utilisez simplement ce que vous avez déjà.

Nous élargissons activement le réseau de partenaires. Si vous êtes un fournisseur de plateforme ou d'infrastructure intéressé par l'intégration de S2.1 Pro, contactez notre équipe pour explorer les possibilités.


Utilisation équitable et suite des événements

Le niveau gratuit fonctionne sous une politique d'utilisation équitable (Fair Use Policy). Nous nous réservons le droit de restreindre ou de limiter l'accès pour des schémas d'utilisation s'apparentant à de l'abus plutôt qu'à du développement — l'objectif est de protéger l'accès pour toute la communauté des développeurs, et non de créer des limites arbitraires pour les cas d'utilisation légitimes. Voir Tarifs et limites de débit pour plus de détails.

À quoi s'attendre :

  • L'accès gratuit est disponible dès maintenant pour une période initiale. Nous donnerons un préavis avant tout changement.
  • Des plans payants avec garanties de SLA, engagements de latence et licences commerciales sont disponibles pour les charges de travail en production.
  • L'investissement dans l'infrastructure est continu — le travail d'ingénierie qui a rendu ce niveau gratuit possible n'est pas un événement ponctuel.
  • Infrastructure open-source : Nous prévoyons de rendre open-source les composants d'infrastructure derrière S2.1 Pro — la même pile qui rend le niveau gratuit durable.

Si vous évaluez Fish Audio pour un déploiement en production, le niveau gratuit est le bon endroit pour commencer. Construisez quelque chose de concret, mesurez ce qui compte pour votre application et contactez-nous quand vous serez prêt à discuter des exigences de production.

Pas de carte de crédit. Pas de liste d'attente. Pas de limite à ce que vous pouvez essayer.

Obtenez votre clé API gratuite →

Questions Fréquemment Posées

Qu'est-ce qu'une API de synthèse vocale (text-to-speech) ?
Une API de synthèse vocale (TTS API) est un service web qui convertit du texte écrit en audio parlé. Les développeurs envoient une chaîne de texte au point de terminaison de l'API et reçoivent en retour un fichier audio — généralement MP3, WAV ou Opus — qui peut être lu dans des applications, stocké ou diffusé en temps réel. Les API vocales IA modernes comme S2.1 Pro utilisent des modèles de synthèse vocale neuronale pour produire un audio naturel difficile à distinguer de la parole humaine.
L'offre Fish Audio S2.1 Pro est-elle vraiment gratuite ?
Oui. S2.1 Pro est disponible sans frais via l'API Fish en utilisant l'identifiant de modèle `s2.1-pro-free`. Il n'y a pas de limite stricte de caractères — l'utilisation est soumise à une politique d'utilisation équitable pour éviter les abus. Le niveau gratuit n'a pas de SLA ni de garantie de latence, et les requêtes peuvent être conservées pour l'amélioration du modèle. Il est conçu pour le développement, le prototypage et l'évaluation. Voir [Tarifs et limites de débit](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) pour tous les détails.
Quelle est la meilleure API TTS gratuite en 2026 ?
La meilleure API TTS gratuite dépend de votre cas d'utilisation. Parmi les principaux fournisseurs : Fish Audio S2.1 Pro offre un accès gratuit généreux à un modèle de génération actuelle, sans limite d'utilisation stricte et avec un support de 83 langues. ElevenLabs offre 10 000 crédits gratuits par mois avec accès à sa bibliothèque de voix. Les voix WaveNet historiques de Google sont gratuites jusqu'à 4 millions de caractères par mois. OpenAI TTS et le dernier Gemini TTS de Google n'ont pas d'offre gratuite. Pour les développeurs qui souhaitent évaluer une API vocale IA de pointe sans contrainte budgétaire, S2.1 Pro est un excellent point de départ.
Comment Fish Audio se compare-t-il à ElevenLabs ?
Fish Audio et ElevenLabs proposent tous deux une génération vocale neuronale et un clonage de voix de haute qualité. Les principales différences pratiques sur le niveau gratuit : l'offre gratuite de Fish Audio utilise le même modèle S2.1 Pro que le niveau payant sans limite d'utilisation stricte ; l'offre gratuite d'ElevenLabs est limitée à 10 000 crédits par mois. Concernant la couverture linguistique, Fish Audio prend en charge plus de 83 langues contre plus de 70 pour ElevenLabs. ElevenLabs possède une bibliothèque de voix pré-enregistrées plus vaste et un écosystème de contenu créatif plus établi. Fish Audio a tendance à être plus performant pour les cas d'utilisation axés sur les développeurs nécessitant une faible latence, une haute concurrence ou un support multilingue. Consultez notre [comparaison TTS à l'aveugle](https://fish.audio/blog/blind-tts-provider-comparison-2026/) pour un benchmark indépendant.
Fish Audio prend-il en charge le clonage de voix ?
Oui. S2.1 Pro prend en charge le [clonage de voix à partir d'un audio de référence](https://docs.fish.audio/features/voice-cloning). Vous pouvez soumettre un échantillon audio de référence et le modèle synthétisera la parole avec cette voix. Cela fonctionne dans les 83 langues prises en charge, ce qui est particulièrement utile pour la localisation de contenu où la cohérence de l'identité du locuteur est critique. Notre système de clonage de voix est l'un des plus performants de sa catégorie, offrant une grande fidélité au locuteur, une prosodie naturelle et une performance stable à travers les langues et les accents. Le clonage de voix est disponible dans l'offre gratuite, selon la même politique d'utilisation équitable que tout autre usage de s2.1-pro-free.
Puis-je utiliser Fish Audio commercialement ?
Le niveau gratuit (`s2.1-pro-free`) peut comporter des restrictions pour certains scénarios commerciaux. Pour une utilisation commerciale en production avec licence complète, SLA et sans rétention de données, veuillez vous référer aux plans payants de Fish Audio. Consultez les [Tarifs et limites de débit](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) et les [Conditions d'utilisation](https://fish.audio/terms/) pour la politique actuelle.
Quelles langues Fish Audio prend-il en charge ?
S2.1 Pro prend en charge 83 langues, dont l'anglais, le japonais, le coréen, le chinois, l'espagnol, le portugais, l'arabe, le français, l'allemand, le russe, l'italien, le turc, le néerlandais, le polonais, le vietnamien, le thaï, l'indonésien et bien d'autres. Toutes les langues sont gérées par le même modèle — il n'y a pas de points de terminaison séparés ni de paliers de tarification spécifiques par langue.
Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Lire plus de Shijia Liao

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Vous avez déjà un compte ? Se connecter