Lancement de Fish Audio S1 : un modèle de base audio de pointe pour la synthèse vocale (TTS)

20 nov. 2025

Lancement de Fish Audio S1 : un modèle de base audio de pointe pour la synthèse vocale (TTS)

À retenir

  • Nous lançons Fish Audio S1, un modèle de base audio de pointe pour la synthèse vocale.
  • Fish Audio S1 est entraîné sur plus de 2 millions d'heures d'audio avec du RLHF en ligne (GRPO).
  • Fish Audio S1 atteint un WER de 0,8 % et un CER de 0,4 % sur l'évaluation Seed TTS.
  • S1 prend en charge les marqueurs d'émotion, de ton et d'effets spéciaux en domaine ouvert.

Essayez S1 maintenant

Essayez le modèle gratuitement sur Fish Audio : https://fish.audio/app/text-to-speech/

Page du modèle sur Hugging Face : https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 se décline en deux variantes :

  • S1 (4B) – modèle phare complet, disponible sur le Playground de Fish Audio
  • S1-mini (0,5B) – une version distillée pour les environnements aux ressources limitées, disponible sur Hugging Face

Les deux modèles sont entraînés par RLHF en ligne (GRPO) à l'aide de modèles de récompense internes.

Qualité vocale à la pointe de la technologie

OpenAudio S1 est entraîné sur plus de 2 millions d'heures d'audio, combinant des paires texte-audio à grande échelle avec une supervision riche. En modélisant conjointement les informations sémantiques et acoustiques dans un modèle unique, S1 évite la perte d'informations typique des pipelines « uniquement sémantiques » et réduit les artefacts et les erreurs de mots.

Sur Seed TTS Eval (avec une transcription basée sur GPT-4o et des métriques de locuteur basées sur pyannote), S1 atteint :

  • WER : 0,008
  • CER : 0,004

S1-mini suit de près avec :

  • WER : 0,011
  • CER : 0,005

OpenAudio S1 atteint également le meilleur score ELO sur HuggingFace TTS-Arena-V2, se classant n°1 dans l'évaluation subjective humaine pour le naturel, l'intelligibilité et la similitude.

Contrôle digne d'un acteur de doublage

Fish Audio S1 permet un contrôle granulaire de l'émotion et de l'élocution. Nous avons entraîné notre propre modèle de reconnaissance vocale (bientôt disponible) pour légender l'audio avec l'émotion, le ton, les balises de locuteur et les événements, puis nous l'avons utilisé pour annoter plus de 100 000 heures d'audio pour le suivi d'instructions.

Vous pouvez guider S1 avec des marqueurs d'émotion comme (angry), (sad), (in a hurry), (chuckling), et plus encore. Consultez la liste complète des balises d'émotion recommandées ici : https://docs.fish.audio/developer-guide/core-features/emotions

Voix mondiales et multilingues

OpenAudio S1 est conçu pour une portée mondiale. Il prend en charge un large éventail de langues, notamment :

Anglais, Chinois, Japonais, Allemand, Français, Espagnol, Coréen, Arabe, Russe, Néerlandais, Italien, Polonais, Portugais

Vous pouvez mélanger les langues dans un même prompt, et le modèle s'adaptera naturellement au script et au contexte.

Architecture, vitesse et coût

Sous le capot, OpenAudio S1 :

  • Utilise l'architecture Qwen3 comme épine dorsale (backbone) multimodale
  • Emploie un codec audio interne similaire dans l'esprit au Descript Audio Codec, entraîné à partir de zéro
  • Utilise le RLHF en ligne avec GRPO pour optimiser selon les préférences humaines

Grâce à torch compile et à une inférence optimisée, S1 fonctionne avec un facteur temps réel d'environ 1:7 sur une NVIDIA RTX 4090, ce qui le rend pratique pour les applications interactives.

Concernant la tarification, S1 est conçu pour être véritablement accessible :

  • Environ 15 $ par million d'octets, soit environ 0,8 $ par heure d'audio

Cela rend le TTS de haute qualité viable même pour des volumes de travail élevés ou des budgets serrés.

  • Clonage de voix zero-shot et few-shot à partir d'échantillons courts
  • TTS multilingue et translingual
  • Aucune dépendance aux phonèmes, gérant des écritures arbitraires directement à partir du texte

Commencer avec OpenAudio S1

Vous pouvez essayer OpenAudio S1 dès aujourd'hui :

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Vous avez déjà un compte ? Se connecter

Partager cet article


Zhizhuo Zhou

Zhizhuo ZhouX

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Lire plus de Zhizhuo Zhou >

Articles récents

Voir tout >