Générez une voix incroyablement réaliste
Essayez Fish Audio S2 maintenantCe qui rend S2 différent
Construit de zéro pour l'expressivité, la vitesse et l'ouverture.
Latence ultra-faible
Un temps de réponse inférieur à 150ms permet l'IA conversationnelle en temps réel, le doublage en direct et les applications vocales interactives. Performances prêtes pour la production sans compromis sur la qualité.

<150ms
Contrôle de domaine ouvert & multi-locuteur
Contrôlez les émotions, le paralangage et plus encore avec des instructions textuelles naturelles. Ajoutez des rires, des chuchotements, des soupirs et tout élément expressif. Conversations multi-locuteurs fluides — changez de locuteur naturellement au sein d'une seule génération.

<|speaker:1|> [giggles]
Entièrement open source
Le code d'inférence et les poids du modèle sont entièrement open source. Exécutez S2 sur votre propre infrastructure, affinez avec vos données et intégrez sans dépendance fournisseur. Conçu pour la transparence et l'innovation communautaire.

Built with SGLang
Construisez avec l'API Fish Audio S2
Générez une parole réaliste dans plus de 80 langues avec contrôle des émotions, des directions et des multi-locuteurs.

from fishaudio import FishAudio
from fishaudio.utils import save
# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")
# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")Questions fréquemment posées
Fish Audio S2 Pro est un modèle de synthèse vocale de pointe avec un contrôle en ligne à grain fin de la prosodie et de l'émotion. Entraîné sur plus de 10 millions d'heures de données audio dans plus de 80 langues, il combine l'alignement par apprentissage par renforcement avec une architecture Dual-Autorégressive (Dual-AR) — un Slow AR de 4B paramètres pour la prédiction sémantique et un Fast AR de 400M paramètres pour les détails acoustiques. La publication comprend les poids du modèle, le code de fine-tuning et un moteur d'inférence en streaming basé sur SGLang.
S2 Pro permet un contrôle localisé de la génération vocale en intégrant des instructions en langage naturel directement dans le texte à l'aide de la syntaxe [tag]. Plutôt que de s'appuyer sur un ensemble de balises prédéfinies, S2 Pro accepte des descriptions textuelles libres — telles que [whisper in small voice], [professional broadcast tone] ou [pitch up] — permettant un contrôle d'expression ouvert au niveau du mot. Plus de 15 000 balises uniques sont prises en charge, dont [pause], [emphasis], [laughing], [excited], [whisper], [singing] et bien d'autres.
Sur un seul GPU NVIDIA H200, S2 Pro atteint un facteur temps réel (RTF) de 0,195, un délai jusqu'au premier audio d'environ 100 ms et un débit de plus de 3 000 tokens acoustiques par seconde tout en maintenant le RTF en dessous de 0,5. Le moteur d'inférence basé sur SGLang hérite de toutes les optimisations de service natives LLM — y compris le continuous batching, le paged KV cache, le CUDA graph replay et le prefix caching basé sur RadixAttention.
S2 Pro prend en charge plus de 80 langues. Les langues de niveau 1 (qualité maximale) comprennent le japonais, l'anglais et le chinois. Les langues de niveau 2 comprennent le coréen, l'espagnol, le portugais, l'arabe, le russe, le français et l'allemand. D'autres langues sont également prises en charge, notamment le suédois, l'italien, le turc, le néerlandais, l'hindi, le thaï, le vietnamien et plus encore.
S2 Pro est sous licence Fish Audio Research License. L'utilisation pour la recherche et à des fins non commerciales est autorisée gratuitement. L'utilisation commerciale nécessite une licence séparée de Fish Audio — contactez business@fish.audio pour plus de détails.