Erzeugen Sie unglaublich realistische Sprache
Fish Audio S2 jetzt testenWas S2 besonders macht
Von Grund auf für Ausdruckskraft, Geschwindigkeit und Offenheit entwickelt.
Ultraniedrige Latenz
Unter 150ms Antwortzeit ermöglicht Echtzeit-Konversations-KI, Live-Synchronisation und interaktive Sprachanwendungen. Produktionsreife Leistung ohne Qualitätseinbußen.

<150ms
Offene Domänensteuerung & Multi-Sprecher
Steuern Sie Emotionen, Parasprache und mehr mit natürlichen Textanweisungen. Fügen Sie Lachen, Flüstern, Seufzen und beliebige Ausdruckselemente hinzu. Nahtlose Multi-Sprecher-Gespräche — wechseln Sie natürlich zwischen Sprechern in einer einzigen Generierung.

<|speaker:1|> [giggles]
Vollständig Open Source
Sowohl der Inferenzcode als auch die Modellgewichte sind vollständig Open Source. Führen Sie S2 auf Ihrer eigenen Infrastruktur aus, feintunen Sie mit Ihren Daten und integrieren Sie ohne Herstellerbindung. Für Transparenz und Community-getriebene Innovation entwickelt.

Built with SGLang
Mit der Fish Audio S2 API entwickeln
Erzeugen Sie lebensechte Sprache in über 80 Sprachen mit Emotions-, Anweisungs- und Multi-Sprecher-Steuerung.

from fishaudio import FishAudio
from fishaudio.utils import save
# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")
# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")Häufig gestellte Fragen
Fish Audio S2 Pro ist ein führendes Text-to-Speech-Modell mit feingranularer Inline-Steuerung von Prosodie und Emotion. Es wurde auf über 10 Millionen Stunden Audiodaten in mehr als 80 Sprachen trainiert und kombiniert Reinforcement-Learning-Alignment mit einer Dual-Autoregressive (Dual-AR) Architektur — ein 4B-Parameter Slow AR für semantische Vorhersage und ein 400M-Parameter Fast AR für akustische Details. Die Veröffentlichung umfasst Modellgewichte, Feintuning-Code und eine SGLang-basierte Streaming-Inferenz-Engine.
S2 Pro ermöglicht lokalisierte Kontrolle über die Sprachgenerierung durch Einbettung natürlichsprachlicher Anweisungen direkt im Text mit [tag]-Syntax. Anstatt auf vordefinierte Tags zu setzen, akzeptiert S2 Pro freiformige Textbeschreibungen — wie [whisper in small voice], [professional broadcast tone] oder [pitch up] — und ermöglicht so offene Ausdruckskontrolle auf Wortebene. Über 15.000 einzigartige Tags werden unterstützt, darunter [pause], [emphasis], [laughing], [excited], [whisper], [singing] und viele mehr.
Auf einer einzelnen NVIDIA H200 GPU erreicht S2 Pro einen Echtzeit-Faktor (RTF) von 0,195, eine Zeit bis zum ersten Audio von ~100ms und einen Durchsatz von über 3.000 akustischen Tokens pro Sekunde bei einem RTF unter 0,5. Die SGLang-basierte Inferenz-Engine erbt alle LLM-nativen Serving-Optimierungen — einschließlich Continuous Batching, Paged KV Cache, CUDA Graph Replay und RadixAttention-basiertem Prefix Caching.
S2 Pro unterstützt über 80 Sprachen. Tier-1-Sprachen (höchste Qualität) umfassen Japanisch, Englisch und Chinesisch. Tier-2-Sprachen umfassen Koreanisch, Spanisch, Portugiesisch, Arabisch, Russisch, Französisch und Deutsch. Weitere unterstützte Sprachen sind Schwedisch, Italienisch, Türkisch, Niederländisch, Hindi, Thai, Vietnamesisch und mehr.
S2 Pro steht unter der Fish Audio Research License. Forschung und nicht-kommerzielle Nutzung sind kostenlos gestattet. Kommerzielle Nutzung erfordert eine separate Lizenz von Fish Audio — kontaktieren Sie business@fish.audio für Details.