Produktionsreife Sprach-KI.Zum Startup-Preis.Offen wie eine Community.
Lifelike-Sprache, Voice-Cloning und Transkription mit einer API. Offizielle Python- und TypeScript-SDKs. Sub-Sekunden-Latenz. Pay-as-you-go ab deinem ersten Aufruf.

S2.1 Pro läuft live. Wähle eine Stimme, gib einen Text ein und höre das Ergebnis. Dasselbe Modell, das HeyGen, Retell und Sanas in der Produktion antreibt — ohne Anmeldung, ohne Sales-Call, ohne Demo-Umgebung.
# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "[chuckle] When you’re creating something new, there’s this [emphasis] beautiful mix of wonder and fear.",
"reference_id": "933563129e564b19a115bedd57b7406a",
"format": "mp3"
}' --output speech.mp3Von der Registrierung zum ersten Audio in 5 Minuten.
Kein Sales-Call erforderlich. API-Key holen, SDK installieren und loslegen.
# Text to speech in one callcurl -X POST \ https://api.fish.audio/v1/tts \-H "Authorization: Bearer $FISH_API_KEY" \-H "Content-Type: application/json" \-H "model: s2.1-pro-free" \-d '{"text": "Hello! Welcome to Fish Audio."}' \--output welcome.mp3
# Text to speech with the Python SDKfrom fish_audio_sdk import Session, TTSRequestsession = Session("YOUR_API_KEY")request = TTSRequest(text="Hello! Welcome to Fish Audio.")with open("welcome.mp3", "wb") as f:for chunk in session.tts(request):f.write(chunk)
Was Teams mit Fish in Produktion bringen.
Stimme, die vor der Kamera überzeugt
# Avatar-VideoLip-Sync-fähiges, emotionsbewusstes TTS für KI-Avatar-Produkte. Inline-Direktions-Tags steuern die Performance, nicht nur Wörter.
Konversationale Realtime-AI
# Voice AgentSprecherwechsel in unter einer Sekunde über WebSocket. Streaming-TTS und ASR in einem Stack. Erkennt Unterbrechungen.
Dynamische gesprochene Inhalte.
# Audio-Content & CompanionsNotes-to-Audio, Lernhilfen, KI-Companions. Zeichenbasierte Preisgestaltung, die mit der Nutzung skaliert, nicht mit Sitzplätzen.
In 30 Sekunden klonen. Oder das Klonen ganz überspringen.
# Character-AppsIVC aus 30 Sekunden Audiomaterial. PVC für Repliken in Studioqualität. Oder durchstöbere die Stimmbibliothek und starte ohne Klonen.
Gebaut für den Realtime-Stack.
Open Weights. Kostenpflichtige kommerzielle Lizenz.
Unsere Open-Source-Modelle — fish-speech, S1 und S2 — werden als Open Weights mit einer kostenpflichtigen kommerziellen Lizenz veröffentlicht. Self-Hosting in deiner VPC, On-Prem, Sovereign Cloud oder Air-Gapped-Umgebung, wenn die Produktion es erfordert. Self-Hosting ist ein Enterprise-Tier-Engagement — siehe unten.
15,000+ Tags zur Stimmsteuerung. Inline in jedem Aufruf.
[warm], [near-whisper], [reassuring] — die Stimmsteuerung reist mit dem Text selbst mit. Kein separater Parameter, keine Auswahlliste, keine Schema-Migration, wenn das Tag-Set wächst.
Audio Turing Test: 0.515.
Hörer können S2.1 Pro in der Blind-Evaluierung nicht zuverlässig von einer menschlichen Stimme unterscheiden. 581 Direktvergleiche. Methodik und Originalaudios veröffentlicht.
$15 pro Million Zeichen. Ab deinem ersten Aufruf.
Dasselbe Modell hinter HeyGen, Pictoria, Dubbing AI und Plaud. Pay-as-you-go ab deinem ersten Aufruf. Kein "Kontakt aufnehmen" für Produktionskonditionen.
Nutze unsere API. Oder hoste das Modell selbst.
Cloud-API für alle Teams, die heute aufbauen. Self-Hosting als Enterprise-Premium-Engagement, wenn die Produktion es erfordert.
Hosted API · Für alle Teams
Cloud-API, Pay-as-you-go, $15 pro Million Zeichen. Der schnellste Weg zur Produktion für Teams, die das Modell nicht selbst betreiben müssen.
- WebSocket-Streaming, REST, Python + TypeScript SDKs
- $15 / 1M UTF-8 bytes — ohne Mindestabnahme
- Inline-Syntax für Stimmsteuerung in jedem Aufruf
- Dasselbe Modell, das als Open-Weight veröffentlicht wird
Selbst hosten.
Unsere Open-Source-Modelle — fish-speech, S1, S2 — werden als Open Weights mit kostenpflichtiger kommerzieller Lizenz veröffentlicht. Bereitstellung in deiner VPC, im Rechenzentrum, in einer Sovereign Cloud oder in einer Air-Gapped-Umgebung. Ein Premium-Engagement für Teams mit hohem Volumen, die Datenresidenz, Fine-Tuning oder regulierten Betrieb benötigen.
- WebSocket-Streaming, REST, Python + TypeScript SDKs
- $10k/Monat
- Effektiver Mindestbetrag: $120–150K/Jahr
- Direkter Zugang zu unserem Forschungsteam
Preise, dieWachstum nicht bestrafen
Pay-as-you-go ab Tag eins. Keine Sitzplatzgebühren. Keine Jahresverpflichtungen. Kein "Kontakt aufnehmen" für Produktionskonditionen.
Vollständige Preisliste anzeigenHäufig gestellte Fragen
Von ElevenLabs, Cartesia oder Rime wechseln?
Direktvergleiche nach Funktion, Preis und Vertragsbedingungen. Gleiche API-Form; die meisten Produktionsmigrationen sind in weniger als einer Woche abgeschlossen.
Benchmarks, Methodik und Originalaudios
Audio Turing Test-Ergebnisse, Blind-Evaluierungsmethodik und die Open-Weights-Lizenz. Die Belege für jede Aussage auf dieser Seite.
Dieses Wochenende in Produktion gehen
Gratis-Credits zum Starten. Keine Kreditkarte erforderlich. Derselbe Tarif vom Prototyp bis zur Skalierung.