S2.1 Pro ist jetzt für Entwickler kostenlos

Produktionsreife Sprach-KI.Zum Startup-Preis.Offen wie eine Community.

Lifelike-Sprache, Voice-Cloning und Transkription mit einer API. Offizielle Python- und TypeScript-SDKs. Sub-Sekunden-Latenz. Pay-as-you-go ab deinem ersten Aufruf.

API-Key anfordern Dokumentation lesen

S2.1 Pro läuft live. Wähle eine Stimme, gib einen Text ein und höre das Ergebnis. Dasselbe Modell, das HeyGen, Retell und Sanas in der Produktion antreibt — ohne Anmeldung, ohne Sales-Call, ohne Demo-Umgebung.

# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
  -H "Authorization: Bearer $FISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "[chuckle] When you’re creating something new, there’s this [emphasis] beautiful mix of wonder and fear.",
    "reference_id": "933563129e564b19a115bedd57b7406a",
    "format": "mp3"
  }' --output speech.mp3

Vertraut von Teams, die Voice in der Produktion einsetzen

Sprachagenten & Konversations-KI

Video-Voice-over, Synchronisation & Musik

Interaktiv & Social

Bildung & Lernen

Von der Registrierung zum ersten Audio in 5 Minuten.

Kein Sales-Call erforderlich. API-Key holen, SDK installieren und loslegen.

CURL · TEXT IN SPRACHE

# Text to speech in one call
curl -X POST \ https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-H "model: s2.1-pro-free" \
-d '{"text": "Hello! Welcome to Fish Audio."}' \
--output welcome.mp3

PYTHON SDK

# Text to speech with the Python SDK
from fish_audio_sdk import Session, TTSRequest
 
session = Session("YOUR_API_KEY")
request = TTSRequest(text="Hello! Welcome to Fish Audio.")
with open("welcome.mp3", "wb") as f:
    for chunk in session.tts(request):
        f.write(chunk)

Was Teams mit Fish in Produktion bringen.

Stimme, die vor der Kamera überzeugt

# Avatar-Video

Lip-Sync-fähiges, emotionsbewusstes TTS für KI-Avatar-Produkte. Inline-Direktions-Tags steuern die Performance, nicht nur Wörter.

Konversationale Realtime-AI

# Voice Agent

Sprecherwechsel in unter einer Sekunde über WebSocket. Streaming-TTS und ASR in einem Stack. Erkennt Unterbrechungen.

Dynamische gesprochene Inhalte.

# Audio-Content & Companions

Notes-to-Audio, Lernhilfen, KI-Companions. Zeichenbasierte Preisgestaltung, die mit der Nutzung skaliert, nicht mit Sitzplätzen.

In 30 Sekunden klonen. Oder das Klonen ganz überspringen.

# Character-Apps

IVC aus 30 Sekunden Audiomaterial. PVC für Repliken in Studioqualität. Oder durchstöbere die Stimmbibliothek und starte ohne Klonen.

Gebaut für den Realtime-Stack.

Open Weights. Kostenpflichtige kommerzielle Lizenz.

Unsere Open-Source-Modelle — fish-speech, S1 und S2 — werden als Open Weights mit einer kostenpflichtigen kommerziellen Lizenz veröffentlicht. Self-Hosting in deiner VPC, On-Prem, Sovereign Cloud oder Air-Gapped-Umgebung, wenn die Produktion es erfordert. Self-Hosting ist ein Enterprise-Tier-Engagement — siehe unten.

Lizenzbedingungen lesen

15,000+ Tags zur Stimmsteuerung. Inline in jedem Aufruf.

[warm], [near-whisper], [reassuring] — die Stimmsteuerung reist mit dem Text selbst mit. Kein separater Parameter, keine Auswahlliste, keine Schema-Migration, wenn das Tag-Set wächst.

Bibliothek der Stimmsteuerungs-Tags durchstöbern

Audio Turing Test: 0.515.

Hörer können S2.1 Pro in der Blind-Evaluierung nicht zuverlässig von einer menschlichen Stimme unterscheiden. 581 Direktvergleiche. Methodik und Originalaudios veröffentlicht.

Forschung lesen

$15 pro Million Zeichen. Ab deinem ersten Aufruf.

Dasselbe Modell hinter HeyGen, Pictoria, Dubbing AI und Plaud. Pay-as-you-go ab deinem ersten Aufruf. Kein "Kontakt aufnehmen" für Produktionskonditionen.

Vollständige Preisliste anzeigen

Nutze unsere API. Oder hoste das Modell selbst.

Cloud-API für alle Teams, die heute aufbauen. Self-Hosting als Enterprise-Premium-Engagement, wenn die Produktion es erfordert.

Hosted API · Für alle Teams

Cloud-API, Pay-as-you-go, $15 pro Million Zeichen. Der schnellste Weg zur Produktion für Teams, die das Modell nicht selbst betreiben müssen.

WebSocket-Streaming, REST, Python + TypeScript SDKs
$15 / 1M UTF-8 bytes — ohne Mindestabnahme
Inline-Syntax für Stimmsteuerung in jedem Aufruf
Dasselbe Modell, das als Open-Weight veröffentlicht wird

API-Key anfordern

Selbst hosten.

Unsere Open-Source-Modelle — fish-speech, S1, S2 — werden als Open Weights mit kostenpflichtiger kommerzieller Lizenz veröffentlicht. Bereitstellung in deiner VPC, im Rechenzentrum, in einer Sovereign Cloud oder in einer Air-Gapped-Umgebung. Ein Premium-Engagement für Teams mit hohem Volumen, die Datenresidenz, Fine-Tuning oder regulierten Betrieb benötigen.

WebSocket-Streaming, REST, Python + TypeScript SDKs
$10k/Monat
Effektiver Mindestbetrag: $120–150K/Jahr
Direkter Zugang zu unserem Forschungsteam

Vertrieb kontaktieren

Preise, dieWachstum nicht bestrafen

Pay-as-you-go ab Tag eins. Keine Sitzplatzgebühren. Keine Jahresverpflichtungen. Kein "Kontakt aufnehmen" für Produktionskonditionen.

Vollständige Preisliste anzeigen

Modell

TTS

ASR

Modellname

S2.1 Pro Free

S2.1 Pro

Transcribe-1

Preis

Für Entwickler kostenlos

$15 / 1M UTF-8 bytes

$0.36 / Stunde

Häufig gestellte Fragen

Von ElevenLabs, Cartesia oder Rime wechseln?

Direktvergleiche nach Funktion, Preis und Vertragsbedingungen. Gleiche API-Form; die meisten Produktionsmigrationen sind in weniger als einer Woche abgeschlossen.

Vergleich ansehen

Benchmarks, Methodik und Originalaudios

Audio Turing Test-Ergebnisse, Blind-Evaluierungsmethodik und die Open-Weights-Lizenz. Die Belege für jede Aussage auf dieser Seite.

Forschung lesen

Dieses Wochenende in Produktion gehen

Gratis-Credits zum Starten. Keine Kreditkarte erforderlich. Derselbe Tarif vom Prototyp bis zur Skalierung.

API-Key anfordern Dokumentation lesen