Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen

Voice-Infrastrukturfür Unternehmen

Das ausdrucksstarke, steuerbare Echtzeit-Sprachmodell hinter HeyGen, Retell, Sierra und der nächsten Generation von Voice-AI-Entwicklern. Produktionsreif für Avatar-Video, Sprachagenten, Character-Apps, Audioinhalte, mehrsprachige Unterstützung und stimmwahrende Übersetzung.

S2 Pro läuft live. Stimme wählen, Zeile eingeben, sofort anhören. Dasselbe Modell, das Produktionsteams einsetzen, ohne Registrierung, Sales-Call oder Demo-Umgebung.

80+
Sprachen
2M+
Voice-Bibliothek
$15/1M Zeichen
Fester API-Preis
<150ms
Erstes Audio ( Cloud )

Vertraut von Teams, die Voice in Produktion bauen

Sprachagenten & Konversations-KI
Video-Voice-over, Synchronisation & Musik
Interaktiv & Social
Bildung & Lernen

Sechs Gründe, warum Voice-Teams wechseln.

Die meisten TTS-Systeme klingen in einer Demo gut. Fish ist für das gebaut, was danach kommt: Produktions-Traffic, schwierige Aussprache, mehrsprachiges Code-Switching, souveräne Deployments und Gesamtkosten, mit denen man skalieren kann, statt nur zu überleben.

Produktion

Gelistet bei Artificial Analysis · öffentliche Methodik

Benchmarks

Unterstützt HeyGen, Retell, Sierra und FinalRound

Aussprache

Eigene Wörterbücher · Zahlen, Namen, Fachbegriffe

S2 Pro ist im Voice-Leaderboard von Artificial Analysis gelistet und betreibt Produktionsdeployments bei HeyGen, Retell und Sierra. Es verarbeitet realen Traffic, schwierige Aussprache und Multi-Region-Lasten, die zeigen, was Benchmarks übersehen.

Produktionsergebnisse,keine Demo-Siege.

Die Überschrift ist nicht Qualität. Es geht darum, was Teams nach dem Wechsel erreicht haben. Jede Geschichte ist ein quantifiziertes Ergebnis, geschrieben vom Kunden.

Für Voice Cloning mit nicht amerikanischen englischen Akzenten 3 zu 1 gegenüber Alternativen ausgewählt.

Liefert charaktergenaue Ausdruckskraft für japanische KI-Charaktere in Picto VOICE.

Echtzeit-Voice-Agent-TTS für über 10 Mio. Nutzer: Natürlichkeit, Emotion, Latenz und Mehrsprachigkeit.

Voice Agents in Produktion mit Echtzeit-Orchestrierung für Enterprise-Gespräche.

Live-Interview-Coaching mit Echtzeit-Latenz.

Sechs Kategorien von Voice-Produkten,
heute bereits in Produktion.

Von Avatar-Video bis mehrsprachigem Kundensupport: Jede Kategorie unten ist ein reales Enterprise-Deployment auf Fish, kein Roadmap-Versprechen.

Voice für KI-Agenten

Character- und Companion-Apps.

Avatar-Video

Mehrsprachiger Kundensupport.

Mandarin · Japanisch · Koreanisch · Kantonesisch

Voice Cloning in großem Maßstab.

2 Mio. Stimmen Ökosystem · 30-Sek.-Klon

Audioübersetzung und Dubbing.

Über alle 80+ Sprachen · Code-Switching

Passt in den Voice-Agent-Stack, den ihr bereits nutzt.

Drop-in-Support für Orchestrierung, Telefonie und Infrastrukturtools, mit denen Voice-Teams heute ausliefern. SDKs für alle wichtigen Sprachen. WebSocket-Streaming, REST und eingehende Webhook-Muster sind dokumentiert.

Die nüchternen Dinge, die im Kundengespräch zählen.

Produktionsdeployments starten im Enterprise-Tier. Bei höheren Commitments gelten Volumenrabatte. Sprich mit Sales über Preise, die zu deinem Traffic-Profil passen. Für souveräne Deployments ist der premium Self-host-Tier mit separater Setup- und Commitment-Struktur verfügbar.

Bis zu99%

UPTIME-SLA
Im premium enterprise Tier verfügbar

<150ms

ERSTES AUDIO (CLOUD)
In USA, EU und APAC verifiziert

Custom

GLEICHZEITIGE STREAMS
50+ bei High Volume · Custom bei Enterprise

80+

SPRACHEN
Mit nativer Voice-Qualität und Code-Switching

Gebaut für echtes Wachstum.

Ein Enterprise-Tier. Flache Preise pro Zeichen. Volumenrabatte, die über mehrere Stufen mit deinem Wachstum skalieren, verhandelt mit einem Team in einem Vertrag.

Produktionsdeployments starten im Enterprise-Tier. Bei höheren Commitments gelten Volumenrabatte. Sprich mit Sales über Preise, die zu deinem Traffic-Profil passen. Für souveräne Deployments ist der premium Self-host-Tier mit separater Setup- und Commitment-Struktur verfügbar.

Planumfang
Enterprise-Plan
Bedingungen und Hinweise
Startpreis
Ab 999 $ / Monat
Volumenrabatte bei höheren Commitments
TTS · S2 Pro
15 $ / 1 Mio. Zeichen
Abrechnung in UTF-8-Bytes · ca. 180K englische Wörter pro 1 Mio.
TTS · S1
15 $ / 1 Mio. Zeichen
Gleicher Flatrate-Preis wie S2 Pro
ASR · transcribe-l
0,36 $ / Audiostunde
Dauer auf die nächste Sekunde aufgerundet
Parallelität
Custom
50+ bei High Volume · Custom bei Enterprise
Stimmen
Unbegrenzt
Keine Slot-Quoten · keine Gebühren pro Stimme
Rollover
90 Tage
Ungenutzte Credits werden 90 Tage übertragen
SLA
Bis zu 99 %
Im premium enterprise Tier verfügbar
Support
Dedizierter Slack-Kanal
SOC2 / HIPAA Compliance auf Anfrage
Self-host premium
Ab 10K $ Setup + 10K $ / Monat
12 Monate Commit · VPC · On-Prem · Air-gapped · Sovereign Cloud

Volumenrabatte sind über mehrere Tiers verfügbar. Kontaktiere Sales für Preise passend zu deinem Traffic-Profil. Öffentliche Preise zeigen den Einstieg in Enterprise; größere Commitments ermöglichen weitere kundenbezogene Rabatte.

Bereit, wenn ihr es seid.

Sprich mit unserem Team über dein Deployment. Wir kommen vorbereitet.

Häufig gestellte Fragen

Wo werden meine Daten gespeichert? Unterstützt ihr Datenresidenz in den USA, der EU und APAC?

Standardmäßig bleiben eure Daten in den Vereinigten Staaten, gehostet auf Google Cloud mit Cloudflare R2 Storage, und die Inferenz läuft über Edge-Regionen in den USA und im asiatisch-pazifischen Raum (Tokio), damit eure Nutzer überall niedrige Latenz erhalten. Für compliance-gebundene Workloads können Enterprise-Verträge Zero Data Retention aktivieren, sodass Anfrage-Text und Audio niemals auf die Festplatte geschrieben werden. Wenn eure Daten in einem bestimmten Land oder einer bestimmten Region bleiben müssen, läuft der self-hosted Enterprise-Tarif vollständig in eurer eigenen Infrastruktur, sodass nichts eure Umgebung verlässt.

Könnt ihr große Deployments und Traffic-Spitzen unterstützen?

Ja, auch bei ernsthaftem Volumen. Kapazität wird als gleichzeitige Generierungen bereitgestellt und skaliert mit eurem Vertrag; wir haben bereits Produktionskunden mit mehr als 1.000 gleichzeitigen Generierungen. Ein Rust Edge Gateway bedient Inferenz über mehrere GPU-Regionen hinweg. Wenn euer Traffic stark ansteigt, kann unser Team eure Limits noch am selben Tag erhöhen. Ihr skaliert, ohne jemals hinter einem Support-Ticket zu warten.

Welche Sicherheitszertifizierungen habt ihr?

Sicherheit zieht sich durch jede Ebene der Plattform. Unser SOC 2 Type II Audit läuft derzeit; der Bericht wird Kunden nach Abschluss unter NDA zur Verfügung stehen. Zero Data Retention ist für Enterprise-Verträge verfügbar, sodass Request-Payloads niemals persistiert werden, und der self-hosted Tarif hält jedes Byte eurer Daten in eurer eigenen Umgebung. Wir unterstützen außerdem HIPAA-orientierte Konfigurationen und können für qualifizierende Healthcare-Workloads ein BAA unterzeichnen; unabhängige Penetrationstests sind Teil unseres laufenden Compliance-Programms.

Bietet ihr Engineering-Support für individuelle Deployments?

Absolut. Enterprise-Kunden erhalten eine direkte Verbindung zu unserem Engineering-Team, keine Ticket-Warteschlange, über den Kanal, der zu eurer Arbeitsweise passt. Wir liefern regelmäßig integrationsspezifische Funktionen und Protokollerweiterungen für einzelne Kunden und setzen self-hosted Deployments gemeinsam mit euch Ende-zu-Ende auf, vom ersten Setup bis zum Go-live.

Unterstützt ihr SSO und RBAC?

Ja, mit feingranularer Kontrolle ab dem ersten Tag. Rollenbasierte Zugriffskontrolle erlaubt owner-, admin- und member-Rollen auf Team-Ebene sowie manager-, contributor- und viewer-Rollen auf Workspace-Ebene, damit jeder genau den passenden Zugriff hat. Single Sign-on funktioniert heute über Google und GitHub OAuth.

Können wir Modelle mit unseren Daten feinabstimmen oder eigene Stimmen verwenden?

Beides, zu euren Bedingungen. Ihr könnt private Voice Clones aus bereits 10 Sekunden Referenzaudio erstellen, für beste Ergebnisse 30 Sekunden oder mehr, sofort über API oder Web UI; sie bleiben vollständig privat in eurem Team. Für tiefere Engagements trainieren wir außerdem Custom Models auf euren eigenen Daten.

Wie läuft eine Migration von einem anderen Voice-Anbieter ab?

Die Migration zu Fish Audio ist unkompliziert, und die meisten Teams sind überrascht, wie schnell sie abläuft. Eure bestehenden Stimmen werden aus Referenzaudio neu erstellt; unsere Python-, TypeScript- und Go-SDKs sowie die WebSocket Streaming API decken die Integrationsmuster ab, auf die ihr bereits setzt, und unser Engineering-Team begleitet den Cutover, damit die Produktion ohne Unterbrechung weiterläuft.