Voice-Infrastrukturfür Unternehmen

Das ausdrucksstarke, steuerbare Echtzeit-Sprachmodell hinter HeyGen, Retell, Sierra und der nächsten Generation von Voice-AI-Entwicklern. Produktionsreif für Avatar-Video, Sprachagenten, Character-Apps, Audioinhalte, mehrsprachige Unterstützung und stimmwahrende Übersetzung.

Mit Sales sprechen Modell anhören Preise ansehen

S2 Pro läuft live. Stimme wählen, Zeile eingeben, sofort anhören. Dasselbe Modell, das Produktionsteams einsetzen, ohne Registrierung, Sales-Call oder Demo-Umgebung.

80+

Sprachen

2M+

Voice-Bibliothek

$15/1M Zeichen

Fester API-Preis

<150ms

Erstes Audio ( Cloud )

Vertraut von Teams, die Voice in Produktion bauen

Sprachagenten & Konversations-KI

Video-Voice-over, Synchronisation & Musik

Interaktiv & Social

Bildung & Lernen

Sechs Gründe, warum Voice-Teams wechseln.

Die meisten TTS-Systeme klingen in einer Demo gut. Fish ist für das gebaut, was danach kommt: Produktions-Traffic, schwierige Aussprache, mehrsprachiges Code-Switching, souveräne Deployments und Gesamtkosten, mit denen man skalieren kann, statt nur zu überleben.

Produktion

Gelistet bei Artificial Analysis · öffentliche Methodik

Benchmarks

Unterstützt HeyGen, Retell, Sierra und FinalRound

Aussprache

Eigene Wörterbücher · Zahlen, Namen, Fachbegriffe

S2 Pro ist im Voice-Leaderboard von Artificial Analysis gelistet und betreibt Produktionsdeployments bei HeyGen, Retell und Sierra. Es verarbeitet realen Traffic, schwierige Aussprache und Multi-Region-Lasten, die zeigen, was Benchmarks übersehen.

Produktion

Gelistet bei Artificial Analysis · öffentliche Methodik

Aussprache

Eigene Wörterbücher · Zahlen, Namen, Fachbegriffe

Benchmarks

Unterstützt HeyGen, Retell, Sierra und FinalRound

15.000+ natürlichsprachliche Richtungs-Tags. Beschreiben Sie, was Sie möchten — {warm, dialogisch, leichter Boston-Akzent, mit sanft fallender Kadenz} — und Fish rendert es. S2 Pro besteht den Audio Turing Test mit einem veröffentlichten Score von 0,515: Zuhörer können es nicht zuverlässig von menschlicher Sprache unterscheiden. Methodik und Roh-Audio sind öffentlich.

Muttersprachliche Qualität für Mandarin, Japanisch, Koreanisch und Kantonesisch, mit sofortigem Code-Switching zwischen Englisch, Mandarin, Japanisch, Spanisch und Arabisch. Die APAC-Abdeckung, die andere Voice-Anbieter noch für das nächste Quartal versprechen, läuft heute bereits in Produktion.

Durchsuchen Sie 2 Mio.+ von Creators trainierte Stimmen, die heute einsatzbereit sind, oder klonen Sie Ihre eigene Stimme aus 30 Sekunden Audio. Keine Slot-Kontingente, keine Gebühren pro Stimme. Voice Cloning mit integrierter Einwilligungsprüfung im Workflow.

Für regulierte Workloads, souveräne Deployments und Teams, die volle Kontrolle über das in Produktion laufende Modell benötigen, bietet Fish Self-Hosting als Premium-Enterprise-Tier. Betreiben Sie es in Ihrer VPC, Ihrer Air-Gap-Umgebung oder Ihrem Rechenzentrum. Die Architektur, die Procurement verlangt und selten bekommt.

$15 pro Million Zeichen — flach, planbar und derselbe Preis pro Zeichen vom ersten API-Aufruf bis zum milliardsten. Volumenrabatte kumulieren beim Skalieren über mehrere Stufen hinweg, verhandelt mit einem Team. Keine Seat Fees. Keine überraschenden Hürden für Produktionspreise.

Produktionsergebnisse,keine Demo-Siege.

Die Überschrift ist nicht Qualität. Es geht darum, was Teams nach dem Wechsel erreicht haben. Jede Geschichte ist ein quantifiziertes Ergebnis, geschrieben vom Kunden.

Für Voice Cloning mit nicht amerikanischen englischen Akzenten 3 zu 1 gegenüber Alternativen ausgewählt.

Liefert charaktergenaue Ausdruckskraft für japanische KI-Charaktere in Picto VOICE.

Echtzeit-Voice-Agent-TTS für über 10 Mio. Nutzer: Natürlichkeit, Emotion, Latenz und Mehrsprachigkeit.

Voice Agents in Produktion mit Echtzeit-Orchestrierung für Enterprise-Gespräche.

Live-Interview-Coaching mit Echtzeit-Latenz.

Sechs Kategorien von Voice-Produkten,
heute bereits in Produktion.

Von Avatar-Video bis mehrsprachigem Kundensupport: Jede Kategorie unten ist ein reales Enterprise-Deployment auf Fish, kein Roadmap-Versprechen.

Voice für KI-Agenten

Character- und Companion-Apps.

Avatar-Video

Mehrsprachiger Kundensupport.

Mandarin · Japanisch · Koreanisch · Kantonesisch

Voice Cloning in großem Maßstab.

2 Mio. Stimmen Ökosystem · 30-Sek.-Klon

Audioübersetzung und Dubbing.

Über alle 80+ Sprachen · Code-Switching

Passt in den Voice-Agent-Stack, den ihr bereits nutzt.

Drop-in-Support für Orchestrierung, Telefonie und Infrastrukturtools, mit denen Voice-Teams heute ausliefern. SDKs für alle wichtigen Sprachen. WebSocket-Streaming, REST und eingehende Webhook-Muster sind dokumentiert.

Echtzeit-Pipelines

WebRTC-Infrastruktur

Workflow-Automatisierung

Voice-Agent-Plattform

Telefonie · SIP · SMS

Voice-Agent-Orchestrierung

Echtzeit-Pipelines

WebRTC-Infrastruktur

Workflow-Automatisierung

Voice-Agent-Plattform

Telefonie · SIP · SMS

Voice-Agent-Orchestrierung

Die nüchternen Dinge, die im Kundengespräch zählen.

Produktionsdeployments starten im Enterprise-Tier. Bei höheren Commitments gelten Volumenrabatte. Sprich mit Sales über Preise, die zu deinem Traffic-Profil passen. Für souveräne Deployments ist der premium Self-host-Tier mit separater Setup- und Commitment-Struktur verfügbar.

Bis zu99%

UPTIME-SLA
Im premium enterprise Tier verfügbar

<150ms

ERSTES AUDIO (CLOUD)
In USA, EU und APAC verifiziert

Custom

GLEICHZEITIGE STREAMS
50+ bei High Volume · Custom bei Enterprise

80+

SPRACHEN
Mit nativer Voice-Qualität und Code-Switching

Gebaut für echtes Wachstum.

Ein Enterprise-Tier. Flache Preise pro Zeichen. Volumenrabatte, die über mehrere Stufen mit deinem Wachstum skalieren, verhandelt mit einem Team in einem Vertrag.

Planumfang

Enterprise-Plan

Bedingungen und Hinweise

Startpreis

Ab 999 $ / Monat

Volumenrabatte bei höheren Commitments

TTS · S2 Pro

15 $ / 1 Mio. Zeichen

Abrechnung in UTF-8-Bytes · ca. 180K englische Wörter pro 1 Mio.

TTS · S1

15 $ / 1 Mio. Zeichen

Gleicher Flatrate-Preis wie S2 Pro

ASR · transcribe-l

0,36 $ / Audiostunde

Dauer auf die nächste Sekunde aufgerundet

Parallelität

Custom

50+ bei High Volume · Custom bei Enterprise

Stimmen

Unbegrenzt

Keine Slot-Quoten · keine Gebühren pro Stimme

Rollover

90 Tage

Ungenutzte Credits werden 90 Tage übertragen

SLA

Bis zu 99 %

Im premium enterprise Tier verfügbar

Support

Dedizierter Slack-Kanal

SOC2 / HIPAA Compliance auf Anfrage

Self-host premium

Ab 10K $ Setup + 10K $ / Monat

12 Monate Commit · VPC · On-Prem · Air-gapped · Sovereign Cloud

Volumenrabatte sind über mehrere Tiers verfügbar. Kontaktiere Sales für Preise passend zu deinem Traffic-Profil. Öffentliche Preise zeigen den Einstieg in Enterprise; größere Commitments ermöglichen weitere kundenbezogene Rabatte.

Bereit, wenn ihr es seid.

Sprich mit unserem Team über dein Deployment. Wir kommen vorbereitet.

Sales kontaktieren

Häufig gestellte Fragen

Wo werden meine Daten gespeichert? Unterstützt ihr Datenresidenz in den USA, der EU und APAC?

Standardmäßig bleiben eure Daten in den Vereinigten Staaten, gehostet auf Google Cloud mit Cloudflare R2 Storage, und die Inferenz läuft über Edge-Regionen in den USA und im asiatisch-pazifischen Raum (Tokio), damit eure Nutzer überall niedrige Latenz erhalten. Für compliance-gebundene Workloads können Enterprise-Verträge Zero Data Retention aktivieren, sodass Anfrage-Text und Audio niemals auf die Festplatte geschrieben werden. Wenn eure Daten in einem bestimmten Land oder einer bestimmten Region bleiben müssen, läuft der self-hosted Enterprise-Tarif vollständig in eurer eigenen Infrastruktur, sodass nichts eure Umgebung verlässt.

Könnt ihr große Deployments und Traffic-Spitzen unterstützen?

Ja, auch bei ernsthaftem Volumen. Kapazität wird als gleichzeitige Generierungen bereitgestellt und skaliert mit eurem Vertrag; wir haben bereits Produktionskunden mit mehr als 1.000 gleichzeitigen Generierungen. Ein Rust Edge Gateway bedient Inferenz über mehrere GPU-Regionen hinweg. Wenn euer Traffic stark ansteigt, kann unser Team eure Limits noch am selben Tag erhöhen. Ihr skaliert, ohne jemals hinter einem Support-Ticket zu warten.

Welche Sicherheitszertifizierungen habt ihr?

Sicherheit zieht sich durch jede Ebene der Plattform. Unser SOC 2 Type II Audit läuft derzeit; der Bericht wird Kunden nach Abschluss unter NDA zur Verfügung stehen. Zero Data Retention ist für Enterprise-Verträge verfügbar, sodass Request-Payloads niemals persistiert werden, und der self-hosted Tarif hält jedes Byte eurer Daten in eurer eigenen Umgebung. Wir unterstützen außerdem HIPAA-orientierte Konfigurationen und können für qualifizierende Healthcare-Workloads ein BAA unterzeichnen; unabhängige Penetrationstests sind Teil unseres laufenden Compliance-Programms.

Bietet ihr Engineering-Support für individuelle Deployments?

Absolut. Enterprise-Kunden erhalten eine direkte Verbindung zu unserem Engineering-Team, keine Ticket-Warteschlange, über den Kanal, der zu eurer Arbeitsweise passt. Wir liefern regelmäßig integrationsspezifische Funktionen und Protokollerweiterungen für einzelne Kunden und setzen self-hosted Deployments gemeinsam mit euch Ende-zu-Ende auf, vom ersten Setup bis zum Go-live.

Unterstützt ihr SSO und RBAC?

Ja, mit feingranularer Kontrolle ab dem ersten Tag. Rollenbasierte Zugriffskontrolle erlaubt owner-, admin- und member-Rollen auf Team-Ebene sowie manager-, contributor- und viewer-Rollen auf Workspace-Ebene, damit jeder genau den passenden Zugriff hat. Single Sign-on funktioniert heute über Google und GitHub OAuth.

Können wir Modelle mit unseren Daten feinabstimmen oder eigene Stimmen verwenden?

Beides, zu euren Bedingungen. Ihr könnt private Voice Clones aus bereits 10 Sekunden Referenzaudio erstellen, für beste Ergebnisse 30 Sekunden oder mehr, sofort über API oder Web UI; sie bleiben vollständig privat in eurem Team. Für tiefere Engagements trainieren wir außerdem Custom Models auf euren eigenen Daten.

Wie läuft eine Migration von einem anderen Voice-Anbieter ab?

Die Migration zu Fish Audio ist unkompliziert, und die meisten Teams sind überrascht, wie schnell sie abläuft. Eure bestehenden Stimmen werden aus Referenzaudio neu erstellt; unsere Python-, TypeScript- und Go-SDKs sowie die WebSocket Streaming API decken die Integrationsmuster ab, auf die ihr bereits setzt, und unser Engineering-Team begleitet den Cutover, damit die Produktion ohne Unterbrechung weiterläuft.