Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen
Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Das Podcast-Transkriptionstool von Fish Audio konvertiert Audio in Text mit automatischen Emotions-Tags, Sprecherbezeichnungen und Zeitstempeln – und exportiert anschließend in SRT, VTT oder JSON. Kostenlose Version verfügbar. Kein Code erforderlich.

März 2026 | Fish Audio STT ist jetzt live unter fish.audio/app/speech-to-text

Jede Podcast-Folge, die Sie ohne Transkript veröffentlichen, lässt potenziellen Traffic ungenutzt. Ein Transkript macht Ihre Folge bei Google auffindbar, liefert Ihnen Show Notes mit einem Klick und ermöglicht es Ihnen, automatisch Untertitel zu generieren – für YouTube, Ihre Website oder überall dort, wo Sie Ihren Podcast verbreiten. Für hörgeschädigte Zielgruppen macht es Ihre Inhalte zudem barrierefrei. Podcast-Editoren, Medienteams und YouTube-Creator verlassen sich auf Transkripte, um SEO-Inhalte, durchsuchbare Archive und barrierefreie Episodenseiten zu erstellen. Die meisten Podcast-Transkriptionstools liefern Ihnen eine einfache Textwand und betrachten die Aufgabe damit als erledigt. Das Podcast-Transkriptionstool von Fish Audio geht weiter: Jedes Transkript enthält automatische Emotions- und Paralinguistik-Tags, Sprecherbezeichnungen, Zeitstempel und drei Exportformate. Diese Anleitung führt Sie in etwa drei Minuten durch den gesamten Workflow, vom Upload bis zum Export.

Beginnen Sie kostenlos mit der Transkription Ihres Podcasts →

Was macht ein gutes Podcast-Transkriptionstool aus?

Bevor Sie sich für ein Transkriptionstool entscheiden, ist es hilfreich zu wissen, was Sie eigentlich bewerten. Ein gutes Podcast-Transkriptionstool sollte vier Dinge bieten:

  1. Hohe Transkriptionsgenauigkeit über verschiedene Akzente, Audioqualitäten und Aufnahmeumgebungen hinweg
  2. Sprecheridentifikation, damit Sie in der Transkription zwischen Moderator und Gast unterscheiden können
  3. Mehrere Exportformate – mindestens SRT für Video-Untertitel, idealerweise auch VTT und JSON
  4. Transparente, erschwingliche Preise mit einer kostenlosen Stufe, die für eine echte Episode tatsächlich nutzbar ist

Das Podcast-Transkriptionstool von Fish Audio unterstützt über 100 Sprachen, akzeptiert 24 Audio- und Videoformate und taggt automatisch Emotions- und Paralinguistik-Ereignisse inline – ohne manuelle Annotation. Das Speech-to-Text-Modell ist für konversationelles Audio und Aufnahmen mit mehreren Sprechern wie Podcasts, Interviews und Live-Diskussionen optimiert. So funktioniert es in der Praxis.

So transkribieren Sie Ihren Podcast mit Fish Audio — Schritt für Schritt

Zeitaufwand: ~3 Minuten Benötigte Tools: Audiodatei (MP3, MP4, WAV, M4A und mehr) Ergebnis: Getaggtes Transkript + Untertiteldatei bereit für den Export

Schritt 1 — Fish Audio STT öffnen

Gehen Sie zu fish.audio/app/speech-to-text. Sie sehen Ihren Task-Verlauf – alle vorherigen Transkriptionen sind mit Dateiname, Datum, Status, verbrauchten Credits und Sprecheranzahl aufgelistet. Klicken Sie auf Create task, um eine neue Transkription zu starten.

Fish Audio Speech to Text Aufgabenliste mit abgeschlossenen Transkriptionsaufgaben, Credits und Sprecheranzahl

Schritt 2 — Laden Sie Ihre Folge hoch und legen Sie die Sprecher fest

Laden Sie im Fenster "Create transcription task" Ihre Audio- oder Videodatei hoch. Fish Audio akzeptiert alle gängigen Formate – MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM und mehr.

Wählen Sie unter number of speakers die Option "Auto", wenn Sie nicht sicher sind, wie viele Personen in der Aufnahme zu hören sind. Fish Audio erkennt die Sprecher automatisch. Wenn Sie die genaue Anzahl kennen – zum Beispiel zwei für ein Standardformat mit Moderator und Gast – können Sie diese manuell einstellen, um genauere Sprecherbezeichnungen zu erhalten.

Bevor Sie bestätigen, zeigt Ihnen die Benutzeroberfläche die geschätzte Dauer, die abrechenbaren Minuten und die geschätzten Credits für diese Aufgabe an. Ihnen werden keine Credits berechnet, bis Sie auf Create task klicken.

Dialog zum Erstellen einer Fish Audio Transkriptionsaufgabe mit Datei-Upload, Einstellung der Sprecheranzahl und geschätzten Credits

Schritt 3 — Überprüfen Sie Ihr Transkript

Sobald die Aufgabe abgeschlossen ist, klicken Sie auf Open viewer. Das Transkript wird in drei Spalten angezeigt: SPK/TAGS (Sprecherbezeichnung), TIME (Zeitstempelbereich) und TEXT (das Transkript mit Inline-Tags).

Jedes Segment ist auf die Sekunde genau zeitgestempelt. Emotions- und Paralinguistik-Ereignisse erscheinen als lila Inline-Tags direkt im Text – Sie sehen Dinge wie [pause], [sigh], [emphasis] und [breath] genau an der Stelle der Aufnahme, an der sie aufgetreten sind.

Klicken Sie auf ein beliebiges Segment, um diesen Teil des Audios direkt im Browser abzuspielen. Dies macht es einfach, die Genauigkeit zu überprüfen oder bestimmte Momente stichprobenartig zu kontrollieren, ohne die gesamte Datei durchsuchen zu müssen.

Das rechte Controller-Panel zeigt eine Zusammenfassung: Gesamtdauer, Anzahl der erkannten Sprecher, Anzahl der Segmente und die Bestätigung, dass Voice Separation (Stimmen-Trennung) und Tag audio events (Audio-Ereignisse taggen) beide aktiviert sind.

Fish Audio Transkript-Viewer mit Sprecherbezeichnungen, Zeitstempeln und Inline-Emotions-Tags wie pause und sigh

Schritt 4 — Exportieren Sie in Ihrem Format

Klicken Sie unten rechts im Controller-Panel auf Export. Wählen Sie Ihr Format und konfigurieren Sie die Exportoptionen vor dem Herunterladen.

Fish Audio Export-Optionen-Panel mit Formatauswahl

Fish Audio Export-Transkript-Dialog mit Formatoptionen SRT VTT JSON und allgemeinen Exporteinstellungen

Bereit, Ihre erste Folge zu transkribieren? Starten Sie eine kostenlose Transkriptionsaufgabe →

Automatische Tags — Was Fish Audio erfasst, was andere Tools übersehen

Hier unterscheidet sich das Podcast-Transkriptionstool von Fish Audio am deutlichsten von den Alternativen.

Wenn jemand vor der Beantwortung einer Frage seufzt, mitten im Satz lacht, für eine Betonung pausiert oder hörbar einatmet – ignorieren Standard-Transkriptionstools all das. Sie erhalten nur die Worte, befreit von allem anderen.

Fish Audio bettet diese Ereignisse als Inline-Tags genau an dem Punkt ein, an dem sie im Transkript auftreten. Diese Tags werden automatisch generiert – keine manuelle Annotation, kein Nachbearbeitungsschritt. Das Controller-Panel zeigt standardmäßig Tag audio events: On an.

Was wird getaggt?

Paralinguistik — nonverbale Laute, die neben der Sprache auftreten.

Emotion — der affektive Tonfall der Darbietung, erfasst aus Kontext und Prosodie.

Warum das für Podcaster wichtig ist

Für die meisten Podcast-Workflows dienen Tags drei praktischen Zwecken. Erstens machen sie Ihr Transkript als Quelle für Show Notes nützlicher – ein Transkript, das [laugh] und [pause] erfasst, bietet Ihrem Editor reichhaltigeres Material als eine einfache Textdatei. Zweitens ermöglichen sie eine schnellere Navigation in langen Aufnahmen – Sie können nach Momenten mit [sigh] oder [emphasis] suchen, um emotional bedeutsame Teile der Episode zu finden, ohne sie erneut anhören zu müssen. Drittens, und das ist das Besondere, sind diese Tags mit dem TTS-Modell von Fish Audio kompatibel – was bedeutet, dass ein Transkript direkt in einen Voice-Produktions-Workflow zurückgeführt werden kann, ohne dass eine Neuformatierung erforderlich ist.

Möchten Sie die Tags in Aktion sehen? Laden Sie Ihre erste Audiodatei hoch →

Exportformate erklärt — Welches benötigen Sie?

Fish Audio STT unterstützt drei Exportformate. Welches Sie verwenden sollten, hängt davon ab, was Sie als Nächstes mit dem Transkript vorhaben.

SRT ist die richtige Wahl für die meisten Podcaster, die Videoinhalte verbreiten. Es ist das am weitesten verbreitete Untertitelformat – kompatibel mit YouTube, Premiere Pro, Final Cut Pro und den meisten Videoplattformen.

VTT (WebVTT) ist das webnative Format – verwenden Sie es, wenn Sie Videos auf Ihrer eigenen Website einbetten und Inline-Wort-Timing benötigen.

JSON liefert Ihnen die rohe STT-Ausgabe ohne Untertitel-Transformationen. Verwenden Sie dies, wenn Sie das Transkript in ein anderes Tool einspeisen oder etwas Eigenes bauen.

Exportoptionen

Beim Exportieren von SRT oder VTT haben Sie vier zusätzliche Einstellungen:

  • Include tags — behält in Klammern gesetzte Ereignisse wie [pause] und [sigh] in der Untertiteldatei. Schalten Sie dies für saubere Untertitel aus; lassen Sie es aktiviert, wenn Sie die expressiven Metadaten erhalten möchten.
  • Include speaker — stellt jedem Untertitel-Cue das erkannte Sprecher-Label voran (SPK_0, SPK_1). Nützlich für Episoden mit mehreren Sprechern.
  • Punctuation — behält die Interpunktion im exportierten Text bei. Schalten Sie dies aus für einen saubereren Token-Stream, wenn Sie eine Weiterverarbeitung planen.
  • Split mode — wählen Sie zwischen "Segment" (behält bestehende STT-Grenzen bei) oder "Max words" (gruppiert Cues nach Wortanzahl, Interpunktion und Sprecherwechseln neu). "Max words" mit einer Obergrenze von 7 Wörtern pro Cue führt tendenziell zu besser lesbaren Untertiteln bei schneller Sprache.

Sprechererkennung — So unterscheiden Sie Moderator und Gast

Für Podcast-Interviews und Panel-Diskussionen ist die Sprechererkennung eine der nützlichsten Funktionen, die ein Podcast-Transkriptionstool bieten kann. Fish Audio trennt Sprecher in Aufnahmen mit mehreren Personen automatisch. Jedes Segment im Transkript-Viewer ist mit SPK_0, SPK_1 usw. gekennzeichnet – entsprechend den unterschiedlichen Stimmen, die im Audio erkannt wurden.

Beim Erstellen einer Aufgabe können Sie die number of speakers entweder auf "Auto" lassen oder manuell festlegen. Die Einstellung der genauen Anzahl führt tendenziell zu saubereren Sprechergrenzen, insbesondere bei Aufnahmen, in denen ein Sprecher deutlich leiser ist als der andere.

Beim Exportieren fügt die Aktivierung von Include speaker das Sprecher-Label als Präfix zu jedem Untertitel-Cue hinzu. Dies macht es einfach, Transkripte nach Sprechern zu durchsuchen, zu bearbeiten oder neu zu formatieren – nützlich, wenn Sie Zitate für Show Notes extrahieren oder ein Transkript auf wichtige Dialoge kürzen.

Hinweis: Sprechererkennung und mit Sprechern gekennzeichnete Transkripte sind in der Fish Audio Web-Oberfläche verfügbar. Sprecher-Labels werden beim Export in den Formaten SRT, VTT und JSON übernommen, wenn "Include speaker" aktiviert ist.

Wie viel kostet es, einen Podcast zu transkribieren?

Fish Audio STT wird pro verarbeiteter Audiominute mit 300 Credits pro Minute abgerechnet.

Kostenlose Konten erhalten 8.000 Credits pro Monat – genug für etwa 26 Minuten Audio. Das deckt eine Kurzfolge oder ein paar Interview-Segmente ab.

Die Web-Oberfläche zeigt Ihnen die genauen geschätzten Credits an, bevor Sie eine Aufgabe bestätigen, sodass es keine Überraschungen gibt.

Für Teams oder Produktionen mit hohem Volumen enthalten die kostenpflichtigen Pläne größere Credit-Pools. Die vollständige Preisübersicht finden Sie unter fish.audio/plan/.

Transkribieren Sie Ihre nächste Podcast-Folge in wenigen Minuten. Kostenlos mit der Transkription beginnen →

Fish Audio im Vergleich zu anderen Podcast-Transkriptionstools

Viele Podcaster, die nach dem besten Podcast-Transkriptionstool suchen, stellen fest, dass die richtige Wahl davon abhängt, ob sie einfache Texttranskripte oder reichhaltigere Metadaten wie Emotions-Tags und Multi-Format-Export benötigen. So schneidet Fish Audio im Vergleich zu anderen beliebten Optionen ab:

Daten stammen von Otter.ai, Happy Scribe und Adobe Podcast, Stand März 2026.

Die meisten Podcast-Transkriptionstools konzentrieren sich darauf, reine Textausgaben zu liefern. Fish Audio ist eines der wenigen, das Emotions- und Paralinguistik-Tags direkt in das Transkript einbettet – und eines der wenigen Tools, das die Transkription über die Studio-Integration mit einem Voice-Produktions-Workflow verbindet.

Wenn Sie einfachen Text für Show Notes oder SEO-Inhalte benötigen, funktionieren alle diese Tools. Wenn Sie getaggte Transkripte, Multi-Format-Export oder einen Weg vom Transkript zur Sprachproduktion benötigen, ist Fish Audio die umfassendste Option.

Wie geht es weiter — Vom Transkript zum Studio

Ein getaggtes Transkript ist mehr als ein Dokument. Es ist ein Skript, das bereits weiß, wie es klingen soll.

Die Tags, die Fish Audio in Ihr Podcast-Transkript einbettet – [calm, reflective], [breath], [determined], [pause] – verwenden das gleiche Format wie das S2 TTS-Modell von Fish Audio. Das bedeutet, dass ein Transkript ohne Neuformatierung direkt in eine Voice-Generierungspipeline eingespeist werden kann.

Fish Audio Studio geht noch weiter. In Studio werden getaggte Skripte zu vollständig editierbaren Voice-Projekten: Sie können nach Kapiteln bearbeiten, Voice-Modelle austauschen, die Darbietung auf Wortebene anpassen und Multi-Track-Audio produzieren – alles unter Beibehaltung der expressiven Metadaten aus Ihrer Originalaufnahme.

Fish Audio Story Studio mit getaggtem Transkript mit Emotions-Labels und Multi-Track-Audio-Timeline

Der direkte Import von STT zu Studio ist eine Funktion, die in Kürze verfügbar sein wird. Das Transkriptformat ist bereits kompatibel – die Tags in Ihrer STT-Ausgabe sind dieselben Tags, die Studio liest. Der Import wird ein einziger Schritt sein, sobald die Funktion veröffentlicht wird.

Beginnen Sie kostenlos mit der Transkription Ihres Podcasts → — oder erkunden Sie Fish Audio Studio, wenn Sie bereit für die Produktion sind.


Passend dazu:

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen