Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen
27. März 2026Anleitung

Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Das Podcast-Transkriptionstool von Fish Audio konvertiert Audio in Text mit automatischen Emotions-Tags, Sprecher-Labels und Zeitstempeln – und exportiert anschließend in SRT, VTT oder JSON. Kostenlose Version verfügbar. Kein Code erforderlich.

März 2026 | Fish Audio STT ist jetzt live unter fish.audio/app/speech-to-text

Jede Podcast-Folge, die Sie ohne Transkript veröffentlichen, lässt Traffic liegen. Ein Transkript macht Ihre Folge bei Google suchbar, liefert Ihnen Shownotes mit einem Klick und ermöglicht die automatische Erstellung von Untertiteln – für YouTube, Ihre Website oder wo auch immer Sie Ihre Inhalte verbreiten. Für hörgeschädigte Zielgruppen macht es Ihre Inhalte zudem barrierefrei. Podcast-Editoren, Medienteams und YouTube-Creator verlassen sich auf Transkripte, um SEO-Inhalte, durchsuchbare Archive und barrierefreie Episodenseiten zu erstellen. Die meisten Podcast-Transkriptionstools liefern Ihnen eine Wand aus reinem Text und belassen es dabei. Das Podcast-Transkriptionstool von Fish Audio geht weiter: Jedes Transkript enthält automatische Emotions- und Paralanguage-Tags, Sprecher-Labels, Zeitstempel und drei Exportformate. Dieser Leitfaden führt Sie in etwa drei Minuten durch den gesamten Workflow, vom Upload bis zum Export.

Beginnen Sie kostenlos mit der Transkription Ihres Podcasts →

Was macht ein gutes Podcast-Transkriptionstool aus?

Bevor Sie sich für ein Transkriptionstool entscheiden, hilft es zu wissen, worauf es wirklich ankommt. Ein gutes Podcast-Transkriptionstool sollte vier Dinge bieten:

  1. Hohe Transkriptionsgenauigkeit über verschiedene Akzente, Audioqualitäten und Aufnahmeumgebungen hinweg.

  2. Sprecheridentifikation, damit Sie im Transkript zwischen Host und Gast unterscheiden können.

  3. Mehrere Exportformate — mindestens SRT für Video-Untertitel, idealerweise auch VTT und JSON.

  4. Transparente, erschwingliche Preise mit einer kostenlosen Stufe, die für eine echte Episode tatsächlich nutzbar ist.

Das Podcast-Transkriptionstool von Fish Audio unterstützt über 100 Sprachen, akzeptiert 24 Audio- und Videoformate und taggt automatisch Emotions- und Paralanguage-Ereignisse im Text – ohne manuelle Annotation. Das Speech-to-Text-Modell ist für dialogorientiertes Audio und Aufnahmen mit mehreren Sprechern wie Podcasts, Interviews und Live-Diskussionen optimiert. So funktioniert es in der Praxis.

Schritt-für-Schritt-Anleitung: So transkribieren Sie Ihren Podcast mit Fish Audio

Zeitaufwand: ~3 Minuten Benötigte Tools: Audiodatei (MP3, MP4, WAV, M4A und mehr) Ergebnis: Getaggtes Transkript + Untertiteldatei bereit für den Export

Schritt 1 — Fish Audio STT öffnen

Gehen Sie zu fish.audio/app/speech-to-text. Sie sehen Ihren Aufgabenverlauf – alle vorherigen Transkriptionen mit Dateiname, Datum, Status, verbrauchten Credits und Sprecheranzahl. Klicken Sie auf Create task, um eine neue Transkription zu starten.

Fish Audio Speech to Text Aufgabenliste mit abgeschlossenen Transkriptionsaufgaben, Credits und Sprecheranzahl

Schritt 2 — Episode hochladen und Sprecher festlegen

Laden Sie im Fenster „Create transcription task“ Ihre Audio- oder Videodatei hoch. Fish Audio akzeptiert alle gängigen Formate — MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM und mehr.

Lassen Sie die Anzahl der Sprecher (number of speakers) auf „Auto“, wenn Sie nicht sicher sind, wie viele Personen in der Aufnahme zu hören sind. Fish Audio erkennt die Sprecher automatisch. Wenn Sie die genaue Anzahl kennen – zum Beispiel zwei bei einem Standardformat mit Host und Gast – können Sie diese manuell einstellen, um genauere Sprecher-Labels zu erhalten.

Bevor Sie bestätigen, zeigt die Benutzeroberfläche die geschätzte Dauer, die abrechenbaren Minuten und die geschätzten Credits für diese Aufgabe an. Die Abrechnung erfolgt erst, wenn Sie auf Create task klicken.

Dialog zum Erstellen einer Transkriptionsaufgabe in Fish Audio mit Datei-Upload, Einstellung der Sprecheranzahl und geschätzten Credits

Schritt 3 — Transkript überprüfen

Sobald die Aufgabe abgeschlossen ist, klicken Sie auf Open viewer. Das Transkript wird in drei Spalten angezeigt: SPK/TAGS (Sprecher-Label), TIME (Zeitstempel-Bereich) und TEXT (das Transkript mit Inline-Tags).

Jedes Segment ist sekundengenau mit einem Zeitstempel versehen. Emotions- und Paralanguage-Ereignisse erscheinen als violette Inline-Tags direkt im Text – Sie sehen Tags wie [pause], [sigh], [emphasis] und [breath] genau an der Stelle der Aufnahme, an der sie aufgetreten sind.

Klicken Sie auf ein beliebiges Segment, um diesen Teil des Audios direkt im Browser abzuspielen. So lässt sich die Genauigkeit leicht überprüfen oder gezielte Momente kontrollieren, ohne die gesamte Datei durchsuchen zu müssen.

Das rechte „Controller“-Panel zeigt eine Zusammenfassung: Gesamtdauer, Anzahl der erkannten Sprecher, Anzahl der Segmente und die Bestätigung, dass Voice Separation und Tag Audio Events aktiviert sind.

Fish Audio Transkript-Viewer mit Sprecher-Labels, Zeitstempeln und Inline-Emotions-Tags wie pause und sigh

Schritt 4 — Im gewünschten Format exportieren

Klicken Sie unten rechts im Controller-Panel auf Export. Wählen Sie Ihr Format und konfigurieren Sie die Exportoptionen vor dem Herunterladen.

Fish Audio Export-Optionen-Panel mit Formatauswahl

Fish Audio Export-Transkript-Dialog mit Formatoptionen SRT VTT JSON und allgemeinen Exporteinstellungen

Bereit, Ihre erste Episode zu transkribieren? Starten Sie eine kostenlose Transkriptionsaufgabe →

Automatische Tags — Was Fish Audio erfasst, das andere Tools übersehen

Hier unterscheidet sich das Podcast-Transkriptionstool von Fish Audio am deutlichsten von den Alternativen.

Wenn jemand vor der Beantwortung einer Frage seufzt, mitten im Satz lacht, für eine Betonung pausiert oder hörbar einatmet – herkömmliche Transkriptionstools ignorieren all das. Sie erhalten nur die Worte, befreit von allem anderen.

Fish Audio bettet diese Ereignisse als Inline-Tags genau an der Stelle ein, an der sie im Transkript vorkommen. Diese Tags werden automatisch generiert – ohne manuelle Annotation, ohne Post-Processing. Das Controller-Panel zeigt standardmäßig Tag audio events: On an.

Was wird getaggt?

Paralanguage — nonverbale Geräusche, die neben der Sprache auftreten.

Emotion — affektiver Tonfall der Darbietung, erfasst aus Kontext und Prosodie.

Warum das für Podcaster wichtig ist

Für die meisten Podcast-Workflows dienen Tags drei praktischen Zwecken. Erstens machen sie Ihr Transkript als Quelle für Shownotes nützlicher – ein Transkript, das [laugh] und [pause] erfasst, bietet Ihrem Editor reichhaltigeres Material als eine flache Textdatei. Zweitens ermöglichen sie eine schnellere Navigation in langen Aufnahmen – Sie können nach [sigh]- oder [emphasis]-Momenten suchen, um emotional bedeutsame Teile der Episode zu finden, ohne alles erneut anhören zu müssen. Drittens, und das ist das Alleinstellungsmerkmal, sind diese Tags mit dem TTS-Modell von Fish Audio kompatibel – was bedeutet, dass ein Transkript direkt in einen Workflow zur Sprachproduktion zurückgeführt werden kann, ohne dass eine Neuformatierung erforderlich ist.

Möchten Sie die Tags in Aktion sehen? Laden Sie Ihre erste Audiodatei hoch →

Exportformate erklärt – Welches benötigen Sie?

Fish Audio STT unterstützt drei Exportformate. Welches Sie verwenden sollten, hängt davon ab, was Sie als Nächstes mit dem Transkript vorhaben.

SRT ist die richtige Wahl für die meisten Podcaster, die Video-Inhalte verbreiten. Es ist das am weitesten verbreitete Untertitelformat – kompatibel mit YouTube, Premiere Pro, Final Cut Pro und den meisten Videoplattformen.

VTT (WebVTT) ist das web-native Format – verwenden Sie es, wenn Sie Videos auf Ihrer eigenen Website einbetten und Wort-Timing im Text benötigen.

JSON liefert Ihnen die rohe STT-Ausgabe ohne Untertitel-Transformationen. Verwenden Sie dieses Format, wenn Sie das Transkript in ein anderes Tool einspeisen oder etwas Eigenes entwickeln.

Export-Optionen

Beim Export von SRT oder VTT haben Sie vier zusätzliche Einstellungen:

  • Include tags — behält in Klammern gesetzte Ereignisse wie [pause] und [sigh] in der Untertiteldatei bei. Deaktivieren Sie dies für saubere Untertitel; lassen Sie es aktiviert, wenn die expressiven Metadaten erhalten bleiben sollen.

  • Include speaker — stellt jedem Untertitel-Cue das erkannte Sprecher-Label (SPK_0, SPK_1) voran. Nützlich für Episoden mit mehreren Sprechern.

  • Punctuation — behält die Interpunktion im exportierten Text bei. Deaktivieren Sie dies für einen saubereren Token-Stream, wenn Sie eine Weiterverarbeitung planen.

  • Split mode — wählen Sie zwischen Segment (behält bestehende STT-Grenzen bei) oder Max words (gruppiert Cues nach Wortanzahl, Interpunktion und Sprecherwechseln neu). Max words mit einer Begrenzung auf 7 Wörter pro Cue führt bei schneller Sprache meist zu besser lesbaren Untertiteln.

Sprechererkennung – Host und Gast unterscheiden

Für Podcast-Interviews und Panel-Diskussionen ist die Sprechererkennung eine der nützlichsten Funktionen, die ein Podcast-Transkriptionstool bieten kann. Fish Audio trennt Sprecher in Aufnahmen mit mehreren Personen automatisch. Jedes Segment im Transkript-Viewer ist mit SPK_0, SPK_1 usw. gekennzeichnet – entsprechend den in der Aufnahme erkannten unterschiedlichen Stimmen.

Beim Erstellen einer Aufgabe können Sie die Anzahl der Sprecher entweder auf „Auto“ lassen oder manuell festlegen. Das Festlegen der exakten Anzahl führt tendenziell zu saubereren Sprechergrenzen, insbesondere in Aufnahmen, in denen ein Sprecher deutlich leiser ist als der andere.

Beim Exportieren fügt die Aktivierung von Include speaker das Sprecher-Label als Präfix zu jedem Untertitel-Cue hinzu. Dies macht es einfach, Transkripte nach Sprechern zu durchsuchen, zu bearbeiten oder neu zu formatieren – nützlich, wenn Sie Zitate für Shownotes extrahieren oder ein Transkript auf wichtige Dialogwechsel kürzen.

Hinweis: Die Sprechererkennung und mit Sprechern gelabelte Transkripte sind in der Fish Audio-Weboberfläche verfügbar. Die Sprecher-Labels werden beim Export in den Formaten SRT, VTT und JSON übernommen, wenn „Include speaker“ aktiviert ist.

Was kostet die Transkription eines Podcasts?

Fish Audio STT wird pro verarbeiteter Audiominute mit 300 Credits pro Minute abgerechnet.

Kostenlose Konten erhalten 8.000 Credits pro Monat — das reicht für etwa 26 Minuten Audio. Damit lässt sich eine Kurzepisode oder ein paar Interview-Segmente abdecken.

Die Weboberfläche zeigt Ihnen die exakten geschätzten Credits an, bevor Sie eine Aufgabe bestätigen, sodass es keine Überraschungen gibt.

Für Teams oder Produktionen mit hohem Volumen enthalten die kostenpflichtigen Pläne größere Credit-Pakete. Die vollständige Preisübersicht finden Sie unter fish.audio/plan/.

Transkribieren Sie Ihre nächste Podcast-Folge in wenigen Minuten. Starten Sie kostenlos mit der Transkription →

Fish Audio im Vergleich zu anderen Podcast-Transkriptionstools

Viele Podcaster, die nach dem besten Podcast-Transkriptionstool suchen, stellen fest, dass die richtige Wahl davon abhängt, ob sie einfache Texttranskripte oder reichhaltigere Metadaten wie Emotions-Tags und Multi-Format-Export benötigen. So schneidet Fish Audio im Vergleich zu anderen beliebten Optionen ab:

FeatureFish AudioOtter.aiHappy ScribeAdobe Podcast
Automatische Emotions-Tags
Paralanguage-Tags
Sprechererkennung
SRT-Export
VTT-Export
JSON-Export
TTS / Studio-Integration
Sprachen100+Mehrsprachig120+Limitiert
Kostenlose Stufe✅ 8.000 Cred./Mo.✅ 300 Min./Mo.✅ Limitiert

Daten von Otter.ai, Happy Scribe, und Adobe Podcast Stand März 2026.

Die meisten Podcast-Transkriptionstools konzentrieren sich darauf, reinen Text auszugeben. Fish Audio ist eines der wenigen, das Emotions- und Paralanguage-Tags direkt in das Transkript einbettet – und eines der wenigen Tools, das die Transkription über die Studio-Integration mit einem Sprachproduktions-Workflow verbindet.

Wenn Sie reinen Text für Shownotes oder SEO-Inhalte benötigen, funktionieren alle diese Tools. Wenn Sie getaggte Transkripte, Multi-Format-Export oder einen Weg vom Transkript zur Sprachproduktion benötigen, ist Fish Audio die umfassendste Option.

Eine weitere nützliche Option für Podcaster ist Podsqueeze, eine KI-Plattform, die hilft, Podcast-Episoden in Shownotes, Zeitstempel, Zusammenfassungen, Social-Media-Posts, Newsletter und andere wiederverwendbare Inhalte zu verwandeln. Es ist besonders hilfreich für Creator, die nach der Aufnahme Zeit sparen und jede Episode in mehrere Content-Assets für ihr Publikum verwandeln möchten.

Ausblick — Vom Transkript zum Studio

Ein getaggtes Transkript ist mehr als nur ein Dokument. Es ist ein Skript, das bereits weiß, wie es klingen soll.

Die Tags, die Fish Audio in Ihr Podcast-Transkript einbettet – [calm, reflective], [breath], [determined], [pause] – verwenden das gleiche Format wie das S2 TTS-Modell von Fish Audio. Das bedeutet, dass ein Transkript direkt in eine Sprachgenerierungspipeline eingespeist werden kann, ohne dass eine Neuformatierung erforderlich ist.

Fish Audio Studio geht noch einen Schritt weiter. In Studio werden getaggte Skripte zu vollständig editierbaren Sprachprojekten: Sie können nach Kapiteln bearbeiten, Sprachmodelle austauschen, die Darbietung auf Wortebene anpassen und Mehrspur-Audio produzieren – und dabei die expressiven Metadaten aus Ihrer Originalaufnahme beibehalten.

Fish Audio Story Studio mit getaggtem Transkript mit Emotions-Labels und Mehrspur-Audio-Timeline

Der direkte Import von STT ins Studio ist eine Funktion, die bald verfügbar sein wird. Das Transkriptformat ist bereits kompatibel – die Tags in Ihrer STT-Ausgabe sind dieselben Tags, die Studio liest. Der Import wird ein einziger Schritt sein, sobald die Funktion veröffentlicht ist.

Beginnen Sie kostenlos mit der Transkription Ihres Podcasts → — oder Entdecken Sie Fish Audio Studio, wenn Sie bereit für die Produktion sind.


Passend dazu:

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen