Outil de Transcription de Podcast — Comment Transcrire Votre Podcast avec Fish Audio

L'outil de transcription de podcast de Fish Audio convertit l'audio en texte avec des balises d'émotion automatiques, des étiquettes de locuteurs et des horodatages — puis l'exporte au format SRT, VTT ou JSON. Version gratuite disponible. Aucun code requis.

Mars 2026 | Fish Audio STT est désormais disponible sur fish.audio/app/speech-to-text

Chaque épisode de podcast que vous publiez sans transcription est une opportunité de trafic manquée. Une transcription rend votre épisode consultable sur Google, vous donne des notes d'émission en un clic et vous permet de générer des sous-titres automatiquement — pour YouTube, votre site web ou partout où vous diffusez votre contenu. Pour les publics malentendants, cela rend également votre contenu accessible. Les monteurs de podcasts, les équipes média et les créateurs YouTube s'appuient sur les transcriptions pour générer du contenu SEO, des archives consultables et des pages d'épisodes accessibles. La plupart des outils de transcription de podcast vous donnent un bloc de texte brut et s'arrêtent là. L'outil de transcription de podcast de Fish Audio va plus loin : chaque transcription est accompagnée de balises automatiques d'émotion et de paralangage, d'étiquettes de locuteurs, d'horodatages et de trois formats d'exportation. Ce guide vous accompagne tout au long du processus, de l'importation à l'exportation, en trois minutes environ.

Commencez à transcrire votre podcast gratuitement →

Qu'est-ce qui fait un bon outil de transcription de podcast ?

Avant de choisir un outil de transcription, il est utile de savoir ce que vous évaluez réellement. Un bon outil de transcription de podcast doit offrir quatre éléments :

Une grande précision de transcription quels que soient les accents, la qualité audio et les environnements d'enregistrement.
L'identification des locuteurs pour que vous puissiez distinguer l'hôte de l'invité dans la transcription.
Plusieurs formats d'exportation — au minimum SRT pour les sous-titres vidéo, et idéalement VTT et JSON également.
Une tarification transparente et abordable avec une version gratuite réellement exploitable pour un véritable épisode.

L'outil de transcription de podcast de Fish Audio prend en charge plus de 100 langues, accepte 24 formats audio et vidéo, et balise automatiquement les émotions et les événements de paralangage directement dans le texte — sans aucune annotation manuelle. Le modèle speech-to-text est optimisé pour l'audio conversationnel et les enregistrements multi-locuteurs tels que les podcasts, les interviews et les discussions en direct. Voici comment cela fonctionne en pratique.

Comment transcrire votre podcast avec Fish Audio — Étape par étape

Temps requis : ~3 minutes Outils nécessaires : Fichier audio (MP3, MP4, WAV, M4A, et plus) Résultat : Transcription balisée + fichier de sous-titres prêt pour l'exportation

Étape 1 — Ouvrir Fish Audio STT

Allez sur fish.audio/app/speech-to-text. Vous verrez votre historique de tâches — toutes les transcriptions précédentes listées avec le nom du fichier, la date, le statut, les crédits utilisés et le nombre de locuteurs. Cliquez sur Create task pour lancer une nouvelle transcription.

Liste des tâches Fish Audio Speech to Text montrant les tâches de transcription terminées avec les crédits et le nombre de locuteurs

Étape 2 — Téléchargez votre épisode et définissez les locuteurs

Dans la fenêtre Create transcription task, téléchargez votre fichier audio ou vidéo. Fish Audio accepte tous les formats majeurs — MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM, et plus.

Sous number of speakers, laissez sur Auto si vous n'êtes pas sûr du nombre de personnes dans l'enregistrement. Fish Audio détectera les locuteurs automatiquement. Si vous connaissez le nombre exact — par exemple, deux pour un format standard hôte-invité — vous pouvez le régler manuellement pour des étiquettes de locuteurs plus précises.

Avant de confirmer, l'interface vous indique la durée estimée, les minutes facturables et les crédits estimés pour cette tâche. Vous n'êtes facturé qu'une fois que vous avez cliqué sur Create task.

Boîte de dialogue de création de tâche de transcription Fish Audio montrant le téléchargement de fichier, le réglage du nombre de locuteurs et les crédits estimés

Étape 3 — Examinez votre transcription

Une fois la tâche terminée, cliquez sur Open viewer. La transcription s'affiche en trois colonnes : SPK/TAGS (étiquette du locuteur), TIME (plage d'horodatage) et TEXT (la transcription avec les balises intégrées).

Chaque segment est horodaté à la seconde près. Les événements d'émotion et de paralangage apparaissent sous forme de balises violettes directement dans le texte — vous verrez des mentions comme [pause], [sigh], [emphasis] et [breath] au point exact de l'enregistrement où ils se sont produits.

Cliquez sur n'importe quel segment pour lire cette partie de l'audio directement dans le navigateur. Cela permet de vérifier facilement la précision ou de contrôler des moments spécifiques sans avoir à parcourir tout le fichier.

Le panneau de contrôle à droite affiche un résumé : durée totale, nombre de locuteurs détectés, nombre de segments, et la confirmation que la séparation des voix et les balises d'événements audio sont activées.

Visionneuse de transcription Fish Audio montrant les étiquettes de locuteurs, les horodatages et les balises d'émotion intégrées comme pause et soupir

Étape 4 — Exportez dans votre format

Cliquez sur Export en bas à droite du panneau de contrôle. Choisissez votre format et configurez les options d'exportation avant le téléchargement.

Panneau des options d'exportation Fish Audio montrant la sélection du format

Boîte de dialogue d'exportation de transcription Fish Audio montrant les options de format SRT VTT JSON et les paramètres d'exportation généraux

Prêt à transcrire votre premier épisode ? Lancez une tâche de transcription gratuite →

Balises automatiques — Ce que Fish Audio capture et que les autres outils manquent

C'est ici que l'outil de transcription de podcast de Fish Audio se distingue le plus clairement des alternatives.

Quand quelqu'un soupire avant de répondre à une question, rit au milieu d'une phrase, fait une pause pour insister ou prend une inspiration audible — les outils de transcription standard ignorent tout cela. Vous n'obtenez que les mots, dépouillés de tout le reste.

Fish Audio intègre ces événements sous forme de balises directement au point où ils se produisent dans la transcription. Ces balises sont générées automatiquement — pas d'annotation manuelle, pas d'étape de post-traitement. Le panneau de contrôle affiche Tag audio events: On par défaut.

Ce qui est balisé

Paralangage — sons non verbaux qui accompagnent la parole.

Émotion — ton affectif de la prestation, capturé à partir du contexte et de la prosodie.

Pourquoi est-ce important pour les podcasteurs ?

Pour la plupart des flux de travail de podcast, les balises servent trois objectifs pratiques. Premièrement, elles rendent votre transcription plus utile comme source de notes d'émission — une transcription qui capture [laugh] et [pause] donne à votre éditeur un matériau plus riche qu'un simple fichier texte. Deuxièmement, elles permettent de naviguer plus rapidement dans de longs enregistrements — vous pouvez rechercher les moments [sigh] ou [emphasis] pour trouver les parties émotionnellement significatives de l'épisode sans avoir à réécouter. Troisièmement, et c'est le point le plus distinctif, ces balises sont compatibles avec le modèle TTS de Fish Audio — ce qui signifie qu'une transcription peut être directement réutilisée dans un flux de production vocale sans aucun reformatage.

Vous voulez voir les balises en action ? Téléchargez votre premier fichier audio →

Explication des formats d'exportation — De lequel avez-vous besoin ?

Fish Audio STT prend en charge trois formats d'exportation. Le choix dépend de ce que vous comptez faire de la transcription ensuite.

SRT est le bon choix pour la plupart des podcasteurs qui diffusent du contenu vidéo. C'est le format de sous-titres le plus largement pris en charge — compatible avec YouTube, Premiere Pro, Final Cut Pro et la plupart des plateformes vidéo.

VTT (WebVTT) est le format natif du web — utilisez-le si vous intégrez une vidéo sur votre propre site et que vous avez besoin d'un minutage précis au mot près.

JSON vous donne la sortie brute STT sans transformations de sous-titres. Utilisez-le si vous envoyez la transcription vers un autre outil ou si vous construisez quelque chose de personnalisé.

Options d'exportation

Lors de l'exportation en SRT ou VTT, vous disposez de quatre paramètres supplémentaires :

Include tags — conserve les événements entre crochets comme [pause] et [sigh] dans le fichier de sous-titres. Désactivez cette option pour des sous-titres épurés ; laissez-la activée si vous souhaitez préserver les métadonnées expressives.
Include speaker — préfixe chaque segment de sous-titre avec l'étiquette du locuteur détecté (SPK_0, SPK_1). Utile pour les épisodes avec plusieurs intervenants.
Punctuation — conserve la ponctuation dans le texte exporté. Désactivez cette option pour un flux de jetons plus propre si vous effectuez un traitement ultérieur.
Split mode — choisissez entre Segment (conserve les limites STT existantes) ou Max words (regroupe les segments par nombre de mots, ponctuation et changements de locuteur). Le mode Max words avec une limite de 7 mots par segment a tendance à produire des sous-titres plus lisibles pour les paroles rapides.

Détection des locuteurs — Distinguer l'hôte de l'invité

Pour les interviews et les tables rondes, la détection des locuteurs est l'une des fonctionnalités les plus utiles qu'un outil de transcription de podcast puisse offrir. Fish Audio sépare automatiquement les locuteurs dans les enregistrements multi-personnes. Chaque segment dans la visionneuse de transcription est étiqueté SPK_0, SPK_1, etc. — correspondant aux voix distinctes détectées dans l'audio.

Lors de la création d'une tâche, vous pouvez soit laisser le number of speakers sur Auto, soit le régler manuellement. Le fait de définir le nombre exact a tendance à produire des transitions entre locuteurs plus nettes, surtout dans les enregistrements où un locuteur est nettement plus discret que l'autre.

Lors de l'exportation, l'activation de Include speaker ajoute l'étiquette du locuteur en préfixe à chaque segment de sous-titre. Cela facilite la recherche, l'édition ou le reformatage des transcriptions par locuteur — très utile pour extraire des citations pour les notes d'émission ou pour éditer une transcription.

Note : La détection des locuteurs et les transcriptions étiquetées sont disponibles dans l'interface web de Fish Audio. Les étiquettes de locuteurs sont conservées lors de l'exportation aux formats SRT, VTT et JSON lorsque l'option Include speaker est activée.

Combien coûte la transcription d'un podcast ?

Fish Audio STT est facturé à la minute d'audio traitée au tarif de 300 crédits par minute.

Les comptes gratuits reçoivent 8 000 crédits par mois — assez pour environ 26 minutes d'audio. Cela couvre un épisode court ou quelques segments d'interview.

L'interface web vous indique le nombre exact de crédits estimés avant que vous ne confirmiez une tâche, il n'y a donc pas de surprise.

Pour les équipes ou la production à haut volume, les plans payants incluent des pools de crédits plus importants. Consultez le détail complet des tarifs sur fish.audio/plan/.

Transcrivez votre prochain épisode de podcast en quelques minutes. Commencez à transcrire gratuitement →

Fish Audio vs autres outils de transcription de podcast

De nombreux podcasteurs cherchant le meilleur outil de transcription de podcast constatent que le bon choix dépend de s'ils ont besoin de transcriptions en texte brut ou de métadonnées plus riches comme les balises d'émotion et l'exportation multi-format. Voici comment Fish Audio se compare à d'autres options populaires :

Outil	Offre Gratuite	Balises d'Émotion	Exportations	Chemin de Production Vocale
Fish Audio	8k crédits/mois	Automatique	SRT, VTT, JSON	Direct (Studio)
Otter.ai	300 min/mois	Aucune	TXT, PDF, SRT (Payant)	Aucun
Happy Scribe	Aucune	Aucune	50+ formats	Aucun
Adobe Podcast	30 min/jour	Aucune	TXT, CSV	Aucun

Données sourcées d'après Otter.ai, Happy Scribe et Adobe Podcast en date de mars 2026.

La plupart des outils de transcription de podcast se concentrent sur la fourniture d'une sortie en texte brut. Fish Audio est l'un des rares à intégrer des balises d'émotion et de paralangage directement dans la transcription — et l'un des rares outils qui connecte la transcription à un flux de production vocale via l'intégration Studio.

Si vous avez besoin de texte brut propre pour des notes d'émission ou du contenu SEO, n'importe lequel de ces outils fera l'affaire. Si vous avez besoin de transcriptions balisées, d'une exportation multi-format ou d'un passage de la transcription à la production vocale, Fish Audio est l'option la plus complète.

Et ensuite — De la transcription au Studio

Une transcription balisée est plus qu'un document. C'est un script qui sait déjà comment il doit sonner.

Les balises que Fish Audio intègre dans votre transcription de podcast — [calm, reflective], [breath], [determined], [pause] — utilisent le même format que le modèle TTS S2 de Fish Audio. Cela signifie qu'une transcription peut alimenter directement un pipeline de génération de voix sans aucun reformatage.

Fish Audio Studio pousse cela encore plus loin. Dans Studio, les scripts balisés deviennent des projets vocaux entièrement éditables : vous pouvez éditer par chapitre, échanger les modèles de voix, ajuster la prestation au niveau du mot et produire de l'audio multipiste — tout en conservant les métadonnées expressives de votre enregistrement original.

Fish Audio Story Studio montrant une transcription balisée avec des étiquettes d'émotion et une chronologie audio multipiste

L'importation directe de STT vers Studio est une fonctionnalité à venir. Le format de transcription est déjà compatible — les balises de votre sortie STT sont les mêmes que celles lues par Studio. L'importation se fera en une seule étape dès que la fonctionnalité sera disponible.

Commencez à transcrire votre podcast gratuitement → — ou Explorez Fish Audio Studio si vous êtes prêt à produire.

En relation :

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Lire plus de Sabrina Shu

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Inscrivez-vous gratuitement

Vous avez déjà un compte ? Se connecter

Last Updates

19 mars 2026Guide

Meilleur TTS IA pour les équipes créatives ! Le forfait Team de Fish Audio expliqué

Sabrina ShuSupport & Marketing Specialist

15 mars 2026Guide

Musique de fond par IA libre de droits pour les publicités, les jeux et les podcasts

Kyle CuiAI Systems Engineer

15 mars 2026Guide

La musique générée par l'IA est-elle libre de droits d'auteur ? Guide juridique pour 2026

Kyle CuiAI Systems Engineer

Outil de Transcription de Podcast — Comment Transcrire Votre Podcast avec Fish Audio

Qu'est-ce qui fait un bon outil de transcription de podcast ?

Comment transcrire votre podcast avec Fish Audio — Étape par étape

Étape 1 — Ouvrir Fish Audio STT

Étape 2 — Téléchargez votre épisode et définissez les locuteurs

Étape 3 — Examinez votre transcription

Étape 4 — Exportez dans votre format

Balises automatiques — Ce que Fish Audio capture et que les autres outils manquent

Ce qui est balisé

Pourquoi est-ce important pour les podcasteurs ?

Explication des formats d'exportation — De lequel avez-vous besoin ?

Options d'exportation

Détection des locuteurs — Distinguer l'hôte de l'invité

Combien coûte la transcription d'un podcast ?

Fish Audio vs autres outils de transcription de podcast

Et ensuite — De la transcription au Studio

Créez des voix qui semblent réelles

Last Updates

Meilleur TTS IA pour les équipes créatives ! Le forfait Team de Fish Audio expliqué

Musique de fond par IA libre de droits pour les publicités, les jeux et les podcasts

La musique générée par l'IA est-elle libre de droits d'auteur ? Guide juridique pour 2026

Recommended

Meilleur TTS IA pour les équipes créatives ! Le forfait Team de Fish Audio expliqué

Fish Audio S2 ! Contrôle vocal par IA précis au niveau du mot

Fish Audio lance en open-source S2 : le contrôle granulaire rencontre le streaming en production

Comment utiliser SAM Audio pour la séparation audio étape par étape

Lancement de Fish Audio S1 : un modèle de base audio de pointe pour la synthèse vocale (TTS)