L'outil de transcription de podcast de Fish Audio convertit l'audio en texte avec des balises d'émotion automatiques, des étiquettes de locuteurs et des horodatages — puis l'exporte au format SRT, VTT ou JSON. Version gratuite disponible. Aucun code requis.
Mars 2026 | Fish Audio STT est désormais disponible sur fish.audio/app/speech-to-text
Chaque épisode de podcast que vous publiez sans transcription est une opportunité de trafic manquée. Une transcription rend votre épisode consultable sur Google, vous donne des notes d'émission en un clic et vous permet de générer des sous-titres automatiquement — pour YouTube, votre site web ou partout où vous diffusez votre contenu. Pour les publics malentendants, cela rend également votre contenu accessible. Les monteurs de podcasts, les équipes média et les créateurs YouTube s'appuient sur les transcriptions pour générer du contenu SEO, des archives consultables et des pages d'épisodes accessibles. La plupart des outils de transcription de podcast vous donnent un bloc de texte brut et s'arrêtent là. L'outil de transcription de podcast de Fish Audio va plus loin : chaque transcription est accompagnée de balises automatiques d'émotion et de paralangage, d'étiquettes de locuteurs, d'horodatages et de trois formats d'exportation. Ce guide vous accompagne tout au long du processus, de l'importation à l'exportation, en trois minutes environ.
Qu'est-ce qui fait un bon outil de transcription de podcast ?
Avant de choisir un outil de transcription, il est utile de savoir ce que vous évaluez réellement. Un bon outil de transcription de podcast doit offrir quatre éléments :
- Une grande précision de transcription quels que soient les accents, la qualité audio et les environnements d'enregistrement.
- L'identification des locuteurs pour que vous puissiez distinguer l'hôte de l'invité dans la transcription.
- Plusieurs formats d'exportation — au minimum SRT pour les sous-titres vidéo, et idéalement VTT et JSON également.
- Une tarification transparente et abordable avec une version gratuite réellement exploitable pour un véritable épisode.
L'outil de transcription de podcast de Fish Audio prend en charge plus de 100 langues, accepte 24 formats audio et vidéo, et balise automatiquement les émotions et les événements de paralangage directement dans le texte — sans aucune annotation manuelle. Le modèle speech-to-text est optimisé pour l'audio conversationnel et les enregistrements multi-locuteurs tels que les podcasts, les interviews et les discussions en direct. Voici comment cela fonctionne en pratique.
Comment transcrire votre podcast avec Fish Audio — Étape par étape
Temps requis : ~3 minutes Outils nécessaires : Fichier audio (MP3, MP4, WAV, M4A, et plus) Résultat : Transcription balisée + fichier de sous-titres prêt pour l'exportation
Étape 1 — Ouvrir Fish Audio STT
Allez sur fish.audio/app/speech-to-text. Vous verrez votre historique de tâches — toutes les transcriptions précédentes listées avec le nom du fichier, la date, le statut, les crédits utilisés et le nombre de locuteurs. Cliquez sur Create task pour lancer une nouvelle transcription.
Étape 2 — Téléchargez votre épisode et définissez les locuteurs
Dans la fenêtre Create transcription task, téléchargez votre fichier audio ou vidéo. Fish Audio accepte tous les formats majeurs — MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM, et plus.
Sous number of speakers, laissez sur Auto si vous n'êtes pas sûr du nombre de personnes dans l'enregistrement. Fish Audio détectera les locuteurs automatiquement. Si vous connaissez le nombre exact — par exemple, deux pour un format standard hôte-invité — vous pouvez le régler manuellement pour des étiquettes de locuteurs plus précises.
Avant de confirmer, l'interface vous indique la durée estimée, les minutes facturables et les crédits estimés pour cette tâche. Vous n'êtes facturé qu'une fois que vous avez cliqué sur Create task.
Étape 3 — Examinez votre transcription
Une fois la tâche terminée, cliquez sur Open viewer. La transcription s'affiche en trois colonnes : SPK/TAGS (étiquette du locuteur), TIME (plage d'horodatage) et TEXT (la transcription avec les balises intégrées).
Chaque segment est horodaté à la seconde près. Les événements d'émotion et de paralangage apparaissent sous forme de balises violettes directement dans le texte — vous verrez des mentions comme [pause], [sigh], [emphasis] et [breath] au point exact de l'enregistrement où ils se sont produits.
Cliquez sur n'importe quel segment pour lire cette partie de l'audio directement dans le navigateur. Cela permet de vérifier facilement la précision ou de contrôler des moments spécifiques sans avoir à parcourir tout le fichier.
Le panneau de contrôle à droite affiche un résumé : durée totale, nombre de locuteurs détectés, nombre de segments, et la confirmation que la séparation des voix et les balises d'événements audio sont activées.
Étape 4 — Exportez dans votre format
Cliquez sur Export en bas à droite du panneau de contrôle. Choisissez votre format et configurez les options d'exportation avant le téléchargement.
Prêt à transcrire votre premier épisode ? Lancez une tâche de transcription gratuite →
Balises automatiques — Ce que Fish Audio capture et que les autres outils manquent
C'est ici que l'outil de transcription de podcast de Fish Audio se distingue le plus clairement des alternatives.
Quand quelqu'un soupire avant de répondre à une question, rit au milieu d'une phrase, fait une pause pour insister ou prend une inspiration audible — les outils de transcription standard ignorent tout cela. Vous n'obtenez que les mots, dépouillés de tout le reste.
Fish Audio intègre ces événements sous forme de balises directement au point où ils se produisent dans la transcription. Ces balises sont générées automatiquement — pas d'annotation manuelle, pas d'étape de post-traitement. Le panneau de contrôle affiche Tag audio events: On par défaut.
Ce qui est balisé
Paralangage — sons non verbaux qui accompagnent la parole.
Émotion — ton affectif de la prestation, capturé à partir du contexte et de la prosodie.
Pourquoi est-ce important pour les podcasteurs ?
Pour la plupart des flux de travail de podcast, les balises servent trois objectifs pratiques. Premièrement, elles rendent votre transcription plus utile comme source de notes d'émission — une transcription qui capture [laugh] et [pause] donne à votre éditeur un matériau plus riche qu'un simple fichier texte. Deuxièmement, elles permettent de naviguer plus rapidement dans de longs enregistrements — vous pouvez rechercher les moments [sigh] ou [emphasis] pour trouver les parties émotionnellement significatives de l'épisode sans avoir à réécouter. Troisièmement, et c'est le point le plus distinctif, ces balises sont compatibles avec le modèle TTS de Fish Audio — ce qui signifie qu'une transcription peut être directement réutilisée dans un flux de production vocale sans aucun reformatage.
Vous voulez voir les balises en action ? Téléchargez votre premier fichier audio →
Explication des formats d'exportation — De lequel avez-vous besoin ?
Fish Audio STT prend en charge trois formats d'exportation. Le choix dépend de ce que vous comptez faire de la transcription ensuite.
SRT est le bon choix pour la plupart des podcasteurs qui diffusent du contenu vidéo. C'est le format de sous-titres le plus largement pris en charge — compatible avec YouTube, Premiere Pro, Final Cut Pro et la plupart des plateformes vidéo.
VTT (WebVTT) est le format natif du web — utilisez-le si vous intégrez une vidéo sur votre propre site et que vous avez besoin d'un minutage précis au mot près.
JSON vous donne la sortie brute STT sans transformations de sous-titres. Utilisez-le si vous envoyez la transcription vers un autre outil ou si vous construisez quelque chose de personnalisé.
Options d'exportation
Lors de l'exportation en SRT ou VTT, vous disposez de quatre paramètres supplémentaires :
- Include tags — conserve les événements entre crochets comme
[pause]et[sigh]dans le fichier de sous-titres. Désactivez cette option pour des sous-titres épurés ; laissez-la activée si vous souhaitez préserver les métadonnées expressives. - Include speaker — préfixe chaque segment de sous-titre avec l'étiquette du locuteur détecté (SPK_0, SPK_1). Utile pour les épisodes avec plusieurs intervenants.
- Punctuation — conserve la ponctuation dans le texte exporté. Désactivez cette option pour un flux de jetons plus propre si vous effectuez un traitement ultérieur.
- Split mode — choisissez entre Segment (conserve les limites STT existantes) ou Max words (regroupe les segments par nombre de mots, ponctuation et changements de locuteur). Le mode Max words avec une limite de 7 mots par segment a tendance à produire des sous-titres plus lisibles pour les paroles rapides.
Détection des locuteurs — Distinguer l'hôte de l'invité
Pour les interviews et les tables rondes, la détection des locuteurs est l'une des fonctionnalités les plus utiles qu'un outil de transcription de podcast puisse offrir. Fish Audio sépare automatiquement les locuteurs dans les enregistrements multi-personnes. Chaque segment dans la visionneuse de transcription est étiqueté SPK_0, SPK_1, etc. — correspondant aux voix distinctes détectées dans l'audio.
Lors de la création d'une tâche, vous pouvez soit laisser le number of speakers sur Auto, soit le régler manuellement. Le fait de définir le nombre exact a tendance à produire des transitions entre locuteurs plus nettes, surtout dans les enregistrements où un locuteur est nettement plus discret que l'autre.
Lors de l'exportation, l'activation de Include speaker ajoute l'étiquette du locuteur en préfixe à chaque segment de sous-titre. Cela facilite la recherche, l'édition ou le reformatage des transcriptions par locuteur — très utile pour extraire des citations pour les notes d'émission ou pour éditer une transcription.
Note : La détection des locuteurs et les transcriptions étiquetées sont disponibles dans l'interface web de Fish Audio. Les étiquettes de locuteurs sont conservées lors de l'exportation aux formats SRT, VTT et JSON lorsque l'option Include speaker est activée.
Combien coûte la transcription d'un podcast ?
Fish Audio STT est facturé à la minute d'audio traitée au tarif de 300 crédits par minute.
Les comptes gratuits reçoivent 8 000 crédits par mois — assez pour environ 26 minutes d'audio. Cela couvre un épisode court ou quelques segments d'interview.
L'interface web vous indique le nombre exact de crédits estimés avant que vous ne confirmiez une tâche, il n'y a donc pas de surprise.
Pour les équipes ou la production à haut volume, les plans payants incluent des pools de crédits plus importants. Consultez le détail complet des tarifs sur fish.audio/plan/.
Transcrivez votre prochain épisode de podcast en quelques minutes. Commencez à transcrire gratuitement →
Fish Audio vs autres outils de transcription de podcast
De nombreux podcasteurs cherchant le meilleur outil de transcription de podcast constatent que le bon choix dépend de s'ils ont besoin de transcriptions en texte brut ou de métadonnées plus riches comme les balises d'émotion et l'exportation multi-format. Voici comment Fish Audio se compare à d'autres options populaires :
| Outil | Offre Gratuite | Balises d'Émotion | Exportations | Chemin de Production Vocale |
|---|---|---|---|---|
| Fish Audio | 8k crédits/mois | Automatique | SRT, VTT, JSON | Direct (Studio) |
| Otter.ai | 300 min/mois | Aucune | TXT, PDF, SRT (Payant) | Aucun |
| Happy Scribe | Aucune | Aucune | 50+ formats | Aucun |
| Adobe Podcast | 30 min/jour | Aucune | TXT, CSV | Aucun |
Données sourcées d'après Otter.ai, Happy Scribe et Adobe Podcast en date de mars 2026.
La plupart des outils de transcription de podcast se concentrent sur la fourniture d'une sortie en texte brut. Fish Audio est l'un des rares à intégrer des balises d'émotion et de paralangage directement dans la transcription — et l'un des rares outils qui connecte la transcription à un flux de production vocale via l'intégration Studio.
Si vous avez besoin de texte brut propre pour des notes d'émission ou du contenu SEO, n'importe lequel de ces outils fera l'affaire. Si vous avez besoin de transcriptions balisées, d'une exportation multi-format ou d'un passage de la transcription à la production vocale, Fish Audio est l'option la plus complète.
Et ensuite — De la transcription au Studio
Une transcription balisée est plus qu'un document. C'est un script qui sait déjà comment il doit sonner.
Les balises que Fish Audio intègre dans votre transcription de podcast — [calm, reflective], [breath], [determined], [pause] — utilisent le même format que le modèle TTS S2 de Fish Audio. Cela signifie qu'une transcription peut alimenter directement un pipeline de génération de voix sans aucun reformatage.
Fish Audio Studio pousse cela encore plus loin. Dans Studio, les scripts balisés deviennent des projets vocaux entièrement éditables : vous pouvez éditer par chapitre, échanger les modèles de voix, ajuster la prestation au niveau du mot et produire de l'audio multipiste — tout en conservant les métadonnées expressives de votre enregistrement original.
L'importation directe de STT vers Studio est une fonctionnalité à venir. Le format de transcription est déjà compatible — les balises de votre sortie STT sont les mêmes que celles lues par Studio. L'importation se fera en une seule étape dès que la fonctionnalité sera disponible.
Commencez à transcrire votre podcast gratuitement → — ou Explorez Fish Audio Studio si vous êtes prêt à produire.
En relation :
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Lire plus de Sabrina Shu

