Tutoriel complet Google Docs Voice-to-Text : comment utiliser la saisie vocale et la reconnaissance vocale
28 févr. 2026
Vous avez enregistré un entretien de 45 minutes avec un client sur votre téléphone. De retour à votre bureau, vous ouvrez Google Docs, recherchez "transcrire" et ne trouvez rien. Vous essayez la Saisie vocale de Google Docs, approchez votre téléphone du micro de votre ordinateur portable et lancez la lecture. Google transcrit peut-être 40 % des mots correctement avant d'abandonner complètement lorsque la qualité audio baisse.
C'est l'écart que la plupart des gens découvrent à leurs dépens. Google Docs dispose d'un outil de reconnaissance vocale intégré qui fonctionne bien pour la dictée en direct, lorsque vous parlez directement dans votre micro dans une pièce calme. Mais dès que vous devez transcrire un enregistrement, gérer plusieurs locuteurs ou dicter dans un environnement bruyant, la Saisie vocale de Google Docs montre ses limites. Une personne moyenne tape 40 mots par minute. La dictée peut atteindre 150 mots/min. Cette différence de vitesse de 3,7x est bien réelle, mais seulement si l'outil de reconnaissance vocale capture réellement ce que vous dites.
La Saisie vocale de Google Docs fonctionne mieux que vous ne le pensez (avec la bonne configuration)
La plupart des gens essaient la Saisie vocale une fois, s'énervent à cause des erreurs et abandonnent. Dans la plupart des cas, le problème n'est pas l'outil, mais la configuration. Un microphone USB à 15 $ et une pièce calme doubleront votre précision par rapport au micro intégré d'un ordinateur portable dans un café.
Voici ce que la Saisie vocale peut et ne peut pas faire avant de commencer :
| Capacité | Pris en charge | Remarques |
|---|---|---|
| Dictée en direct | Oui | Parlez directement dans le micro |
| Transcrire des fichiers audio | Non | Traite uniquement l'entrée micro en direct |
| Ponctuation vocale | Oui | Dites "point", "virgule", "nouveau paragraphe" |
| Plusieurs langues | Oui | Plus de 100 langues prises en charge |
| Identification du locuteur | Non | Impossible de distinguer les interlocuteurs |
| Utilisation hors ligne | Non | Nécessite une connexion Internet |
| Support mobile | Oui | Application Google Docs sur Android et iOS |
Ce "Non" à côté de la transcription de fichiers audio est la limitation qui pousse la plupart des utilisateurs à chercher des alternatives. Nous y reviendrons.
Étape par étape : Configurer la Saisie vocale dans Google Docs
Sur ordinateur (Navigateur Chrome requis)
La Saisie vocale ne fonctionne que dans Google Chrome. Elle n'apparaîtra pas dans Firefox, Safari ou Edge.
- Ouvrez un document Google Docs dans Chrome.
- Allez dans Outils > Saisie vocale (ou appuyez sur Ctrl + Maj + S sur Windows, Cmd + Maj + S sur Mac).
- Une icône de microphone apparaît à gauche de votre document.
- Cliquez sur le menu déroulant au-dessus du micro pour sélectionner votre langue.
- Cliquez sur l'icône du microphone. Elle devient rouge lorsqu'elle est à l'écoute.
- Commencez à parler clairement à un rythme naturel.
- Cliquez à nouveau sur le microphone pour arrêter, ou faites une pause d'environ 30 secondes, et l'enregistrement s'arrêtera automatiquement.
Sur mobile (Android et iOS)
L'expérience mobile est légèrement différente car elle utilise la reconnaissance vocale native de votre appareil :
- Ouvrez l'application Google Docs.
- Appuyez pour placer votre curseur là où vous souhaitez du texte.
- Appuyez sur l'icône du microphone sur votre clavier (il s'agit de la dictée intégrée de votre appareil, pas spécifiquement de la Saisie vocale de Google).
- Parlez naturellement. Le texte apparaît en temps réel.
- Appuyez à nouveau sur le microphone pour arrêter.
Sur Android, la reconnaissance vocale de Google a tendance à offrir une plus grande précision car elle est étroitement intégrée au système d'exploitation. Sur iOS, vous utilisez le moteur de dictée d'Apple, qui gère bien l'anglais mais peut être en retrait par rapport à la précision de Google dans d'autres langues.
Les commandes vocales qui font gagner 10 minutes par session
La plupart des utilisateurs ne réalisent pas que la Saisie vocale de Google Docs prend en charge des commandes orales pour le formatage et la navigation. En apprendre ne serait-ce que cinq vous évitera de basculer constamment entre la parole et le clavier.
Commandes de ponctuation essentielles :
- "Point" → .
- "Virgule" → ,
- "Point d'interrogation" → ?
- "Point d'exclamation" → !
- "Nouvelle ligne" → passe à la ligne suivante
- "Nouveau paragraphe" → insère un saut de paragraphe
Commandes de formatage (anglais uniquement) :
- "Bold" / "Unbold" (Gras / Retirer le gras)
- "Italics" / "Remove italics" (Italique / Retirer l'italique)
- "Underline" / "Remove underline" (Souligner / Retirer le soulignement)
- "Create bulleted list" (Créer une liste à puces)
- "Create numbered list" (Créer une liste numérotée)
Navigation et édition :
- "Select [word]" → surligne un mot spécifique
- "Select all" → sélectionne tout
- "Delete" / "Backspace" → supprime le dernier mot
- "Go to end of line" → déplace le curseur
- "Undo" → annule la dernière action
Attention : ces commandes de formatage ne fonctionnent que lorsque la langue de l'interface est réglée sur l'anglais. Si vous dictez en espagnol ou en japonais, vous pouvez dicter le contenu dans ces langues, mais les commandes de formatage doivent être prononcées en anglais. C'est une limitation contraignante pour les utilisateurs multilingues.
Quand la Saisie vocale échoue (et quand changer d'outil)
La Saisie vocale est étonnamment efficace pour son usage prévu : la dictée d'un premier jet dans un environnement calme. Mais elle présente cinq limites majeures qu'aucune configuration ne peut corriger.
Pas de transcription de fichiers audio. C'est la lacune la plus importante. Vous ne pouvez pas télécharger un MP3, faire glisser un fichier WAV ou diriger la Saisie vocale vers un enregistrement Zoom. Elle ne traite que l'entrée microphone en direct. Si vous avez un entretien enregistré, un cours ou un épisode de podcast à transcrire, Google Docs ne peut tout simplement pas vous aider.
Un seul locuteur. La Saisie vocale n'a aucun concept de diarisation du locuteur. Si deux personnes parlent lors d'une réunion, la transcription devient un bloc de texte indifférencié sans indication de qui a dit quoi. Pour les entretiens ou les réunions à plusieurs, cela rend le résultat brut presque inutilisable sans une lourde édition manuelle.
La précision chute avec les accents et le bruit de fond. Le modèle de reconnaissance vocale de Google est principalement entraîné sur des accents clairs et standard. Les locuteurs non natifs, les dialectes régionaux et tout bruit de fond peuvent faire chuter la précision en dessous de 80 %. À ce taux d'erreur, vous passez plus de temps à corriger la transcription qu'à gagner du temps en dictant.
Pas d'intelligence post-édition. La Saisie vocale vous donne du texte brut. Il n'y a pas de mise en majuscule automatique des noms propres au-delà des débuts de phrase, pas de formatage intelligent des nombres ou des dates, et pas de correction contextuelle.
Uniquement en temps réel. Si votre connexion Internet se coupe au milieu d'une phrase, la Saisie vocale s'arrête. Il n'y a pas de solution locale, pas de mise en mémoire tampon, pas de récupération. Cette dépendance à la connexion la rend peu fiable pour de longues sessions de dictée dans des zones où le Wi-Fi est instable.
L'astuce pour transcrire des fichiers audio via Google Docs
Il existe une astuce qui fonctionne techniquement, mais elle est aussi peu pratique qu'elle en a l'air.
- Ouvrez les Paramètres sonores de votre ordinateur.
- Réglez la sortie audio de votre système pour qu'elle soit renvoyée comme entrée microphone (sur Windows, utilisez "Mixage stéréo" ; sur Mac, vous aurez besoin d'une application tierce comme Soundflower ou BlackHole).
- Ouvrez votre Google Doc et lancez la Saisie vocale.
- Lancez la lecture de votre fichier audio. Le système achemine l'audio via le micro virtuel, et la Saisie vocale de Google Docs le transcrit en temps réel.
En pratique, cette approche pose trois problèmes :
- La précision diminue considérablement car l'audio passe par une couche de traitement supplémentaire.
- Vous devez lire l'intégralité du fichier en temps réel. Un enregistrement de 60 minutes prend 60 minutes à transcrire.
- Tout son de notification système ou audio d'application en arrière-plan est transcrit comme du charabia.
Cela peut dépanner pour un clip audio court et clair. Pour tout ce qui dépasse 5 minutes ou présente une qualité audio imparfaite, ce n'est pas une solution viable.
Quand Google Docs ne suffit plus : La reconnaissance vocale professionnelle avec Fish Audio
Si votre flux de travail implique des scénarios que la Saisie vocale ne peut pas gérer, les outils dédiés de reconnaissance vocale comblent entièrement cet écart. Le Speech-to-Text de Fish Audio est conçu précisément pour ces cas d'usage : fichiers audio téléchargés, plusieurs langues, enregistrements bruyants et transcription de qualité professionnelle.

Ce qu'il gère, contrairement à la Saisie vocale
- Téléchargement de fichiers audio : Déposez un fichier MP3, WAV, M4A ou d'autres formats courants. Pas besoin de lecture en temps réel. Téléchargez le fichier, obtenez la transcription.
- Haute précision avec tous les accents : Le modèle de Fish Audio est entraîné sur des modèles de parole diversifiés. Les accents régionaux, les locuteurs non natifs et la parole conversationnelle (avec ses hésitations et interruptions) sont bien mieux gérés.
- Transcription multilingue : Prend en charge l'anglais, le mandarin, le cantonais, le japonais et le coréen.
- Tolérance au bruit : Bruit de fond, écho, enregistrements téléphoniques. Le modèle est conçu pour gérer l'audio du monde réel, pas seulement les conditions de studio.
Le flux de travail : de l'audio enregistré vers un Google Doc en quelques minutes
- Allez sur fish.audio/speech-to-text
- Téléchargez votre fichier audio (entretien, cours, enregistrement de réunion, mémo vocal).
- Sélectionnez la langue (ou laissez l'outil la détecter automatiquement).
- Cliquez sur transcrire et attendez. Un fichier de 60 minutes est pris en charge (limite). Le temps de traitement varie selon la longueur du fichier, mais ne nécessite pas de lecture en temps réel.
- Copiez la transcription et collez-la dans votre Google Doc.
C'est tout. La transcription est propre, formatée et prête à être éditée. Pas de routage audio virtuel. Pas de lecture en temps réel. Pas besoin de prier pour que votre Wi-Fi tienne.
Où cela s'intègre-t-il dans un flux de travail de contenu réel ?
La configuration la plus pratique pour les rédacteurs et créateurs qui travaillent sur Google Docs :
- Dictée en direct (premiers jets, brainstorming, écriture libre) : Utilisez la Saisie vocale de Google Docs. C'est gratuit, intégré et suffisant pour une dictée en solo dans une pièce calme.
- Transcription audio (entretiens, réunions, cours, podcasts) : Utilisez le STT de Fish Audio. Téléchargez le fichier, récupérez la transcription et collez-la dans Google Docs.
- Production audio à partir d'un texte fini (transformer votre Google Doc en voix off) : Utilisez le TTS de Fish Audio avec plus de 2 000 000 de voix, le clonage de voix en 15 secondes et 8 langues.
Cette combinaison couvre la boucle complète : de la voix au texte (pour capturer les idées) et du texte à la voix (pour produire du contenu audio). Google Docs reste votre espace de travail rédactionnel, et Fish Audio gère les deux sens de la conversion audio.
5 habitudes de dictée qui doublent votre précision dans Google Docs
Que vous utilisiez la Saisie vocale ou un outil dédié, votre façon de parler compte autant que l'outil choisi :
- Parlez par phrases complètes, pas par fragments. Les modèles de reconnaissance vocale utilisent le contexte pour prédire les mots. "Réunion prévue mardi 15h" est moins clair que "Prévoyons la réunion pour mardi à 15 heures" car le modèle a plus de contexte.
- Dictez la ponctuation à haute voix. Dites "point", "virgule" et "nouveau paragraphe" au fur et à mesure. C'est un peu gênant les 10 premières minutes, mais cela devient automatique, et votre transcription brute sera 80 % plus propre.
- Faites des pauses entre vos pensées. Une pause nette d'une seconde donne au modèle une limite de phrase claire. S'arrêter avec des "euh, donc, voilà..." crée du texte inutile plus long à nettoyer qu'à redicter.
- Utilisez un microphone USB, pas le micro de votre ordinateur. Un micro statique USB entre 15 et 25 $ placé à 15-20 cm de votre bouche surpassera n'importe quel micro intégré d'ordinateur portable. La différence de précision est généralement de 10 à 15 points de pourcentage.
- Dictez dans une seule langue par session. Si vous passez de l'anglais au français au milieu d'une phrase, la précision chute pour les deux langues. Terminez un bloc linguistique, arrêtez la Saisie vocale, changez le paramètre de langue, puis continuez.
Conclusion
La Saisie vocale de Google Docs est un outil gratuit performant pour la dictée en direct. Configurez-le correctement, apprenez quelques commandes vocales, utilisez un micro décent, et il capturera vos premiers jets 3 à 4 fois plus vite que vous ne tapez. C'est vraiment utile pour les rédacteurs qui pensent plus vite qu'ils n'écrivent.
Mais Google Docs a été conçu comme un éditeur de texte, pas comme une plateforme de traitement audio. Dès que vous avez besoin de transcrire un enregistrement, de gérer plusieurs locuteurs ou de traiter de l'audio dans des conditions difficiles, vous dépassez les capacités de Google Docs. La meilleure évolution consiste à garder Google Docs comme espace de travail et à utiliser Fish Audio pour tout ce qui concerne l'audio : la transcription en entrée, et la génération de voix en sortie. Commencez par la version gratuite et testez-la sur votre enregistrement le plus difficile.
