Guide complet de la synthèse vocale sur Mac : réglages, utilisation et méthodes de désactivation

28 févr. 2026

Guide complet de la synthèse vocale sur Mac : réglages, utilisation et méthodes de désactivation

Vous avez terminé un script de podcast de 2 000 mots dans Pages, appuyé sur le raccourci Énoncer la sélection, et entendu une voix qui semblait avoir été enregistrée à l'intérieur d'un micro-ondes en 2009. Vous avez fouillé dans les Réglages Système, trouvé six menus différents mentionnant la « parole » ou le « contenu énoncé », modifié trois réglages, et réussi d'une manière ou d'une autre à empirer les choses. Maintenant, votre Mac annonce chaque notification à haute voix et vous ne savez pas comment l'arrêter.

macOS intègre la synthèse vocale depuis le début des années 2000. Apple l'a considérablement améliorée ces dernières années, mais les paramètres sont éparpillés dans plusieurs panneaux, le comportement change selon les versions de macOS, et l'écart entre ce que les voix intégrées peuvent faire et ce dont les créateurs de contenu ont réellement besoin reste immense. La bonne nouvelle : une fois que vous savez où tout se trouve, la configuration prend environ 5 minutes. Et lorsque vous vous sentirez limité par les options intégrées, la voie vers une solution supérieure est plus simple qu'on ne le pense.

macOS dispose de 3 systèmes de synthèse vocale distincts. La plupart des gens n'en trouvent qu'un.

C'est la partie qui cause le plus de confusion. Apple ne propose pas un interrupteur unique pour la « synthèse vocale ». Il existe trois systèmes distincts qui se chevauchent, chacun étant contrôlé depuis un endroit différent :

Système	Ce qu'il fait	Où le trouver	Utilisation principale
Contenu énoncé	Lit le texte sélectionné ou l'écran entier	Réglages Système > Accessibilité > Contenu énoncé	Lecture d'articles, relecture et accessibilité
VoiceOver	Lecteur d'écran complet pour les utilisateurs malvoyants	Réglages Système > Accessibilité > VoiceOver	Navigation, accessibilité
Voix Siri	Alimente les réponses de Siri et les retours de dictée	Réglages Système > Siri	Réponses de l'assistant virtuel

La plupart des personnes qui recherchent « synthèse vocale sur Mac » veulent le Contenu énoncé. C'est la fonction qui lit le texte sélectionné dans n'importe quelle application à l'aide d'un raccourci clavier. VoiceOver est un outil d'accessibilité complet qui narre tout ce qui se trouve à l'écran, y compris les boutons, les menus et les titres des fenêtres. Activer VoiceOver quand on veut simplement lire un texte, c'est comme appeler un camion de pompiers pour allumer une bougie.

Configuration du Contenu énoncé : l'installation en 5 minutes

Pour macOS Sonoma (14) et versions ultérieures

Ouvrez les Réglages Système (cliquez sur le menu Pomme > Réglages Système)
Cliquez sur Accessibilité dans la barre latérale
Cliquez sur Contenu énoncé
Activez l'option Énoncer la sélection
Choisissez votre voix préférée en cliquant sur le menu déroulant à côté de « Voix système »
Ajustez le curseur de vitesse d'élocution selon vos préférences
Activez éventuellement l'option Énoncer l'élément sous le pointeur si vous souhaitez une fonctionnalité de lecture au survol

Pour macOS Ventura (13) et versions antérieures

Le chemin est légèrement différent sur les anciennes versions :

Ouvrez les Préférences Système (et non Réglages Système)
Cliquez sur Accessibilité
Cliquez sur Contenu énoncé dans la barre latérale gauche
Cochez Énoncer la sélection
Cliquez sur le menu déroulant Voix système pour choisir une voix
Ajustez la vitesse d'élocution

Le raccourci clavier

Une fois le Contenu énoncé activé, sélectionnez n'importe quel texte dans n'importe quelle application et appuyez sur Option + Esc pour l'entendre à haute voix. Vous pouvez personnaliser ce raccourci :

Dans les réglages du Contenu énoncé, cliquez sur le bouton d'information ou Options à côté de Énoncer la sélection
Définissez votre combinaison de touches préférée
Activez ou désactivez le contrôleur à l'écran (un petit panneau flottant avec des commandes lecture/pause/saut)

Ce contrôleur à l'écran mérite d'être activé. Il vous permet de mettre en pause, de reprendre, d'avancer rapidement et d'ajuster la vitesse sans avoir à revenir dans les Réglages Système à chaque fois.

Choisir la bonne voix (Apple en propose plus que vous ne le pensez)

La plupart des utilisateurs de Mac n'ont entendu que « Samantha » ou la voix par défaut de Siri. Apple propose en réalité des dizaines de voix dans de nombreuses langues, et la différence de qualité entre les voix de base et les téléchargements premium est significative.

Comment télécharger des voix premium

Allez dans Réglages Système > Accessibilité > Contenu énoncé
Cliquez sur le menu déroulant Voix système
Cliquez sur Gérer les voix...
Naviguez par langue. Les voix premium sont marquées d'une icône de téléchargement
Cliquez sur la flèche de téléchargement à côté d'une voix. Les fichiers pèsent entre 150 Mo et 900 Mo, selon le niveau de qualité

Les niveaux de qualité des voix

Apple classe ses voix en plusieurs niveaux de qualité :

Voix compactes : Petite taille de fichier, qualité robotique. Suffisant pour des annonces système rapides, mais inutilisable pour écouter plus d'un paragraphe.
Voix standard : Qualité intermédiaire. Correct pour la relecture de documents courts. Vous remarquerez un rythme non naturel dans les passages longs.
Voix Premium/Améliorées : Les téléchargements les plus volumineux, mais nettement plus naturels. Elles utilisent la synthèse par réseaux neuronaux et sonnent plus comme une vraie personne. « Zoe (Premium) », « Evan (Premium) » et plusieurs autres entrent dans cette catégorie.

Même les voix premium ont cependant leurs limites. Elles sonnent bien pendant 2 à 3 minutes. Au-delà, la prosodie s'aplatit, les variations émotionnelles disparaissent et la voix s'installe dans un rythme monotone difficile à écouter sur de longues périodes. Ce n'est pas un bug, mais une limitation de la taille du modèle embarqué qu'Apple peut raisonnablement intégrer.

Utiliser la synthèse vocale dans les applications Mac

Une fois le Contenu énoncé actif, le raccourci Option + Esc fonctionne dans presque toutes les applications Mac. Voici son comportement dans les plus courantes :

Pages et TextEdit : Sélectionnez le texte, appuyez sur le raccourci. Fonctionne de manière fiable. La voix lit le passage sélectionné et s'arrête.

Safari et Chrome : Sélectionnez du texte sur n'importe quelle page web et utilisez le raccourci. Utile pour écouter des articles tout en faisant autre chose. Safari dispose également d'un Mode Lecteur qui épure la mise en page avant la lecture, ce qui améliore parfois le rythme.

Preview (PDF) : Sélectionnez le texte dans un PDF et utilisez le raccourci. La qualité dépend du fait que le PDF possède ou non du texte sélectionnable. Les documents scannés sans OCR ne fonctionneront pas.

Mail : Sélectionnez le corps d'un e-mail, utilisez le raccourci. Pratique pour les longs e-mails que vous préférez écouter plutôt que lire.

Terminal : Oui, vous pouvez également déclencher la synthèse vocale depuis la ligne de commande. Exécutez say "Votre texte ici" et macOS le lira à haute voix. Pour un texte plus long : say -f /chemin/vers/fichier.txt. Vous pouvez même exporter en audio : say -f script.txt -o output.aiff. Cette dernière commande est ce qui se rapproche le plus d'une fonction d'exportation audio intégrée.

L'astuce Terminal que peu de gens connaissent

La commande say accepte un drapeau -v pour spécifier n'importe quelle voix installée :

say -v "Zoe (Premium)" "Ceci est un test de la voix premium."

say -v "?"

Cette seconde commande liste toutes les voix installées sur votre système. C'est le moyen le plus rapide de tester les voix sans passer par les Réglages Système.

Comment désactiver la synthèse vocale (quand elle ne s'arrête plus)

Cette section existe car un nombre surprenant d'utilisateurs de Mac activent accidentellement VoiceOver ou le Contenu énoncé et ne savent pas comment le faire taire. Si votre Mac narre actuellement tout ce qui se passe à l'écran, voici la solution la plus rapide :

Si VoiceOver est en cours d'exécution (le Mac narre chaque clic et bouton)

Appuyez immédiatement sur Cmd + F5. Cela désactive VoiceOver. Sur les MacBook avec Touch Bar ou les modèles récents, vous pouvez également appuyer trois fois sur le bouton Touch ID.

Si Énoncer la sélection ne s'arrête pas au milieu d'une lecture

Appuyez à nouveau sur Option + Esc pour arrêter la lecture en cours. Si cela ne fonctionne pas, cliquez n'importe où en dehors du texte sélectionné.

Si votre Mac énonce les notifications ou les alertes

Allez dans Réglages Système > Accessibilité > Contenu énoncé
Désactivez Énoncer les annonces
Pendant que vous y êtes, vérifiez que Énoncer l'élément sous le pointeur est également désactivé si vous ne voulez pas de lecture au survol

Liste de contrôle pour une désactivation complète

Pour réduire totalement au silence toute synthèse vocale sur votre Mac :

Contenu énoncé : Réglages Système > Accessibilité > Contenu énoncé > Tout désactiver
VoiceOver : Réglages Système > Accessibilité > VoiceOver > Désactiver (ou appuyer sur Cmd + F5)
Retour vocal Siri : Réglages Système > Siri > Retour vocal > Désactivé
Alertes audio : Réglages Système > Son > Décochez « Émettre un son au démarrage » et ajustez le volume des alertes

Après avoir parcouru cette liste, votre Mac restera silencieux à moins que vous ne déclenchiez explicitement la parole à nouveau.

Où la synthèse vocale de macOS atteint ses limites (et que faire ensuite)

Les voix intégrées d'Apple sont suffisantes pour deux choses : la relecture rapide de documents courts et l'accessibilité. Pour tout ce qui va au-delà, vous rencontrerez des limites majeures :

Aucune personnalisation de la voix : Vous ne pouvez pas ajuster l'émotion, l'accentuation ou le rythme au-delà d'un simple curseur de vitesse. La voix lira une blague et une tragédie avec la même inflexion.
Sélection de voix limitée : Même avec toutes les voix premium téléchargées, vous avez le choix entre seulement 15 ou 20 options en français. Si vous avez besoin d'un ton, d'un accent ou d'une personnalité spécifique pour la production de contenu, la bibliothèque est trop restreinte.
Pas de clonage de voix : Il n'y a aucun moyen de créer une voix qui ressemble à la vôtre ou qui correspond à une voix de marque spécifique.
L'exportation audio est primitive : La commande say exporte en AIFF, mais il n'y a pas de moyen intégré de générer du MP3, du WAV ou de l'audio prêt pour un podcast avec une normalisation appropriée.
La qualité multilingue chute rapidement : Les voix premium d'Apple sont correctes en anglais et en français. Passez au thaï, à l'arabe ou au portugais, et vous revenez à une qualité robotique.
Manque de cohérence sur le long terme : La prosodie dévie après 2-3 minutes, ce qui rend l'écoute prolongée fatigante. Un script de 20 minutes sonnera nettement moins bien à la 18e minute qu'à la première.

Ces limitations n'ont pas d'importance si vous utilisez la synthèse vocale pour repérer des fautes de frappe dans un e-mail. Elles comptent énormément si vous produisez une vidéo YouTube, narrez un cours ou convertissez du contenu écrit en audio que votre public écoutera réellement.

De la relecture sur Mac à la production audio professionnelle

Lorsque vos besoins dépassent les voix intégrées, le flux de travail change de manière fluide : continuez à écrire sur votre Mac, mais générez l'audio via une plateforme de synthèse vocale par IA dédiée.

Fish Audio comble exactement les lacunes de macOS. Voici ce qui change lorsque vous passez à notre plateforme :

Plus de 2 000 000 de voix au lieu de 20. La bibliothèque de voix de Fish Audio est classée par langue, accent, ton et cas d'utilisation. Besoin d'une voix française chaleureuse et conversationnelle pour un tutoriel ? Filtrez simplement. Besoin d'un narrateur japonais précis pour une vidéo produit localisée ? C'est disponible. La sélection est environ 100 000 fois plus vaste que celle d'Apple.

Une prosodie stable sur les scripts longs. L'architecture du modèle de Fish Audio gère les variations émotionnelles et le rythme sur des contenus étendus. Une voix off de 15 minutes conserve son caractère du début à la fin, sans la dérive monotone qui apparaît après 2-3 minutes avec les voix de macOS. Les questions sonnent comme des questions. L'accentuation tombe là où elle le doit.

Clonage de voix en 15 secondes. Vous voulez que chaque extrait audio sonne comme vous ? Téléchargez un échantillon de 15 secondes, et Fish Audio crée un clone qui porte votre identité vocale sur n'importe quel texte que vous générez. Apple n'offre rien de comparable.

Plus de 13 langues sans perte de qualité. Fish Audio maintient une prononciation de niveau natif sur l'ensemble de son jeu de langues. Une voix qui sonne naturelle en anglais reste naturelle en espagnol, mandarin, japonais ou arabe. Pas de chute soudaine de qualité lors du changement de langue.

Fichiers audio prêts pour la production. Gérez et téléchargez des fichiers MP3 ou WAV prêts pour YouTube, l'hébergement de podcasts, les plateformes de cours ou tout autre canal de diffusion. Pas de bidouillage dans le Terminal, pas de chaînes de conversion AIFF-vers-MP3.

Le flux de travail du créateur sur Mac

Rédigez votre script dans Pages, Google Docs ou n'importe quel éditeur de texte Mac
Relecture rapide en utilisant le Contenu énoncé de macOS (Option + Esc) pour repérer les formulations maladroites
Copiez le texte final et collez-le dans fish.audio/text-to-speech
Choisissez une voix dans la bibliothèque (ou utilisez votre voix clonée)
Ajustez l'émotion et le rythme pour correspondre à votre contenu
Générez et téléchargez le fichier audio
Glissez-le dans votre projet : Final Cut Pro, Logic Pro, GarageBand, votre éditeur de podcast, peu importe ce que vous utilisez

Ce flux de travail permet de garder la synthèse vocale de macOS pour ce qu'elle fait de mieux (relecture gratuite et instantanée) et d'utiliser Fish Audio pour la partie qui doit réellement sonner de manière professionnelle.

Quel est le coût ?

Fish Audio propose un niveau gratuit assez généreux pour tester avec des scripts réels. Les plans payants commencent à 11 $ par mois pour 250 000 crédits, soit jusqu'à 200 minutes (~3h 20m) de génération S1, ou jusqu'à 400 minutes (~6h 40m) de génération v1.5 ou v1.6. Pour mettre cela en perspective, la synthèse vocale de macOS est gratuite mais ne peut pas exporter de fichiers audio exploitables. Un doubleur humain pour 15 heures de contenu enregistré coûterait entre 3 000 $ et 15 000 $. La décomposition complète des tarifs est ici.

Conclusion

macOS dispose d'un système de synthèse vocale capable, bien que caché derrière des panneaux de réglages éparpillés. Une fois que vous savez que le Contenu énoncé est la fonction que vous recherchez réellement, que Option + Esc est le raccourci et que des téléchargements de voix premium existent, la configuration intégrée du Mac gère très bien la relecture rapide et l'écoute occasionnelle. Et si VoiceOver commence accidentellement à narrer tout votre écran, Cmd+F5 est votre bouton de secours.

Mais les voix intégrées ont été conçues pour l'accessibilité et les retours système, pas pour la production de contenu. Dès que vous avez besoin d'un audio que votre public écoutera pendant plus de 2 minutes, de voix qui correspondent à votre marque ou d'une sortie multilingue qui ne ressemble pas à un moteur de traduction, vous avez dépassé ce qu'Apple propose. Écrivez sur votre Mac, relisez avec le Contenu énoncé, et produisez avec Fish Audio. L'outil d'écriture que vous possédez déjà, associé à un moteur de synthèse vocale conçu pour l'audio que votre public entend réellement.

Questions Fréquemment Posées

Allez dans Réglages Système > Accessibilité > Contenu énoncé et activez l'option « Énoncer la sélection ». Vous pourrez alors lire n'importe quel texte sélectionné en appuyant sur Option + Esc.

Il s'agit probablement de VoiceOver. Vous pouvez le désactiver instantanément en appuyant sur Cmd + F5.

Dans Réglages Système > Accessibilité > Contenu énoncé, cliquez sur le menu déroulant Voix système, puis sur « Gérer les voix... ». Vous pourrez y télécharger des versions « Premium » ou « Améliorées » qui sont beaucoup plus naturelles que les voix par défaut.

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Inscrivez-vous gratuitement

Vous avez déjà un compte ? Se connecter

Partager cet article

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Lire plus de Kyle Cui >