Ein vollständiger Leitfaden für Text-zu-Sprache auf dem Mac: Einstellungen, Nutzung und Deaktivierung

28. Feb. 2026

Ein vollständiger Leitfaden für Text-zu-Sprache auf dem Mac: Einstellungen, Nutzung und Deaktivierung

Sie haben ein Podcast-Skript mit 2.000 Wörtern in Pages fertiggestellt, das Tastenkürzel für die Auswahl zum Vorlesen gedrückt und eine Stimme gehört, die so klang, als wäre sie 2009 in einer Mikrowelle aufgenommen worden. Sie haben sich in die Systemeinstellungen vertieft, sechs verschiedene Menüs gefunden, in denen „Sprachausgabe“ oder „gesprochene Inhalte“ erwähnt werden, drei Dinge geändert und es irgendwie noch schlimmer gemacht. Jetzt kündigt Ihr Mac jede Benachrichtigung laut an, und Sie wissen nicht, wie Sie das wieder abstellen können.

macOS verfügt bereits seit Anfang der 2000er Jahre über eine integrierte Text-zu-Sprache-Funktion (TTS). Apple hat diese in den letzten Jahren erheblich verbessert, aber die Einstellungen sind über mehrere Bedienfelder verteilt, das Verhalten ändert sich zwischen den macOS-Versionen, und die Lücke zwischen dem, was die integrierten Stimmen leisten können, und dem, was Content Creator tatsächlich benötigen, bleibt groß. Die gute Nachricht: Wenn man erst einmal weiß, wo sich alles befindet, dauert die Einrichtung etwa 5 Minuten. Und wenn die integrierten Optionen nicht mehr ausreichen, ist der Upgrade-Pfad einfacher, als die meisten erwarten.

macOS hat 3 separate TTS-Systeme. Die meisten Menschen finden nur eines.

Dies ist der Punkt, der die meiste Verwirrung stiftet. Apple hat keinen einzigen Schalter für „Text-zu-Sprache“. Es gibt drei unterschiedliche Systeme, die sich überschneiden und jeweils an einer anderen Stelle gesteuert werden:

System	Was es macht	Wo man es findet	Hauptverwendungszweck
Gesprochene Inhalte	Liest markierten Text oder den gesamten Bildschirm vor	Systemeinstellungen > Bedienungshilfen > Gesprochene Inhalte	Lesen von Artikeln, Korrekturlesen und Barrierefreiheit
VoiceOver	Vollbild-Reader für sehbehinderte Nutzer	Systemeinstellungen > Bedienungshilfen > VoiceOver	Navigation, Barrierefreiheit
Siri-Stimme	Treibt Siri-Antworten und Diktat-Feedback an	Systemeinstellungen > Siri	Antworten des virtuellen Assistenten

Die meisten Nutzer, die nach „Text-zu-Sprache auf dem Mac“ suchen, möchten Gesprochene Inhalte. Das ist die Funktion, die markierten Text in jeder App über ein Tastenkürzel vorliest. VoiceOver hingegen ist ein umfassendes Barrierefreiheits-Tool, das alles auf dem Bildschirm kommentiert, einschließlich Schaltflächen, Menüs und Fenstertitel. VoiceOver einzuschalten, wenn man nur Text vorgelesen haben möchte, ist so, als würde man die Feuerwehr rufen, um eine Kerze anzuzünden.

Einrichten von gesprochenen Inhalten: Das 5-Minuten-Setup

Für macOS Sonoma (14) und neuer

Öffnen Sie die Systemeinstellungen (Apple-Menü > Systemeinstellungen).
Klicken Sie in der Seitenleiste auf Bedienungshilfen.
Klicken Sie auf Gesprochene Inhalte.
Aktivieren Sie den Schalter bei Auswahl sprechen.
Wählen Sie Ihre bevorzugte Stimme über das Dropdown-Menü neben „Systemstimme“ aus.
Passen Sie das Sprechtempo mit dem Schieberegler an.
Optional können Sie Objekt unter dem Zeiger sprechen aktivieren, wenn Sie eine Hover-to-Read-Funktionalität wünschen.

Für macOS Ventura (13) und früher

Der Pfad ist bei älteren Versionen leicht anders:

Öffnen Sie die Systemeinstellungen (System Preferences).
Klicken Sie auf Bedienungshilfen.
Klicken Sie in der linken Seitenleiste auf Gesprochene Inhalte.
Aktivieren Sie Auswahl sprechen.
Klicken Sie auf das Dropdown-Menü Systemstimme, um eine Stimme auszuwählen.
Passen Sie das Sprechtempo an.

Das Tastenkürzel

Sobald die Funktion aktiviert ist, markieren Sie einen beliebigen Text in einer beliebigen Anwendung und drücken Sie Wahltaste + Esc, um ihn vorgelesen zu hören. Sie können dieses Kürzel anpassen:

Klicken Sie in den Einstellungen für „Gesprochene Inhalte“ auf das Info-Symbol (i) oder Optionen neben „Auswahl sprechen“.
Legen Sie Ihre bevorzugte Tastenkombination fest.
Aktivieren oder deaktivieren Sie den Bildschirm-Controller (ein kleines schwebendes Bedienfeld mit Wiedergabe-/Pause-/Überspringen-Steuerung).

Es lohnt sich, den Controller zu aktivieren. Er ermöglicht es Ihnen, die Wiedergabe zu pausieren, fortzusetzen, vorzuspringen und die Geschwindigkeit anzupassen, ohne jedes Mal in die Systemeinstellungen zurückkehren zu müssen.

Die richtige Stimme wählen (Apple hat mehr, als Sie denken)

Die meisten Mac-Nutzer haben bisher nur „Anna“ oder die Standard-Siri-Stimme gehört. Apple bietet tatsächlich Dutzende von Stimmen in mehreren Sprachen an, und der Qualitätsunterschied zwischen den Basisstimmen und den Premium-Downloads ist erheblich.

So laden Sie Premium-Stimmen herunter

Gehen Sie zu Systemeinstellungen > Bedienungshilfen > Gesprochene Inhalte.
Klicken Sie auf das Dropdown-Menü Systemstimme.
Wählen Sie Stimmen verwalten....
Suchen Sie nach Sprache. Premium-Stimmen sind oft mit einem Download-Symbol markiert oder erscheinen nach Auswahl als „Verbessert“.
Klicken Sie auf das Download-Symbol. Die Dateien sind je nach Qualitätsstufe zwischen 150 MB und 900 MB groß.

Stimmqualitätsstufen

Apple kategorisiert seine Stimmen in verschiedene Qualitätsstufen:

Kompaktstimmen: Geringe Dateigröße, robotische Qualität. Gut für kurze Systemansagen, aber nicht geeignet, um längere Texte anzuhören.
Standardstimmen: Mittlere Qualität. Ordentlich zum Korrekturlesen kurzer Dokumente. Bei längeren Passagen bemerkt man jedoch einen unnatürlichen Rhythmus.
Premium/Verbesserte Stimmen: Die größten Downloads, aber spürbar natürlicher. Diese nutzen neuronale Netzwerksynthese und klingen fast wie eine echte Person.

Aber selbst die Premium-Stimmen haben ihre Grenzen. Sie klingen für 2 bis 3 Minuten gut. Danach flacht die Prosodie ab, emotionale Variationen verschwinden, und die Stimme verfällt in einen monotonen Rhythmus, dem man nur schwer über längere Zeit zuhören kann. Das ist kein Fehler, sondern eine Einschränkung der Modellgröße, die Apple lokal auf dem Gerät bereitstellen kann.

Text-zu-Sprache in Mac-Apps nutzen

Sobald „Gesprochene Inhalte“ aktiv ist, funktioniert das Kürzel Wahltaste + Esc in fast jeder Mac-Anwendung. So verhält es sich in den gängigsten:

Pages und TextEdit: Text markieren, Kürzel drücken. Funktioniert zuverlässig. Die Stimme liest die markierte Passage und stoppt dann.

Safari und Chrome: Markieren Sie Text auf einer Webseite und drücken Sie das Kürzel. Ideal, um Artikel zu hören, während man etwas anderes erledigt. Safari bietet zudem den Reader-Modus, der die Formatierung entfernt und so oft den Lesefluss verbessert.

Vorschau (PDFs): Markieren Sie Text in einem PDF. Die Qualität hängt davon ab, ob das PDF auswählbaren Text enthält. Gescannte Dokumente ohne Texterkennung (OCR) funktionieren nicht.

Mail: Markieren Sie den Text einer E-Mail und drücken Sie das Kürzel. Praktisch für lange E-Mails.

Terminal: Ja, Sie können TTS auch über die Befehlszeile auslösen. Geben Sie say "Ihr Text hier" ein und macOS liest es vor. Für längere Texte: say -f /pfad/zu/textdatei.txt. Sie können sogar als Audiodatei exportieren: say -f skript.txt -o ausgabe.aiff. Letzteres ist das, was einer integrierten Audio-Exportfunktion am nächsten kommt.

Der Terminal-Trick, den die meisten nicht kennen

Der say-Befehl akzeptiert ein -v Flag, um eine installierte Stimme zu spezifizieren:

say -v "Anna" "Dies ist ein Test der Stimme."

say -v "?"

Dieser zweite Befehl listet jede auf Ihrem System installierte Stimme auf. Es ist der schnellste Weg, Stimmen zu testen, ohne sich durch die Systemeinstellungen zu klicken.

So deaktivieren Sie Text-zu-Sprache (wenn der Mac nicht mehr aufhört zu reden)

Dieser Abschnitt ist wichtig, da überraschend viele Nutzer versehentlich VoiceOver oder gesprochene Inhalte aktivieren und nicht wissen, wie sie sie wieder stumm schalten können.

Falls VoiceOver läuft (Mac kommentiert jeden Klick)

Drücken Sie sofort Befehlstaste + F5. Dies schaltet VoiceOver aus. Auf MacBooks mit Touch Bar oder neueren Modellen können Sie auch dreimal die Touch ID Taste drücken.

Falls „Auswahl sprechen“ mitten im Lesen nicht stoppt

Drücken Sie erneut Wahltaste + Esc, um die aktuelle Wiedergabe zu beenden. Falls das nicht hilft, klicken Sie irgendwo außerhalb des markierten Textes.

Falls Ihr Mac Benachrichtigungen oder Hinweise spricht

Gehen Sie zu Systemeinstellungen > Bedienungshilfen > Gesprochene Inhalte.
Deaktivieren Sie Hinweise sprechen.
Überprüfen Sie auch, ob Objekt unter dem Zeiger sprechen deaktiviert ist.

Checkliste für die vollständige Deaktivierung

Um alle TTS-Funktionen auf Ihrem Mac komplett stumm zu schalten:

Gesprochene Inhalte: Alles unter Systemeinstellungen > Bedienungshilfen > Gesprochene Inhalte deaktivieren.
VoiceOver: Unter Systemeinstellungen > Bedienungshilfen > VoiceOver ausschalten (oder Befehl+F5).
Siri-Sprachfeedback: Systemeinstellungen > Siri > Siri-Antworten > Sprachfeedback auf „Aus“.

Wo macOS TTS an seine Grenzen stößt (und was man dann tun kann)

Apples integrierte Stimmen reichen für zwei Dinge völlig aus: kurzes Korrekturlesen und Barrierefreiheit. Darüber hinaus stößt man auf harte Grenzen:

Keine Stimmanpassung: Emotionen, Betonung oder Tempo lassen sich nicht feinjustieren. Ein Witz und eine Tragödie werden mit derselben Tonlage vorgelesen.
Begrenzte Stimmauswahl: Selbst mit allen Premium-Downloads bleibt die Auswahl klein. Wenn Sie einen bestimmten Tonfall oder Akzent für eine Produktion benötigen, reicht die Bibliothek nicht aus.
Kein Stimmklonen: Es gibt keine Möglichkeit, eine Stimme zu erstellen, die wie Sie selbst klingt.
Primitiver Audio-Export: Der say-Befehl exportiert nur nach AIFF. Es gibt keinen nativen Weg, MP3- oder WAV-Dateien mit normalisiertem Pegel zu erstellen.
Qualitätsabfall bei anderen Sprachen: Apple ist stark in Englisch, aber bei Sprachen wie Thai, Arabisch oder Portugiesisch landet man schnell wieder bei robotischer Qualität.

Diese Einschränkungen sind egal, wenn man Tippfehler in einer E-Mail finden will. Sie sind jedoch entscheidend, wenn man ein YouTube-Video produziert, einen Kurs vertont oder schriftliche Inhalte in Audio umwandelt, das sich Menschen wirklich gerne anhören.

Vom Korrekturlesen am Mac zur professionellen Audioproduktion

Wenn Ihre Ansprüche steigen, ist der Wechsel einfach: Schreiben Sie weiter auf Ihrem Mac, aber generieren Sie das Audio über eine spezialisierte KI-Plattform.

Fish Audio füllt genau die Lücken, die macOS lässt. Das ändert sich beim Wechsel:

Über 2.000.000 Stimmen statt 20. Die Stimmenbibliothek von Fish Audio ist nach Sprache, Akzent und Verwendungszweck sortiert. Brauchen Sie einen warmen, erzählenden Ton für ein Tutorial oder einen professionellen Sprecher für ein Produktvideo? Die Auswahl ist gigantisch.

Beständige Prosodie bei langen Skripten. Die Modelle von Fish Audio halten Emotionen und Tempo auch über 15 oder 20 Minuten konstant, ohne in das monotone Muster der macOS-Stimmen zu verfallen. Fragen klingen wie Fragen, Betonungen sitzen richtig.

Stimmklonen in 15 Sekunden. Möchten Sie, dass Ihre Inhalte wie Sie selbst klingen? Laden Sie ein 15-sekündiges Sample hoch und Fish Audio erstellt einen Klon Ihrer Stimme. Apple bietet hierzu keine vergleichbare Lösung.

Über 13 Sprachen ohne Qualitätsverlust. Fish Audio behält die muttersprachliche Aussprache über das gesamte Sprachset bei – egal ob Englisch, Spanisch, Mandarin oder Japanisch.

Produktionsreife Dateien. Laden Sie MP3- oder WAV-Dateien direkt herunter, bereit für YouTube oder Podcasts. Keine Terminal-Umwege oder Konvertierungsketten nötig.

Der Workflow für Mac-Creator

Skript schreiben in Pages oder einem Texteditor Ihrer Wahl.
Kurzes Korrekturlesen mit macOS Gesprochene Inhalte (Wahltaste + Esc), um Stolperstellen zu finden.
Text kopieren und bei fish.audio/text-to-speech einfügen.
Stimme wählen oder den eigenen Klon nutzen.
Emotionen anpassen.
Audio generieren und herunterladen.
In Ihr Projekt ziehen: Final Cut Pro, Logic Pro, GarageBand oder Ihren Podcast-Editor.

So nutzen Sie macOS TTS für das, was es am besten kann (schnelles, kostenloses Korrekturlesen), und Fish Audio für den Teil, der professionell klingen muss.

Was es kostet

Fish Audio bietet eine kostenlose Stufe zum Testen an. Bezahlte Pläne beginnen bei $11 pro Monat für 250.000 Credits, was für etwa 3 bis 6 Stunden Audiogenerierung reicht. Zum Vergleich: Ein menschlicher Sprecher für 15 Stunden Material würde Tausende von Euro kosten. Die vollständige Preisübersicht finden Sie hier.

Fazit

macOS hat ein fähiges TTS-System, das sich hinter verstreuten Menüs verbirgt. Wenn Sie wissen, dass „Gesprochene Inhalte“ die Funktion ist, die Sie brauchen, und Wahltaste + Esc das Kürzel dazu, ist der Mac für einfaches Vorlesen bestens gerüstet. Und falls VoiceOver Sie jemals in den Wahnsinn treibt: Befehl + F5 ist Ihr Rettungsanker.

Für alles, was über den Eigenbedarf hinausgeht – sei es für Branding, Video-Content oder längere Audios – ist Fish Audio die logische Fortführung. Nutzen Sie das Schreibwerkzeug, das Sie bereits haben, kombiniert mit einer Text-zu-Sprache-Engine, die für professionelle Ergebnisse gebaut wurde.

Häufig Gestellte Fragen

Drücken Sie einfach erneut das Tastenkürzel Wahltaste + Esc. Falls VoiceOver aktiv ist (der Mac beschreibt alles auf dem Bildschirm), drücken Sie Befehl + F5.

Es gibt keinen direkten Button dafür. Über das Terminal können Sie mit dem Befehl 'say -o dateiname.aiff' eine Datei erstellen und diese danach in MP3 umwandeln. Für professionellen Export empfiehlt sich jedoch Fish Audio.

Die Stimmen 'Anna' und 'Yannick' sind in den 'Verbessert'- oder 'Premium'-Versionen am natürlichsten. Sie müssen diese jedoch erst in den Bedienungshilfen unter 'Stimmen verwalten' herunterladen.

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen >