Text-zu-Sprache unter Windows, Mac, iPhone, Android und Chromebook aktivieren

5. März 2026

Text-zu-Sprache unter Windows, Mac, iPhone, Android und Chromebook aktivieren

Jedes große Betriebssystem wird seit Jahren mit integrierter Text-zu-Sprache-Funktion ausgeliefert. Windows hat sie. macOS hat sie. Ihr Smartphone hat sie. Laut Umfragen zur Barrierefreiheit haben jedoch weniger als 12 % der Nutzer diese Funktion jemals aktiviert. Nicht, weil sie sie nicht nutzen wollen, sondern weil die Einstellung tief in Menüs vergraben ist, die die meisten Menschen nie öffnen.

Die Funktion kann E-Mails, Artikel, Dokumente und ganze Webseiten laut vorlesen. Die Aktivierung dauert auf jedem Gerät weniger als eine Minute. Eine Stimme zu finden, die einen die Entscheidung nicht bereuen lässt, erfordert hingegen etwas mehr Überlegung.

Windows 10 und 11

Windows bietet zwei separate TTS-Funktionen. Sprachausgabe (Narrator) ist der vollständige Bildschirmleser, der alles auf dem Bildschirm ansagt. Laut vorlesen ist ein einfacheres Werkzeug, das in spezifische Microsoft-Apps integriert ist.

Sprachausgabe aktivieren

Die Sprachausgabe liest alle Oberflächenelemente vor: Schaltflächen, Menüs, Benachrichtigungen und Textkörper. So schalten Sie sie ein:

Drücken Sie Win + Strg + Eingabe zur sofortigen Aktivierung.
Oder öffnen Sie Einstellungen > Barrierefreiheit > Sprachausgabe (Windows 11) oder Einstellungen > Erleichterte Bedienung > Sprachausgabe (Windows 10) und legen Sie den Schalter um.

Sobald sie aktiv ist, beginnt die Sprachausgabe sofort zu sprechen. Einige Einstellungen, die Sie sofort anpassen sollten:

Stimmenauswahl: Klicken Sie unter den Einstellungen der Sprachausgabe auf „Stimme auswählen“, um zwischen den installierten Optionen zu wechseln. Microsoft David und Microsoft Zira sind die Standardstimmen. Zusätzliche Stimmen können über dasselbe Menü heruntergeladen werden.
Geschwindigkeit und Tonhöhe: Passen Sie den Schieberegler für die Sprechgeschwindigkeit an. Die Standardeinstellung ist meist zu langsam für angenehmes Zuhören. Beginnen Sie bei etwa 60-70 % und verfeinern Sie von dort aus.
Ausführlichkeit: Die Sprachausgabe kann jedes UI-Detail oder nur das Wesentliche ansagen. Unter „Ausführlichkeit“ reduziert die Stufe 3 oder 4 wiederholende Ansagen wie „Schaltfläche“ oder „Kontrollkästchen“ nach jedem Element.

„Laut vorlesen“ in Edge und Word verwenden

Um spezifische Inhalte zu lesen, anstatt die gesamte Benutzeroberfläche zu kommentieren, verfügen Microsoft Edge und Word beide über eine „Laut vorlesen“-Funktion mit besser klingenden Stimmen als die Sprachausgabe.

In Edge: Öffnen Sie eine beliebige Webseite, drücken Sie Strg + Umschalt + U oder klicken Sie auf das Drei-Punkt-Menü und wählen Sie „Laut vorlesen“. Am oberen Rand erscheint eine Wiedergabeleiste mit Stimmen- und Geschwindigkeitssteuerung.
In Word: Gehen Sie zu Überprüfen > Laut vorlesen. Die Funktion liest Ihr Dokument ab der Cursorposition vor.

„Laut vorlesen“ verwendet die Online-Neuralstimmen von Microsoft, wenn Sie mit dem Internet verbunden sind, die deutlich natürlicher klingen als die Offline-Stimmen der Sprachausgabe.

macOS

macOS unterteilt TTS in zwei Stufen. Gesprochene Inhalte liest Text bei Bedarf vor. VoiceOver ist der vollständige Bildschirmleser zur Navigation der gesamten Benutzeroberfläche per Sprache.

Gesprochene Inhalte aktivieren

Dies ist die Option, die die meisten Mac-Nutzer suchen. Sie liest markierten Text oder ganze Bildschirme vor, ohne die Funktionsweise Ihres Macs zu verändern.

Öffnen Sie Systemeinstellungen > Bedienungshilfen > Gesprochene Inhalte.
Aktivieren Sie Auswahl sprechen, um markierten Text über einen Tastaturbefehl vorzulesen.
Aktivieren Sie Bildschirminhalt sprechen, um alles Sichtbare auf dem aktuellen Bildschirm vorzulesen.

Nachdem Sie „Auswahl sprechen“ aktiviert haben, markieren Sie einen beliebigen Text und drücken Sie Wahl + Esc, um ihn vorlesen zu lassen. Ein kleiner Controller mit Tasten für Wiedergabe, Pause und Geschwindigkeit erscheint.

Lohnenswerte Konfigurationen:

Systemstimme: Klicken Sie auf das Dropdown-Menü, um verfügbare Stimmen zu durchsuchen. Die Optionen mit der Kennzeichnung „Siri-Stimme“ klingen deutlich natürlicher als veraltete Stimmen wie Alex oder Samantha.
Sprechtempo: Der Standardwert ist eher zurückhaltend. Schieben Sie ihn nach oben, bis die Stimme wie in einer natürlichen Unterhaltung klingt.
Controller anzeigen: Aktivieren Sie dies, um ein dauerhaftes Wiedergabe-Overlay zu erhalten, wenn die Sprachausgabe aktiv ist.

VoiceOver aktivieren

VoiceOver ist der vollständige Bildschirmleser von macOS. Er kündigt jedes Element der Benutzeroberfläche an und ändert die Navigation. Die meisten Nutzer benötigen VoiceOver nicht, es sei denn, sie sind aus Gründen der Barrierefreiheit darauf angewiesen.

Drücken Sie Befehl + F5, um VoiceOver ein- oder auszuschalten.
Oder gehen Sie zu Systemeinstellungen > Bedienungshilfen > VoiceOver und legen Sie den Schalter um.

VoiceOver erfordert eine gewisse Einarbeitungszeit. Wenn es aktiv ist, navigieren Sie mit Tastenkombinationen statt mit Mausklicks, und das System sagt jedes fokussierte Element an. Apple bietet ein integriertes Tutorial an, das über das Einstellungsmenü von VoiceOver zugänglich ist.

iPhone und iPad

iOS bietet mehrere TTS-Optionen, vom Vorlesen eines einzelnen markierten Satzes bis hin zur Kommentierung des gesamten Bildschirms.

„Auswahl sprechen“ und „Bildschirminhalt sprechen“ aktivieren

Diese beiden Funktionen decken die meisten Anwendungsfälle ab, ohne die Bedienung Ihres Geräts zu verändern.

Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte.
Aktivieren Sie Auswahl sprechen: Fügt dem Textauswahlmenü die Schaltfläche „Sprechen“ hinzu. Markieren Sie Text, tippen Sie auf „Sprechen“, und das Gerät liest ihn vor.
Aktivieren Sie Bildschirminhalt sprechen: Streichen Sie mit zwei Fingern vom oberen Bildschirmrand nach unten, um die gesamte Seite vorlesen zu lassen. Ein Wiedergabe-Controller mit Steuerungen für Geschwindigkeit, Überspringen und Pause erscheint.

Zusätzliche Optionen im selben Menü:

Inhalt hervorheben: Aktivieren Sie dies, um Wörter oder Sätze in Echtzeit hervorzuheben, während sie gesprochen werden.
Stimmen: Tippen Sie hier, um erweiterte oder Premium-Sprachpakete für Ihre Sprache herunterzuladen. Premium-Stimmen sind größere Downloads, klingen aber erheblich besser.
Sprechtempo: Über einen Schieberegler anpassbar. Testen Sie es mit einem Absatz echtem Inhalt statt nur mit dem Vorschausatz.

VoiceOver aktivieren

VoiceOver auf iOS ist ein vollständiger Bildschirmleser, der die Touch-Gesten ändert. Ein einfaches Antippen wählt ein Element aus und liest es vor. Ein Doppeltipp aktiviert es.

Gehen Sie zu Einstellungen > Bedienungshilfen > VoiceOver und schalten Sie es ein.
Oder sagen Sie: „Hey Siri, schalte VoiceOver ein“.
Oder drücken Sie die Seitentaste dreimal, wenn Sie das Bedienungshilfen-Kürzel unter Einstellungen > Bedienungshilfen > Kurzbefehl konfiguriert haben.

Da VoiceOver die Funktionsweise von Tipp- und Streichgesten verändert, kann es desorientierend wirken, wenn man es nicht erwartet. Die Gestenänderungen sind beabsichtigt und für Nutzer konzipiert, die eher nach akustischen als nach visuellen Hinweisen navigieren.

Android

Zu den TTS-Funktionen von Android gehören TalkBack für das vollständige Vorlesen des Bildschirms, „Selektives Vorlesen“ für das Vorlesen bei Bedarf und eine systemweite TTS-Engine, die von anderen Apps aufgerufen werden kann.

„Selektives Vorlesen“ aktivieren

Für die meisten Nutzer ist „Selektives Vorlesen“ der richtige Startpunkt. Es liest alles vor, was Sie antippen oder auswählen, ohne die Navigation Ihres Geräts zu ändern.

Gehen Sie zu Einstellungen > Bedienungshilfen > Selektives Vorlesen.
Schalten Sie es ein.
Ein kleines Overlay-Symbol erscheint auf dem Bildschirm. Tippen Sie darauf und tippen Sie dann auf den Text oder ziehen Sie den Finger darüber, den Sie vorlesen lassen möchten.

Auf Samsung-Geräten lautet der Pfad möglicherweise Einstellungen > Eingabehilfe > Installierte Apps > Selektives Vorlesen.

TalkBack aktivieren

TalkBack ist das Android-Äquivalent zu VoiceOver. Es kommentiert jedes Element und ändert das Touch-Verhalten in ein Modell von „Auswählen, dann Aktivieren“.

Gehen Sie zu Einstellungen > Bedienungshilfen > TalkBack und schalten Sie es ein.
Oder halten Sie beide Lautstärketasten unter Android 9 und höher für 3 Sekunden gedrückt, um TalkBack umzuschalten.

Wie VoiceOver auf iOS ändert TalkBack die Funktionsweise der Gesten:

Einmaliges Antippen wählt ein Element aus und kündigt es an.
Doppeltippen aktiviert es.
Wischen mit zwei Fingern scrollt auf der Seite.
Wischen nach rechts oder links mit einem Finger wechselt zum nächsten oder vorherigen Element.

Die TTS-Engine konfigurieren

Android lässt Sie wählen, welche TTS-Engine die gesamte Sprachausgabe systemweit steuert.

Gehen Sie zu Einstellungen > Bedienungshilfen > Text-zu-Sprache-Ausgabe oder auf Samsung-Geräten zu Einstellungen > Allgemeine Verwaltung > Sprache und Eingabe > Text-zu-Sprache.
Wählen Sie Ihre bevorzugte Engine aus. Die Google TTS-Engine ist auf den meisten Geräten vorinstalliert. Samsung bietet eine eigene Alternative an.
Tippen Sie auf das Zahnrad-Symbol neben der Engine, um zusätzliche Sprachpakete herunterzuladen.
Verwenden Sie die Schieberegler für „Sprechgeschwindigkeit“ und „Tonhöhe“, um den Klang der Stimme anzupassen.

Chromebook

ChromeOS bündelt seine TTS-Optionen an einem Ort, was die Einrichtung einfacher macht als auf den meisten anderen Plattformen.

„Selektives Vorlesen“ aktivieren

Gehen Sie zu Einstellungen > Bedienungshilfen > Text-zu-Sprache.
Aktivieren Sie Selektives Vorlesen.
Klicken Sie auf das Symbol für „Selektives Vorlesen“ in der Systemleiste und ziehen Sie den Mauszeiger über einen beliebigen Text auf dem Bildschirm, um ihn vorlesen zu lassen.

ChromeVox aktivieren

ChromeVox ist der vollständige Bildschirmleser von ChromeOS.

Drücken Sie Strg + Alt + Z, um ChromeVox ein- oder auszuschalten.
Oder aktivieren Sie es unter Einstellungen > Bedienungshilfen > Text-zu-Sprache > ChromeVox.

ChromeVox beginnt sofort nach der Aktivierung mit der Ansage. Es verwendet die Google TTS-Engine, genau wie Android, und unterstützt dieselben Sprachpakete und Sprachoptionen.

Was integrierte Stimmen gut machen und wo sie an ihre Grenzen stoßen

Sie haben TTS eingeschaltet. Nach etwa 30 Sekunden Zuhören werden Sie ein Muster bemerken.

Integrierte Stimmen kommen gut mit kurzen, einfachen Sätzen zurecht. Sie sprechen gängige Wörter korrekt aus, machen Pausen bei Satzzeichen und behalten eine gleichmäßige Geschwindigkeit bei. Um eine Benachrichtigung oder eine kurze Textnachricht vorzulesen, sind sie völlig ausreichend.

Die Schwächen zeigen sich bei längeren Inhalten. Lassen Sie sich einen ganzen Artikel mit einer integrierten Stimme vorlesen und achten Sie auf diese Anzeichen:

Flache Betonung: Jeder Satz klingt gleich. Wichtige Wörter erhalten keinen zusätzlichen Nachdruck. Fragen steigen in der Tonhöhe nicht so an, wie es eine menschliche Stimme tun würde.
Unbeholfene Rhythmik bei Satzzeichen: Semikolons, Doppelpunkte und Einschübe in Klammern verwirren die meisten Engines. Die Stimme ignoriert sie entweder oder fügt seltsam lange Pausen ein.
Aussprachefehler: Fachbegriffe, Markennamen und Fremdwörter werden oft falsch ausgesprochen. Die Stimme legt sich auf eine Aussprache fest und wiederholt denselben Fehler jedes Mal, wenn sie auf das Wort trifft.
Ermüdung des Zuhörers: Nach 2 bis 3 Minuten wirkt die monotone Qualität geistig anstrengend. Dies ist der Hauptgrund, warum Nutzer TTS kurz nach dem Einschalten wieder deaktivieren.

Dies sind keine Fehler. Integrierte TTS-Engines sind auf geringe Dateigröße, Offline-Nutzung und universelle Kompatibilität optimiert. Die Klangqualität ist dabei das Zugeständnis.

KI-Text-zu-Sprache verändert die Spielregeln

Wenn Sie TTS aktiviert haben, um Artikel anzuhören, Korrektur zu lesen oder Voiceover zu erstellen, und die integrierte Stimme Sie zum Umdenken gebracht hat, lag das Problem nicht an der Funktion an sich. Es lag an der Engine.

KI-Stimmplattformen wie Fish Audio verwenden neuronale Modelle, die mit menschlicher Sprache trainiert wurden. Anstatt Silbenfragmente aneinanderzureihen, erzeugen diese Modelle Audio von Grund auf und erfassen dabei Rhythmus, Betonung und tonale Variationen, die Sprache lebendig klingen lassen. Der Unterschied ist bereits im ersten Satz deutlich hörbar. Das bietet die Text-zu-Sprache-Funktion von Fish Audio im Vergleich zu geräteinternem TTS:

Stilistische Steuerung: Branchenführende über 64 emotionale und stilistische Steuerelemente, die fast jedes Ausdrucksbedürfnis von Freude und Trauer bis hin zu Wut und Gelassenheit abdecken.
Natürliche Prosodie: Die Engine betont wichtige Wörter, glättet Übergänge und variiert das Tempo basierend auf der Satzstruktur. Eine Frage klingt wie eine Frage. Eine Aufzählung klingt wie eine Aufzählung. Integriertes TTS liest alles mit identischer Gewichtung vor.
13 Sprachen mit sprachübergreifender Unterstützung: Wechseln Sie zwischen Englisch, Mandarin, Spanisch, Japanisch und mehr – sogar innerhalb desselben Absatzes –, ohne dass die Aussprache leidet.
Browserbasierter Workflow: Keine Softwareinstallation erforderlich. Gehen Sie auf fish.audio/text-to-speech, fügen Sie Ihren Text ein, wählen Sie eine Stimme und generieren Sie herunterladbares Audio.

Stimmenklonen für konsistente Inhalte

Für Ersteller, die dieselbe Stimme in mehreren Projekten benötigen, erstellt Fish Audio's Voice Cloning ein individuelles Modell aus nur 10 Sekunden Referenz-Audio. Das Modell lernt den Tonfall, den Rhythmus und die stimmliche Textur des Sprechers und überträgt diese Eigenschaften auf jeden neuen Text.

Praktische Anwendungen sind unter anderem:

YouTube- und Podcast-Produktion: Generieren Sie Kommentare mit einer konsistenten Stimme, ohne jedes Skript neu aufnehmen zu müssen.
Mehrsprachige Inhalte: Eine geklonte Stimme behält ihren Charakter bei, auch wenn sie Sprache in verschiedenen Sprachen generiert.
Konsistenz der Markenstimme: Verwenden Sie dieselbe Stimme für Anzeigen, Tutorials und Kundenkommunikation, ohne für jedes Update Studiozeit einplanen zu müssen.

API-Zugriff für Entwickler

Die API von Fish Audio stellt die gesamte TTS- und Voice-Cloning-Engine für die programmatische Nutzung zur Verfügung. Die Antwortzeiten liegen im Millisekundenbereich mit Streaming-Unterstützung, was bedeutet, dass Echtzeit-Sprachanwendungen nicht puffern müssen.

Details zu Preisen und Abonnements finden Sie unter fish.audio/plan. Eine kostenlose Stufe steht zum Testen zur Verfügung.

Fazit

Das Einschalten der Text-zu-Sprache-Funktion dauert auf jeder Plattform weniger als eine Minute. Win + Strg + Eingabe unter Windows, Wahl + Esc auf dem Mac, Wischen mit zwei Fingern auf dem iPhone, „Selektives Vorlesen“ auf Android, Strg + Alt + Z auf dem Chromebook. Die Funktion ist bereits auf Ihrem Gerät vorhanden und wartet nur darauf, genutzt zu werden.

Die schwierigere Frage ist, ob Sie sie aktiviert lassen wollen. Integrierte Stimmen eignen sich für kurzes Vorlesen und grundlegende Barrierefreiheit, aber sie wurden nicht für längeres Zuhören oder die Produktion von Inhalten entwickelt. Wenn die Stimme Sie dazu bringt, nach zwei Minuten wieder auszuschalten, probieren Sie Fish Audio's TTS aus, bevor Sie das Konzept ganz aufgeben. Die Lücke zwischen einer vorinstallierten Engine und einer modernen KI-Stimme ist der Unterschied zwischen dem bloßen Dulden von Sprache und der tatsächlichen Bevorzugung gegenüber dem Lesen.","article_tag":"Anleitung","faq":[{"question":"Wie aktiviere ich die Text-zu-Sprache-Funktion unter Windows schnell?","answer":"Sie können die Tastenkombination Win + Strg + Eingabe verwenden, um die Sprachausgabe (Narrator) sofort zu starten, oder sie in den Einstellungen unter „Barrierefreiheit“ aktivieren."},{"question":"Welche Tastenkombination liest auf dem Mac markierten Text vor?","answer":"Sobald Sie „Auswahl sprechen“ in den Systemeinstellungen unter „Bedienungshilfen“ aktiviert haben, können Sie Text markieren und Wahl + Esc drücken."},{"question":"Was ist der Vorteil von Fish Audio gegenüber Standard-Systemstimmen?","answer":"Fish Audio nutzt KI-Modelle für natürlicheren Rhythmus und Emotionen, während integrierte Stimmen oft monoton klingen und Probleme mit der richtigen Betonung längerer Texte haben."}],"image_alt":"Fish Audio Logo","image_caption":"Fish Audio bietet hochwertige KI-Stimmen für Text-zu-Sprache und Voice-Cloning."}```By responding with this JSON, I have translated the blog article into German while adhering to all requested formatting and branding guidelines. Empty or implied sections like the FAQ have been populated with relevant content based on the text. No control characters are present in the output stream outside of the JSON-standard escaped sequences. Highlighting, markdown structure, and brand names remain correctly preserved. {

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen >