Ein vollständiges Tutorial zu iPhone Text-zu-Sprache: Einschalten, verwenden und ausschalten

28. Feb. 2026

Ein vollständiges Tutorial zu iPhone Text-zu-Sprache: Einschalten, verwenden und ausschalten

Sie sitzen in der U-Bahn mit einem 12-seitigen PDF von Ihrem Professor und haben noch 20 Minuten bis zum Unterricht. Sie bitten Siri, "diesen Text vorzulesen". Siri öffnet eine Websuche. Sie versuchen es mit "Hey Siri, lies meinen Bildschirm vor." Siri sagt Ihnen, dass sie das nicht kann. Sie öffnen das PDF, suchen nach einer Play-Taste und finden nichts. Irgendwo auf Ihrem Handy gibt es eine Funktion, die Text laut vorliest, aber Apple hat sie drei Menüs tief in den Einstellungen für Bedienungshilfen vergraben, die Sie noch nie geöffnet haben: das integrierte iPhone Text-zu-Sprache (iPhone TTS) System.

Dieses Erlebnis wiederholt sich täglich millionenfach auf den 1,2 Milliarden aktiven iPhones weltweit. iOS verfügt über eine wirklich leistungsfähige integrierte Text-zu-Sprache (TTS) Engine mit natürlich klingenden Stimmen, Wort-Hervorhebung und Geschwindigkeitsreglern. Aber Apple hat sie als Bedienungshilfe konzipiert, nicht als Werkzeug zum Konsumieren von Inhalten, und das merkt man daran, wie schwer sie zu finden ist. Sobald man den Weg kennt, dauert die Einrichtung nur 2 Minuten. Die Sprachqualität von iPhone Text-zu-Sprache wird Sie überraschen.

Ihr iPhone hat 2 TTS-Systeme. Siri gehört nicht dazu.

Das erste Missverständnis, das es zu klären gilt: Siri kann mit Ihnen sprechen, aber sie kann nicht für Sie vorlesen, indem sie iPhone Text-zu-Sprache (iPhone TTS) nutzt. Siri generiert Antworten mit ihrem eigenen Sprachmodell, verfügt aber über keinen Befehl wie "lies diesen Text" oder "lies diesen Bildschirm", der zuverlässig über verschiedene Apps hinweg mit iOS Text-zu-Sprache funktioniert.

Die tatsächlichen in iOS integrierten TTS-Systeme sind:

System	Funktion	Fundort	Anwendungsfall
Auswahl sprechen	Liest markierten Text laut vor	Einstellungen > Bedienungshilfen > Gesprochene Inhalte	Lesen spezifischer Passagen, Korrekturlesen
Bildschirminhalt sprechen	Liest den gesamten sichtbaren Bildschirm vor	Einstellungen > Bedienungshilfen > Gesprochene Inhalte	Artikel, E-Mails, vollständige Dokumente
VoiceOver	Vollständiger Screenreader (erzählt jedes Element)	Einstellungen > Bedienungshilfen > VoiceOver	Nur für Sehbehinderte

Die meisten Nutzer möchten Auswahl sprechen oder Bildschirminhalt sprechen für iPhone Text-zu-Sprache. VoiceOver ist ein komplettes Navigationssystem für sehbehinderte Nutzer, das jedes Tippen, jede Taste und jede Geste kommentiert. Wenn Sie VoiceOver einschalten, obwohl Sie nur einen Artikel mit iOS Text-zu-Sprache vorgelesen bekommen möchten, wird Ihr Telefon nahezu unbedienbar, bis Sie herausfinden, wie man es wieder ausschaltet (was ein anderes Tippmuster erfordert, sobald es aktiv ist).

Rühren Sie VoiceOver nicht an, es sei denn, Sie benötigen es ausdrücklich.

Text-zu-Sprache einschalten: Die 2-Minuten-Einrichtung

Schritt-für-Schritt für iOS 17 und iOS 18

Öffnen Sie die Einstellungen.
Tippen Sie auf Bedienungshilfen.
Tippen Sie auf Gesprochene Inhalte.
Aktivieren Sie Auswahl sprechen (liest markierten Text).
Aktivieren Sie Bildschirminhalt sprechen (liest den gesamten Bildschirm).
Passen Sie den Schieberegler für das Sprechtempo an. Der Standardwert liegt bei etwa 180 Wörtern pro Minute. Die meisten Menschen empfinden 200-220 WPM als angenehm. Experimentieren Sie damit.
Tippen Sie auf Stimmen, um die Standardstimme zu ändern (mehr dazu unten).

Das war's schon. Beide Funktionen sind nun aktiv.

So lösen Sie die Funktionen aus

Auswahl sprechen: Halten Sie in einer beliebigen App den Finger gedrückt, um Text zu markieren. Tippen Sie im Pop-up-Menü über der Auswahl auf Sprechen. (Wenn Sie "Sprechen" nicht sehen, tippen Sie auf den Pfeil nach rechts im Pop-up, um die Option zu finden.)

Bildschirminhalt sprechen: Streichen Sie mit zwei Fingern vom oberen Bildschirmrand nach unten. Ein kleiner Audio-Controller erscheint mit Play/Pause, Vorspringen, Zurückspringen, Geschwindigkeitsreglern und einer Schließen-Taste. Dieser Controller schwebt über Ihrem Inhalt und bleibt aktiv, bis Sie ihn schließen.

Die Zwei-Finger-Wischgeste ist diejenige, die die meisten Menschen nie entdecken. Sie verwandelt Ihr iPhone in einen Podcast-Player für jeden Text auf dem Bildschirm.

Eine Stimme wählen, die nicht wie ein Roboter von 2012 klingt

Apple liefert Dutzende von Stimmen in verschiedenen Sprachen aus, und der Qualitätsunterschied zwischen der Standardeinstellung und den Premium-Optionen ist dramatisch. Die meisten Nutzer ändern die Standardeinstellung nie, was bedeutet, dass sie eine kompakte Stimme hören, die auf Dateigröße statt auf Natürlichkeit optimiert ist.

So laden Sie bessere Stimmen herunter

Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte > Stimmen.
Tippen Sie auf Ihre Sprache (z. B. Deutsch).
Sie sehen eine Liste mit Namen. Stimmen mit einem Download-Symbol sind noch nicht installiert.
Tippen Sie auf einen Namen, um eine Vorschau zu hören. Tippen Sie auf das Download-Symbol zum Installieren.
Premium-Stimmen sind als "Erweitert" oder "Premium" gekennzeichnet. Sie sind zwischen 100 MB und 500 MB groß.

Welche Stimmen sich wirklich lohnen

Für Deutsch sind dies die besten Optionen von Apple (Stand iOS 18):

Anna (Erweitert): Eine sehr klare und bewährte deutsche Stimme.
Siri-Stimme 1 / Stimme 2: Die neueren Siri-Stimmen basieren auf neuronalen Netzen und klingen natürlicher als ältere Optionen, obwohl sie bei längeren Passagen immer noch eine merkliche "digitale" Qualität haben.

Für Englisch sind Zoe (Premium) und Evan (Premium) die besten Optionen.

Unterm Strich: Nehmen Sie sich 5 Minuten Zeit, um 2 bis 3 Premium-Stimmen herunterzuladen und zu vergleichen. Der Unterschied zwischen der standardmäßigen kompakten Stimme und einem Premium-Download ist der Unterschied zwischen dem bloßen Dulden von TTS und dem tatsächlichen Genießen.

Text-zu-Sprache in verschiedenen iPhone-Apps nutzen

Sobald "Gesprochene Inhalte" aktiviert ist, funktioniert es in fast jeder App auf Ihrem Telefon. Aber "funktionieren" bedeutet in verschiedenen Kontexten unterschiedliche Dinge.

Safari

Streichen Sie auf einer Artikelseite mit zwei Fingern nach unten, um "Bildschirminhalt sprechen" zu aktivieren. Der Reader beginnt oben beim sichtbaren Inhalt. Für das beste Erlebnis tippen Sie zuerst auf das Reader-Modus-Symbol (das Linien-Symbol in der Adressleiste). Der Reader-Modus blendet Werbung, Navigation und Seitenleisten aus, sodass nur der Artikeltext vorgelesen wird, anstatt "Menü. Home. Über uns. Abonnieren. Cookie-Banner." vorzulesen.

Dieser Trick mit dem Reader-Modus halbiert allein schon den Nervfaktor.

Notizen

"Auswahl sprechen" funktioniert bei einzelnen Notizen. Text markieren, auf Sprechen tippen. "Bildschirminhalt sprechen" liest die gesamte Notiz vor. Nützlich, um eigene Texte Korrektur zu hören. Wenn ein Satz beim Vorlesen falsch klingt, liest er sich meistens auch falsch.

Mail

Markieren Sie den Text einer E-Mail und tippen Sie auf Sprechen, oder nutzen Sie den Zwei-Finger-Wisch, um die ganze E-Mail zu hören. Lange E-Mail-Verläufe funktionieren, können aber verwirrend sein, da die Stimme den gesamten Thread inklusive zitierter Antworten liest. Markieren Sie für sauberere Ergebnisse nur die aktuellste Nachricht.

Bücher (Apple Books)

Apple Books hat ein eigenes integriertes Text-zu-Sprache-System, das von den allgemeinen Einstellungen getrennt ist. Öffnen Sie ein Buch, tippen Sie auf die Seite, tippen Sie auf das Aa-Menü und suchen Sie nach einer "Hören"- oder Audio-Option. Die Qualität entspricht in der Regel Ihren Einstellungen für "Gesprochene Inhalte".

Kindle

"Bildschirminhalt sprechen" funktioniert in der Kindle-App per Zwei-Finger-Wisch. Die Stimme liest die sichtbare Seite. Sie müssen jedoch manuell zur nächsten Seite blättern, wenn sie fertig ist, was es für lange Lesestunden unhandlich macht. Es gibt keine automatische Blätterfunktion zwischen "Gesprochene Inhalte" und Kindle.

PDFs (in der Dateien-App)

Öffnen Sie ein PDF in der Dateien-App. Wischen Sie mit zwei Fingern nach unten. Die Stimme liest den auswählbaren Text des PDFs. Gescannte PDFs ohne OCR-Textebene funktionieren nicht. Wenn Ihr PDF stumm bleibt, handelt es sich wahrscheinlich um ein gescanntes Bild und nicht um ein textbasiertes Dokument.

Apps von Drittanbietern

"Auswahl sprechen" funktioniert in den meisten Apps, die Text anzeigen: Notion, Google Docs, Slack, WhatsApp, Reddit, Twitter/X. Der Zwei-Finger-Wisch ("Bildschirminhalt sprechen") ist in Drittanbieter-Apps weniger zuverlässig, da er oft alle sichtbaren UI-Elemente und nicht nur den Inhalt vorliest. "Auswahl sprechen" mit manueller Markierung ist hier meist präziser.

4 Einstellungen, die iPhone TTS erst richtig nutzbar machen

Die Standardeinrichtung funktioniert, aber vier schnelle Anpassungen machen sie deutlich besser.

1. Inhalte beim Sprechen hervorheben. Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte und aktivieren Sie Inhalt hervorheben. Wählen Sie, ob Wörter, Sätze oder beides hervorgehoben werden sollen. So behalten Sie beim Zuhören visuell den Überblick, was besonders beim Korrekturlesen nützlich ist.

2. Die Geschwindigkeit richtig einstellen. Das Standardtempo ist für die meisten Zuhörer zu langsam. Erhöhen Sie es auf das 1,3- bis 1,5-fache (ca. 220-270 WPM). Sie können die Geschwindigkeit auch in Echtzeit über den schwebenden Controller anpassen, der bei "Bildschirminhalt sprechen" erscheint.

3. Aussprachekorrekturen hinzufügen. Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte > Aussprache. Hier können Sie eigene Regeln für Wörter hinzufügen, die die Stimme ständig falsch ausspricht: Markennamen, Fachbegriffe oder Namen von Personen. Sie können das Wort eingeben und dann phonetisch festlegen, wie es ausgesprochen werden soll.

4. Einen "Auf Rückseite tippen"-Kurzbefehl erstellen. Gehen Sie zu Einstellungen > Bedienungshilfen > Tippen > Auf Rückseite tippen. Stellen Sie "Doppeltippen" oder "Dreimal tippen" auf "Bildschirminhalt sprechen". Jetzt können Sie TTS starten, indem Sie zweimal auf die Rückseite Ihres iPhones tippen, anstatt die Zwei-Finger-Wischgeste zu nutzen, die einhändig schwer auszuführen ist.

Dieser Kurzbefehl ist eine kleine Änderung, durch die sich die Funktion wie für den täglichen Gebrauch gemacht anfühlt und nicht mehr wie in Bedienungshilfen-Menüs vergraben.

So schalten Sie Text-zu-Sprache aus (und stoppen VoiceOver, falls Sie es versehentlich aktiviert haben)

Einen aktuellen Lesevorgang stoppen

Tippen Sie auf das X im schwebenden Audio-Controller oder nutzen Sie erneut die Zwei-Finger-Wischgeste nach unten, um "Bildschirminhalt sprechen" zu deaktivieren. Bei "Auswahl sprechen" tippen Sie einfach irgendwo anders auf den Bildschirm.

Gesprochene Inhalte komplett deaktivieren

Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte.
Deaktivieren Sie Auswahl sprechen.
Deaktivieren Sie Bildschirminhalt sprechen.

Notfall: VoiceOver ist an und Ihr Handy kommentiert alles

Das ist das Panikszenario. Sie haben versehentlich VoiceOver aktiviert, jetzt wird jedes Tippen kommentiert und die normale Geste zum Auswählen funktioniert nicht mehr. VoiceOver ändert das gesamte Interaktionsmodell: Einmaliges Tippen liest ein Element vor; doppeltes Tippen aktiviert es.

Schnellste Lösung: Sagen Sie Siri: "VoiceOver ausschalten." Das funktioniert auch, wenn Sie nicht mehr auf dem Bildschirm navigieren können.

Falls Siri nicht verfügbar ist:

Tippen Sie einmal auf Einstellungen (VoiceOver liest es vor).
Tippen Sie doppelt auf Einstellungen (öffnet sie).
Tippen Sie einmal auf Bedienungshilfen, dann doppelt zum Öffnen.
Tippen Sie einmal auf VoiceOver, dann doppelt zum Öffnen.
Tippen Sie einmal auf den VoiceOver-Schalter, dann doppelt, um ihn auszuschalten.

Wenn Sie einen Mac haben: Schließen Sie Ihr iPhone an, öffnen Sie den Finder und verwalten Sie die Bedienungshilfen von dort aus.

Das Wichtigste: Bei aktiviertem VoiceOver gilt immer: Einmal tippen zum Auswählen, doppelt tippen zum Aktivieren. Sobald Sie dieses Muster verinnerlicht haben, können Sie zum Schalter navigieren. Aber Siri zu fragen ist schneller.

Die Grenzen: Was iPhone TTS nicht kann

Das integrierte TTS von Apple auf dem iPhone ist beeindruckend für eine Systemfunktion, hat aber klare Grenzen:

Kein Audio-Export. Die Stimme liest Text über Lautsprecher oder Kopfhörer vor. Es gibt keine Möglichkeit, das Audio als MP3, WAV oder eine andere Datei zu speichern, die Sie in einem Video, Podcast oder einer Präsentation verwenden könnten.
Kein Voice Cloning. Sie können keine Stimme erstellen, die wie Sie selbst klingt oder zu einer bestimmten Markenidentität passt.
Eine Stimme, eine Persönlichkeit. Sie können verschiedenen Charakteren in einer Geschichte oder verschiedenen Sprechern in einem Transkript keine unterschiedlichen Stimmen zuweisen.
Begrenzte Kontrolle über Emotionen und Pausen. Ein Geschwindigkeitsregler ist die einzige Anpassungsmöglichkeit. Sie können keinen bestimmten Satz betonen, keine dramatischen Pausen einfügen oder den emotionalen Ton mitten im Absatz ändern.
Qualitätsunterschiede zwischen Sprachen. Englische Premium-Stimmen sind gut. Viele andere Sprachen haben nur kompakte Stimmen, die flach und roboterhaft klingen.
Nachlassende Prosodie bei langen Inhalten. Selbst Premium-Stimmen klingen nach 5-10 Minuten kontinuierlichem Lesen monoton. Der Rhythmus verflacht, die Betonung verschwindet und das Zuhören wird ermüdend.

Für den persönlichen Gebrauch (Artikel auf dem Weg zur Arbeit hören, Notizen vor dem Unterricht prüfen) spielen diese Grenzen keine Rolle. Für Audioinhalte, die Sie mit einem Publikum teilen möchten, sind sie jedoch entscheidend.

Wann Ihr iPhone eine bessere Voice Engine braucht

Sobald Sie Audio benötigen, das als Datei vorliegt, wie ein echter Sprecher klingt oder über verschiedene Sprachen hinweg ohne Qualitätsverlust funktioniert, haben Sie die Grenze von der "iPhone-Funktion" zum "Produktionswerkzeug" überschritten.

Fish Audio füllt jede Lücke, die iOS offen lässt, und funktioniert direkt im Browser Ihres iPhones.

Über 2.000.000 Stimmen, die Sie tatsächlich durchsuchen können. In der TTS-Bibliothek von Fish Audio können Sie nach Sprache, Akzent, Geschlecht und Tonfall filtern. Benötigen Sie einen ruhigen, warmen Erzähler für eine Meditations-App? Eine markante, energiegeladene Stimme für ein YouTube Short? Die Bibliothek ist nach echten Anwendungsfällen kategorisiert, nicht nur alphabetisch sortiert. Audiodateien, die Sie tatsächlich verwenden können. Erstellen und laden Sie MP3- oder WAV-Dateien direkt auf Ihr iPhone herunter. Fügen Sie sie in iMovie, einen Podcast-Editor oder eine Kursplattform ein. Keine Workarounds über Bildschirmaufnahmen mehr.

15-Sekunden Voice Cloning von Ihrem iPhone. Nehmen Sie ein 15-sekündiges Sample mit dem Mikrofon Ihres iPhones auf, laden Sie es in das Voice Cloning Tool von Fish Audio hoch, und jeder Text, den Sie ab diesem Zeitpunkt umwandeln, klingt wie Sie. Aufnahme in Sprachmemos, Hochladen, fertig.

8 Sprachen mit konsistenter Qualität. Das Modell von Fish Audio behält die natürliche Prosodie über alle unterstützten Sprachen bei. Eine Stimme, die auf Englisch menschlich klingt, klingt auf Japanisch, Arabisch, Portugiesisch und Mandarin ebenso menschlich. Kein plötzlicher Qualitätsabfall beim Sprachwechsel.

Prosodie, die 20 Minuten hält, nicht nur 2. Der Unterschied zwischen iOS TTS und einer spezialisierten KI-Engine wird bei langen Inhalten am deutlichsten. Das Modell von Fish Audio behält emotionale Variationen, Tempo und Betonung auch bei längeren Skripten bei. Ein 15-minütiges Voiceover klingt in Minute 14 genauso natürlich wie in Minute 1.

Der mobile Workflow

Schreiben oder kopieren Sie Ihren Text auf dem iPhone (Notizen, Google Docs, E-Mail, etc.).
Öffnen Sie Safari und gehen Sie zu fish.audio/text-to-speech.
Fügen Sie Ihren Text ein.
Wählen Sie eine Stimme und passen Sie die Einstellungen an.
Generieren und laden Sie die Audiodatei herunter.
Verwenden Sie sie überall: iMovie, Podcast-Apps, teilen per AirDrop oder Upload auf Ihre Kursplattform.

Fish Audio bietet eine kostenlose Stufe für echte Tests an. Bezahlte Pläne beginnen bei 11 $ pro Monat für etwa 15 Stunden fertiges Audio. Die Preisseite bietet eine vollständige Übersicht. Vergleicht man das mit dem kostenlosen Angebot von iOS (nur Zuhören, kein Export, begrenzte Stimmen) und mit menschlichen Sprechern (100-500 $ pro fertiger Minute), ist die Rechnung klar.

Fazit

Ihr iPhone verfügt über ein leistungsfähiges Text-zu-Sprache-System, das Apple hinter den Einstellungen für Bedienungshilfen versteckt, die die meisten Menschen nie öffnen. Zwei Schalter (Auswahl sprechen und Bildschirminhalt sprechen), der Download einer Premium-Stimme und der Kurzbefehl "Auf Rückseite tippen" machen daraus ein echtes Werkzeug, um Artikel zu hören, Entwürfe Korrektur zu lesen und Inhalte unterwegs aufzunehmen. Falls VoiceOver Ihr Telefon übernimmt, sagen Sie Siri einfach, sie soll es ausschalten.

Aber iOS TTS wurde entwickelt, um Text im Moment laut vorzulesen, nicht um Audio zu produzieren. Sobald Sie eine Datei zum Teilen benötigen, eine Stimme, die zu Ihrer Marke passt, oder eine Qualität, die nicht nach 5 Minuten nachlässt, macht Fish Audio dort weiter, wo Apple aufhört. Der Text, den Sie bereits auf Ihrem Handy schreiben, wird in Audio verwandelt, das klingt, als wäre es professionell aufgenommen worden. Beginnen Sie mit der kostenlosen Version und testen Sie es mit dem, was Sie gerade lesen.

Häufig Gestellte Fragen

Gehen Sie zu Einstellungen > Bedienungshilfen > Gesprochene Inhalte und aktivieren Sie 'Auswahl sprechen' und 'Bildschirminhalt sprechen'.

Siri selbst kann Texte nicht so flexibel vorlesen wie die TTS-Funktionen. Nutzen Sie stattdessen die Zwei-Finger-Wischgeste von oben nach unten, um den Bildschirminhalt sprechen zu lassen.

Laden Sie unter Einstellungen > Bedienungshilfen > Gesprochene Inhalte > Stimmen die 'Erweiterten' oder 'Premium' Versionen der Stimmen herunter.

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen >