So aktivieren Sie die Spracherkennung und diktieren auf jedem Gerät

5. März 2026

Anleitung

So aktivieren Sie die Spracherkennung und diktieren auf jedem Gerät

Die meisten Menschen tippen mit einer Geschwindigkeit von etwa 40 Wörtern pro Minute. Die meisten Menschen sprechen jedoch mit 130 Wörtern pro Minute. Das ist ein dreifacher Zeitverlust, den Sie jedes Mal in Kauf nehmen, wenn Sie eine Nachricht mit dem Daumen tippen, sich mühsam durch eine E-Mail quälen oder Besprechungsnotizen nachträglich von Hand transkribieren.

Sprache-zu-Text, auch Diktierfunktion oder Spracheingabe genannt, wandelt Ihre gesprochenen Worte in Echtzeit in geschriebenen Text um. Jedes gängige Gerät hat diese Funktion bereits eingebaut. Das Einschalten ist einfach. Um präzise Ergebnisse zu erzielen, muss man jedoch ein paar Dinge wissen, die einem der Einrichtungsbildschirm nicht verrät.

Windows 10 und 11

Windows verfügt über zwei Sprache-zu-Text-Tools. Die Spracheingabe ist das schlanke Diktierwerkzeug. Die Windows-Spracherkennung ist das ältere, umfassendere System.

Aktivieren der Spracheingabe

Die Spracheingabe ist die schnellere Option und diejenige, die von Microsoft aktiv gepflegt wird. Sie funktioniert in jedem Textfeld des Systems.

Drücken Sie Win + H, um die Symbolleiste für die Spracheingabe zu öffnen. Ein kleines Mikrofon-Panel erscheint oben auf Ihrem Bildschirm.
Klicken Sie auf das Mikrofonsymbol oder drücken Sie erneut Win + H, um das Diktieren zu starten.
Sprechen Sie natürlich. Windows transkribiert in Echtzeit und fügt den Text an der Position Ihres Cursors ein.

Hinweise zur Ersteinrichtung:

Mikrofonberechtigung: Windows fordert Sie eventuell auf, den Zugriff auf das Mikrofon zu erlauben. Bestätigen Sie dies. Ohne diese Erlaubnis funktioniert die Spracheingabe nicht.
Online-Spracherkennung: Für eine bessere Genauigkeit stellen Sie sicher, dass die Online-Spracherkennung unter Einstellungen > Datenschutz & Sicherheit > Spracherkennung aktiviert ist. Das cloudbasierte Modell ist deutlich genauer als die Offline-Variante.
Automatische Interpunktion: Die Spracheingabe kann Punkte, Kommas und Fragezeichen automatisch einfügen. Aktivieren Sie dies über das Zahnradsymbol in der Symbolleiste der Spracheingabe.

Sprachbefehle, die Sie während des Diktierens verwenden können:

„Punkt“, „Komma“, „Fragezeichen“, „Ausrufezeichen“, um Satzzeichen einzufügen.
„Neue Zeile“ oder „Neuer Absatz“, um Zeilenumbrüche zu erzeugen.
„Das löschen“, um die letzte Phrase zu entfernen.
„Diktieren beenden“, um das Mikrofon auszuschalten.

Windows-Spracherkennung

Das ältere Tool „Spracherkennung“ bietet eine umfassendere Steuerung, einschließlich Sprachbefehlen zum Navigieren in Windows, zum Öffnen von Apps und zum Klicken auf Schaltflächen. Es ist leistungsstärker, aber komplexer.

Öffnen Sie Einstellungen > Barrierefreiheit > Spracherkennung (Windows 11) oder suchen Sie im Startmenü nach „Windows-Spracherkennung“.
Folgen Sie dem Einrichtungsassistenten, der einen Schritt zur Mikrofonkalibrierung und eine kurze Sprachtrainingsübung umfasst.

Für reines Diktieren ist die Spracheingabe die bessere Wahl. Die Windows-Spracherkennung ist einen Blick wert, wenn Sie Ihren gesamten Computer freihändig steuern möchten.

macOS

macOS bietet die „Diktierfunktion“ als systemweite Sprache-zu-Text-Funktion und die „Verbesserte Diktierfunktion“ für die Offline-Nutzung an.

Aktivieren der Diktierfunktion

Öffnen Sie Systemeinstellungen > Tastatur.
Scrollen Sie zum Abschnitt Diktierfunktion und schalten Sie diese ein.
macOS bittet Sie um Bestätigung und lädt eventuell ein Sprachmodell herunter.

Sobald die Funktion aktiviert ist, drücken Sie die Mikrofontaste auf Ihrer Tastatur (bei neueren Macs) oder drücken Sie zweimal Fn (oder den von Ihnen konfigurierten Shortcut), um in einem beliebigen Textfeld mit dem Diktieren zu beginnen.

Lohnenswerte Konfigurationen:

Sprache: Klicken Sie auf das Sprach-Dropdown, um weitere Diktiersprachen hinzuzufügen. macOS unterstützt mehrere Sprachen gleichzeitig, und die Engine erkennt automatisch, welche Sprache Sie gerade sprechen.
Automatische Interpunktion: Aktivieren Sie diese Option, damit macOS Punkte, Kommas und Fragezeichen basierend auf Ihrem Sprechtempo und Ihrer Intonation setzt.
Kurzbefehl: Passen Sie den Aktivierungsshortcut in den Diktier-Einstellungen an, falls sich das doppelte Drücken von Fn unpraktisch anfühlt.

macOS Dictation sendet die Audiodaten standardmäßig zur Verarbeitung an die Apple-Server. Auf Apple Silicon Macs mit macOS Ventura oder neuer ist für unterstützte Sprachen eine On-Device-Verarbeitung verfügbar, sodass Ihre Audiodaten lokal bleiben.

Sprachsteuerung

Die Sprachsteuerung ist das vollständige Sprachbefehlssystem von macOS. Es geht über das Diktieren hinaus und ermöglicht es Ihnen, mit gesprochenen Befehlen zu navigieren, zu klicken, zu scrollen und zu bearbeiten.

Öffnen Sie Systemeinstellungen > Bedienungshilfen > Sprachsteuerung und aktivieren Sie diese.

Die Sprachsteuerung verwendet ausschließlich die On-Device-Verarbeitung und funktioniert offline. Sie wurde primär für Benutzer mit eingeschränkter Mobilität entwickelt, die eine vollständige freihändige Bedienung benötigen, aber auch Autoren und Power-User nutzen sie gerne wegen ihrer präzisen Bearbeitungsbefehle wie „vorherigen Satz auswählen“ oder „das großschreiben“.

iPhone und iPad

iOS verfügt seit 2011 über eine integrierte Diktierfunktion. Die Genauigkeit hat sich dramatisch verbessert, insbesondere auf Geräten mit Apples Neural Engine.

Aktivieren der Diktierfunktion

Gehen Sie zu Einstellungen > Allgemein > Tastatur.
Aktivieren Sie Diktierfunktion aktivieren.
Bestätigen Sie die Abfrage.

Um sie zu nutzen, öffnen Sie eine beliebige App mit einem Textfeld und tippen Sie auf das Mikrofonsymbol auf der Tastatur. Beginnen Sie zu sprechen. Tippen Sie erneut auf das Mikrofon oder das Tastatursymbol, um zu stoppen.

Auf iPhones und iPads mit iOS 16 oder neuer funktionieren Diktat und Tastatureingabe gleichzeitig. Sie können einen Satz sprechen, dann manuell ein Wort über die Tastatur korrigieren und danach weitersprechen, ohne den Modus wechseln zu müssen. Diese hybride Eingabe ist eine der am meisten unterschätzten Produktivitätsfunktionen unter iOS.

Nützliche Details:

Emojis per Sprache: Sagen Sie „Herz-Emoji“ oder „Daumen-hoch-Emoji“, und iOS fügt das entsprechende Emoji ein.
Satzzeichen: Sprechen Sie „Punkt“, „Komma“, „Fragezeichen“, „Ausrufezeichen“ oder „Neuer Absatz“ ganz natürlich in Ihrem Satz aus.
Sprachwechsel: Wenn Sie mehrere Tastaturen installiert haben, erkennt die Diktierfunktion in den meisten Fällen automatisch die Sprache, in der Sie sprechen.
On-Device-Verarbeitung: iPhone-Modelle mit A12 Bionic oder neuer verarbeiten Diktate für unterstützte Sprachen direkt auf dem Gerät, was bedeutet, dass Ihre Audiodaten das Telefon nicht verlassen.

Android

Die Sprache-zu-Text-Funktion von Android wird von der Google-Spracherkennung angetrieben und funktioniert systemweit über Gboard oder die meisten anderen Tastatur-Apps.

Aktivieren der Spracheingabe in Gboard

Gboard ist die Standardtastatur auf den meisten Android-Telefonen. Die Spracheingabe ist normalerweise standardmäßig aktiviert, aber hier erfahren Sie, wie Sie sie überprüfen und konfigurieren:

Öffnen Sie Einstellungen > System > Sprachen & Eingabe > Bildschirmtastatur > Gboard.
Tippen Sie auf Spracheingabe und stellen Sie sicher, dass sie aktiviert ist.
Alternativ öffnen Sie einfach ein beliebiges Textfeld und suchen nach dem Mikrofonsymbol in der Gboard-Symbolleiste. Tippen Sie darauf, um das Diktieren zu starten.

Auf Samsung-Geräten mit der Samsung-Tastatur:

Öffnen Sie Einstellungen > Allgemeine Verwaltung > Samsung-Tastatureinstellungen.
Tippen Sie auf Spracheingabe und wählen Sie Ihre bevorzugte Sprach-Engine aus.

Wichtige Einstellungen zum Anpassen:

Offline-Spracherkennung: Gehen Sie in den Gboard-Einstellungen auf Spracheingabe > Offline-Spracherkennung, um Sprachpakete für die Nutzung ohne Internet herunterzuladen. Die Offline-Genauigkeit ist geringer, eliminiert aber Verzögerungen.
Automatische Interpunktion: In Gboard meist standardmäßig aktiviert. Die Engine fügt Punkte bei natürlichen Pausen ein und setzt gelegentlich Kommas.
Voice Match: Wenn die Genauigkeit schlecht erscheint, trainieren Sie Ihr Sprachmodell neu unter Einstellungen > Google > Einstellungen für Google-Apps > Suche, Assistant & Spracheingabe > Spracheingabe > Voice Match.

Google Assistant Diktat

Für schnelle Texteingaben können Sie in Apps, die die Assistant-Integration unterstützen, auch sagen: „Hey Google, schreibe...“, gefolgt von Ihrer Nachricht. Dies ist schneller für kurze Nachrichten, aber weniger praktisch für längeres Diktieren.

Chromebook

ChromeOS unterstützt das Diktieren über seine integrierten Bedienungshilfen sowie über die Google-Sprach-Engine in Web-Apps.

Aktivieren der Diktierfunktion

Gehen Sie zu Einstellungen > Barrierefreiheit > Tastatur und Texteingabe.
Aktivieren Sie Diktierfunktion.
Ein kleines Mikrofonsymbol erscheint im Statusbereich. Klicken Sie darauf, um in einem beliebigen Textfeld mit dem Diktieren zu beginnen.

Die ChromeOS-Diktierfunktion nutzt dieselbe Google-Sprach-Engine wie Android. Genauigkeit, Sprachunterstützung und Sprachbefehle sind nahezu identisch.

Verwenden der Spracheingabe in Google Docs

Wenn Sie hauptsächlich in Google Docs arbeiten, gibt es ein separates, in die App integriertes Spracheingabe-Tool:

Öffnen Sie ein Google Doc.
Gehen Sie zu Tools > Spracheingabe oder drücken Sie Strg + Umschalt + S.
Klicken Sie auf das Mikrofonsymbol, das am linken Rand erscheint, und beginnen Sie zu sprechen.

Die Google Docs-Spracheingabe unterstützt über 100 Sprachen und enthält Sprachbefehle für die Formatierung: „Fett“, „Kursiv“, „Aufzählungsliste erstellen“, „Überschrift 2“ und mehr. Für dokumentenintensive Arbeiten auf einem Chromebook ist dies oft leistungsfähiger als die systemweite Diktierfunktion.

Warum die Genauigkeit nach dem ersten Satz nachlässt

Sie haben Sprache-zu-Text eingeschaltet, einen Satz gesprochen, und es hat funktioniert. Dann haben Sie versucht, einen ganzen Absatz zu diktieren, und das Ergebnis war ein einziges Chaos. Fehlende Wörter, falsche Homophone, Satzzeichen an den falschen Stellen.

Dies ist die häufigste Erfahrung, und die Ursache ist meist nicht die Sprach-Engine. Es liegt daran, wie Menschen sprechen, wenn sie zum ersten Mal diktieren.

Natürliche Gespräche enthalten Füllwörter, Fehlstarts, Korrekturen mitten im Satz und abbrechende Gedanken. Ihr Gehirn korrigiert all das automatisch, wenn ein anderer Mensch zuhört. Eine Sprache-zu-Text-Engine transkribiert alles wortwörtlich, einschließlich jedes „Ähm“, „Äh“, „eigentlich warte mal“ und jedes halbfertigen Gedankens.

Drei Anpassungen, die die Genauigkeit sofort verbessern:

Beenden Sie Ihren Gedanken, bevor Sie ihn aussprechen. Halten Sie kurz inne, formulieren Sie den kompletten Satz im Kopf und sprechen Sie ihn dann aus. Diese eine Gewohnheit eliminiert die meisten Transkriptionsfehler.
Sprechen Sie Satzzeichen explizit aus, bis die Automatik greift. Sagen Sie laut „Komma“ und „Punkt“. Es fühlt sich etwa fünf Minuten lang komisch an, wird dann aber zum Automatismus.
Diktieren Sie in kurzen Abschnitten, nicht im Fluss. Sprechen Sie 2-3 Sätze, machen Sie eine Pause, überprüfen Sie das Ergebnis und fahren Sie dann fort. Lange, ununterbrochene Gedankenströme überfordern den Puffer der Engine und erhöhen die Fehlerrate.

Integrierte Sprache-zu-Text-Engines bewältigen diese Anpassungen gut für kurze Nachrichten und schnelle Notizen. Bei längeren Inhalten wie Besprechungstranskriptionen, Interviews, Vorlesungsaufzeichnungen oder Podcast-Skripten steigen die Anforderungen an die Genauigkeit, und die integrierten Tools stoßen an ihre Grenzen.

Wenn die integrierte Diktierfunktion an ihre Grenzen stößt

Die geräteseitige Spracherkennung ist für Echtzeit-Eingaben in Kurzform konzipiert. Sie sprechen, das Gerät transkribiert, Sie korrigieren Fehler manuell und machen weiter. Für eine Textnachricht oder eine Suchanfrage reicht das aus.

Der Workflow bricht in einigen spezifischen Szenarien zusammen:

Langform-Transkription: Einen Artikel mit 2.000 Wörtern zu diktieren bedeutet, alle paar Sätze Fehler korrigieren zu müssen. Diese Unterbrechungen machen den Geschwindigkeitsvorteil zunichte, der das Diktieren überhaupt erst attraktiv gemacht hat.
Voraufgezeichnetes Audio: Die integrierte Diktierfunktion benötigt eine Live-Mikrofoneingabe. Sie kann keine Audiodatei, Besprechungsaufzeichnung oder Podcast-Episode transkribieren.
Mehrere Sprecher: Die Diktierfunktion von Geräten unterscheidet nicht zwischen Stimmen. In einer Besprechung oder einem Interview wird alles in einem einzigen, undifferenzierten Textstrom zusammengefasst.
Fachvokabular: Medizinische Begriffe, juristischer Jargon, technische Produktnamen und Fremdwörter führen häufig zu Fehlern, die durch die Autokorrektur oft noch verschlimmert werden.

Dies sind keine Randfälle. Es sind genau die Szenarien, in denen Sprache-zu-Text den größten Wert bietet – und genau dort versagen die integrierten Tools oft.

KI-Spracherkennung für Audiodateien, Meetings und umfangreiche Transkriptionen

Fish Audio's Sprache-zu-Text verfolgt einen anderen Ansatz. Anstelle einer reinen Echtzeit-Diktierfunktion über das Mikrofon verarbeitet es Audiodateien und erstellt hochpräzise Transkriptionen mithilfe von neuronalen Modellen, die auf verschiedensten Sprachmustern trainiert wurden. Was das in der Praxis bedeutet:

Beliebige Audiodateien hochladen: MP3, WAV, M4A und andere Standardformate. Nehmen Sie ein Meeting, eine Vorlesung, ein Interview oder eine Podcast-Folge auf und erhalten Sie eine Texttranskription, ohne ein Wort zu tippen.
Mehrsprachige Unterstützung: Die Engine beherrscht eine Vielzahl von Sprachen und kann Audioaufnahmen verarbeiten, bei denen Sprecher mitten im Gespräch zwischen den Sprachen wechseln.
Höhere Genauigkeit bei längeren Inhalten: Während die integrierte Diktierfunktion bei langen Passagen nachlässt, behält das STT-Modell von Fish Audio die Konsistenz über Minuten oder Stunden hinweg bei. Die neuronale Architektur ist auf dauerhafte Transkription ausgelegt, nicht nur auf kurze Impulse.
Kein Mikrofon erforderlich: Sie müssen nicht in Echtzeit in Ihr Gerät sprechen. Laden Sie eine Aufnahme aus einer beliebigen Quelle hoch und erhalten Sie das Transkript zurück.

Für Content-Ersteller, Journalisten, Forscher und alle, die regelmäßig gesprochene Worte in geschriebenen Text umwandeln, verlagert sich der Workflow von „diktieren und ständig Fehler korrigieren“ hin zu „natürlich aufnehmen und dann alles auf einmal transkribieren“.

API-Zugriff für Entwickler

Wenn Sie eine Anwendung entwickeln, die Sprache-zu-Text-Funktionen benötigt, bietet die Fish Audio API programmgesteuerten Zugriff auf dieselbe Transkriptions-Engine. Anwendungsfälle sind:

Meeting-Tools: Automatische Transkription von Telefonkonferenzen.
Barrierefreiheitsfunktionen: Echtzeit-Untertitelung für Videoplattformen.
Content-Pipelines: Batch-Transkription von Podcast-Folgen oder Video-Narrationen.
Sprachschnittstellen: Umwandlung von Benutzersprache in verwertbaren Text innerhalb von Apps.

Die API unterstützt Streaming für Echtzeitanwendungen und Stapelverarbeitung für voraufgezeichnete Dateien. Details und Preise finden Sie unter fish.audio/plan.

Fazit

Spracherkennung ist auf jeder großen Plattform verfügbar. Win + H unter Windows, Fn + Fn auf dem Mac, das Mikrofonsymbol auf iPhone und Android und das Mikrofon im Statusbereich auf dem Chromebook. Das Einschalten dauert Sekunden, und für kurze Nachrichten und Notizen funktioniert die integrierte Diktierfunktion gut genug.

Für alles, was darüber hinausgeht, verursachen die integrierten Tools einen Korrekturaufwand, der den Geschwindigkeitsvorteil zunichtemacht. Wenn Sie Aufnahmen transkribieren, Meetings verarbeiten oder umfangreiche Audioinhalte in Text umwandeln möchten, übernimmt Fish Audio's Sprache-zu-Text die Arbeit, für die die Diktierfunktion Ihres Geräts nicht gebaut wurde. Hochladen, transkribieren, fertig.

Häufig Gestellte Fragen

Drücken Sie die Tastenkombination Win + H, um die Spracheingabe-Symbolleiste zu öffnen. Stellen Sie sicher, dass Ihr Mikrofon aktiviert ist.

Nein, die meisten integrierten Diktierfunktionen benötigen eine Live-Eingabe über das Mikrofon. Für Audiodateien benötigen Sie spezialisierte Dienste wie Fish Audio.

Ja, macOS bietet auf Apple Silicon Macs eine On-Device-Verarbeitung an, die die Privatsphäre schützt und ohne Internet funktioniert.

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen >