Как включить функцию преобразования речи в текст и начать диктовку на любом устройстве

5 мар. 2026 г.

Руководство

Как включить функцию преобразования речи в текст и начать диктовку на любом устройстве

Большинство людей печатают со скоростью 40 слов в минуту. Говорят же — 130. Это трехкратный разрыв в продуктивности, который вы теряете каждый раз, когда набираете сообщение на смартфоне, медленно печатаете электронное письмо или вручную транскрибируете заметки после встречи.

Преобразование речи в текст, также называемое диктовкой или голосовым вводом, переводит ваши слова в письменный текст в режиме реального времени. Эта функция встроена в каждое современное устройство. Включить ее просто, но для получения точных результатов нужно знать несколько вещей, о которых не пишут на экране настройки.

Windows 10 и 11

В Windows есть два инструмента для работы с речью. «Голосовой ввод» — это легкий инструмент для диктовки, а «Распознавание речи Windows» — более старая и комплексная система.

Включение голосового ввода

«Голосовой ввод» (Voice Typing) — это более быстрый вариант, который Microsoft активно развивает. Он работает в любом текстовом поле системы.

Нажмите Win + H, чтобы открыть панель голосового ввода. В верхней части экрана появится небольшая панель с микрофоном.
Нажмите на значок микрофона или снова нажмите Win + H, чтобы начать диктовку.
Говорите естественно. Windows транскрибирует речь в реальном времени и вставляет текст в место, где находится курсор.

Заметки по первой настройке:

Разрешение для микрофона: Windows может запросить доступ к микрофону. Разрешите его, иначе голосовой ввод не будет работать.
Онлайн-распознавание речи: Для повышения точности убедитесь, что онлайн-распознавание включено в разделе Параметры > Конфиденциальность и защита > Речь. Облачная модель значительно точнее автономной.
Автоматическая пунктуация: Голосовой ввод может сам расставлять точки, запятые и вопросительные знаки. Включите эту опцию через значок шестеренки на панели голосового ввода.

Голосовые команды во время диктовки:

«Точка», «запятая», «вопросительный знак», «восклицательный знак» для вставки знаков препинания.
«Новая строка» или «новый абзац» для разрыва строк.
«Удалить это», чтобы удалить последнюю фразу.
«Остановить диктовку», чтобы выключить микрофон.

Распознавание речи Windows

Старый инструмент распознавания речи предлагает более широкие возможности управления, включая команды для навигации по Windows, открытия приложений и нажатия кнопок. Он мощнее, но сложнее в настройке.

Откройте Параметры > Специальные возможности > Речь (Windows 11) или введите «Распознавание речи Windows» в меню «Пуск».
Следуйте инструкциям мастера настройки, которые включают калибровку микрофона и короткое упражнение по обучению голосу.

Для обычной диктовки лучше выбрать «Голосовой ввод». «Распознавание речи Windows» стоит изучить, если вам нужно полное голосовое управление компьютером.

macOS

macOS предлагает системную функцию «Диктовка», а также «Улучшенную диктовку» для использования в автономном режиме.

Включение диктовки

Откройте Системные настройки > Клавиатура.
Найдите раздел Диктовка и включите его.
macOS попросит подтверждение и может загрузить языковую модель.

После включения нажмите клавишу с микрофоном на клавиатуре (на новых Mac) или дважды нажмите Fn (или другое настроенное вами сочетание), чтобы начать диктовку в любом текстовом поле.

Полезные настройки:

Язык: Нажмите на выпадающий список языков, чтобы добавить дополнительные языки диктовки. macOS поддерживает несколько языков одновременно, и движок автоматически определяет, на каком из них вы говорите.
Автопунктуация: Включите, чтобы macOS сама расставляла знаки препинания на основе вашего темпа и интонации.
Сочетание клавиш: Настройте удобный способ активации в настройках диктовки, если двойное нажатие Fn вам не подходит.

По умолчанию macOS Dictation отправляет аудио на серверы Apple для обработки. На компьютерах с Apple Silicon под управлением macOS Ventura или новее доступна обработка на устройстве для поддерживаемых языков, что сохраняет ваши данные локально.

Голосовое управление

Voice Control — это полноценная система голосовых команд macOS. Она позволяет не только диктовать, но и перемещаться, кликать, прокручивать и редактировать текст с помощью голоса.

Откройте Системные настройки > Специальные возможности > Голосовое управление и включите его.

Voice Control использует исключительно обработку на устройстве и работает офлайн. Он предназначен в первую очередь для пользователей, которым требуется полное управление без рук, но писатели и опытные пользователи часто выбирают его за точные команды редактирования, такие как «выделить предыдущее предложение» или «сделать это слово заглавным».

iPhone и iPad

В iOS диктовка встроена с 2011 года. Точность значительно выросла, особенно на устройствах с процессором Apple Neural Engine.

Включение диктовки

Перейдите в Настройки > Основные > Клавиатура.
Включите опцию Включение диктовки.
Подтвердите выбор.

Чтобы использовать ее, откройте любое приложение с текстовым полем и нажмите значок микрофона на клавиатуре. Начните говорить. Снова нажмите на микрофон или значок клавиатуры, чтобы остановить диктовку.

На iPhone и iPad с iOS 16 или новее диктовка и ввод с клавиатуры работают одновременно. Вы можете произнести предложение, вручную исправить слово на клавиатуре, а затем продолжить говорить — и все это без переключения режимов. Этот гибридный ввод — одна из самых недооцененных функций продуктивности в iOS.

Полезные детали:

Эмодзи голосом: Скажите «эмодзи сердце» или «эмодзи большой палец вверх», и iOS вставит соответствующий символ.
Пунктуация: Произносите «точка», «запятая», «вопросительный знак», «восклицательный знак» или «новый абзац» прямо в процессе речи.
Переключение языков: Если у вас установлено несколько клавиатур, диктовка в большинстве случаев автоматически определяет язык, на котором вы говорите.
Обработка на устройстве: Модели iPhone с процессором A12 Bionic или новее обрабатывают диктовку на самом устройстве для поддерживаемых языков, то есть ваша запись не покидает телефон.

Android

Функция преобразования речи в текст на Android работает на базе движка распознавания голоса Google и доступна во всей системе через Gboard или другие клавиатуры.

Включение голосового ввода в Gboard

Gboard — это клавиатура по умолчанию на большинстве Android-смартфонов. Голосовой ввод обычно включен изначально, но вот как его проверить и настроить:

Откройте Настройки > Система > Язык и ввод > Экранная клавиатура > Gboard.
Нажмите Голосовой ввод и убедитесь, что переключатель включен.
Или просто откройте любое текстовое поле и найдите значок микрофона на панели Gboard. Нажмите его, чтобы начать диктовку.

На устройствах Samsung с использованием Samsung Keyboard:

Откройте Настройки > Общие настройки > Настройки клавиатуры Samsung.
Нажмите Голосовой ввод и выберите предпочитаемый движок.

Важные настройки:

Офлайн-распознавание речи: В настройках Gboard перейдите в Голосовой ввод > Офлайн-распознавание речи, чтобы скачать языковые пакеты для использования без интернета. Точность офлайн ниже, но это исключает задержки.
Автопунктуация: Обычно включена по умолчанию в Gboard. Движок ставит точки при естественных паузах и иногда добавляет запятые.
Voice Match: Если точность кажется низкой, заново обучите голосовую модель в разделе Настройки > Google > Настройки для приложений Google > Поиск, Ассистент и голосовое управление > Голос > Voice Match.

Диктовка через Google Assistant

Для быстрого ввода текста вы также можете сказать «Окей, Google, напиши...», а затем произнести сообщение в приложениях, поддерживающих интеграцию с Ассистентом. Это удобно для коротких сообщений, но менее практично для длительной диктовки.

Chromebook

ChromeOS поддерживает диктовку через встроенные функции специальных возможностей и через движок Google в веб-приложениях.

Включение диктовки

Перейдите в Настройки > Специальные возможности > Клавиатура и текстовый ввод.
Включите опцию Диктовка.
В системном трее появится небольшой значок микрофона. Нажмите на него, чтобы начать диктовку в любом текстовом поле.

Диктовка в ChromeOS использует тот же движок Google, что и Android. Точность, поддержка языков и голосовые команды почти идентичны.

Голосовой ввод в Google Документах

Если вы в основном работаете в Google Документах, там есть отдельный встроенный инструмент голосового ввода:

Откройте Google Документ.
Перейдите в Инструменты > Голосовой ввод или нажмите Ctrl + Shift + S.
Нажмите на появившийся значок микрофона слева и начните говорить.

Голосовой ввод в Google Документах поддерживает более 100 языков и включает команды форматирования: «жирный», «курсив», «создать маркированный список», «заголовок 2» и другие. Для серьезной работы с документами на Chromebook это зачастую удобнее системной диктовки.

Почему точность падает после первого предложения

Вы включили диктовку, произнесли предложение, и оно сработало. Затем вы попытались надиктовать целый абзац, и результат превратился в кашу: пропущенные слова, ошибки в похожих по звучанию словах, знаки препинания не на своих местах.

Это типичная ситуация, и причина обычно не в движке распознавания, а в том, как люди говорят, когда диктуют впервые.

Естественная речь полна слов-паразитов, фальстартов, исправлений на ходу и оборванных мыслей. Ваш мозг автоматически отфильтровывает все это, когда слушает другой человек. Но движок преобразования речи в текст транскрибирует все буквально, включая каждое «эм», «э-э», «ой, подождите» и каждую незаконченную фразу.

Три совета, которые мгновенно повысят точность:

Сначала сформулируйте мысль, потом говорите. Сделайте паузу, составьте полное предложение в уме и только тогда произносите его. Эта привычка устраняет большинство ошибок транскрибации.
Проговаривайте знаки препинания явно, пока автопунктуация не подстроится под вас. Говорите «запятая» и «точка» вслух. Это кажется странным первые пять минут, но потом становится автоматическим действием.
Диктуйте короткими фразами, а не потоком. Произнесите 2-3 предложения, сделайте паузу, проверьте текст и продолжайте. Длинные непрерывные потоки перегружают буфер движка и увеличивают количество ошибок.

Встроенные движки хорошо справляются с этими правилами для коротких сообщений и быстрых заметок. Однако для более объемного контента — транскрибации встреч, интервью, лекций или сценариев подкастов — требования к точности растут, и встроенные инструменты начинают показывать свои пределы.

Когда встроенная диктовка достигает своего предела

Системная диктовка на устройствах предназначена для оперативного ввода коротких фрагментов в реальном времени. Вы говорите, она транскрибирует, вы вручную исправляете ошибки и идете дальше. Для СМС или поискового запроса этого достаточно.

Но этот процесс становится неэффективным в ряде случаев:

Длинные тексты: Диктовка статьи на 2000 слов означает исправление ошибок каждые несколько предложений. Постоянные прерывания убивают преимущество в скорости, ради которого все и затевалось.
Предварительно записанное аудио: Встроенная диктовка требует живого ввода с микрофона. Она не может транскрибировать аудиофайл, запись встречи или эпизод подкаста.
Несколько говорящих: Диктовка на устройстве не различает голоса. На встрече или в интервью все превращается в один неразрывный поток текста.
Специализированная лексика: Медицинские термины, юридический жаргон, технические названия продуктов и иностранные слова часто распознаются неверно, а автозамена только усугубляет ситуацию.

И это не редкие случаи. Это именно те ситуации, где преобразование речи в текст приносит больше всего пользы, но именно здесь встроенные инструменты пасуют.

ИИ-преобразование речи в текст для аудиофайлов, встреч и длинных транскрипций

Fish Audio's Speech to Text использует другой подход. Вместо диктовки только через микрофон в реальном времени, сервис обрабатывает аудиофайлы и создает высокоточные транскрипции с помощью нейронных моделей, обученных на самых разных речевых паттернах. Что это дает на практике:

Загрузка любого аудиофайла: MP3, WAV, M4A и другие стандартные форматы. Запишите встречу, лекцию, интервью или подкаст и получите текст, не напечатав ни слова.
Поддержка множества языков: Движок работает с широким спектром языков и может обрабатывать аудио, где спикеры переключаются между языками в процессе разговора.
Высокая точность на длинных записях: Если точность встроенной диктовки падает на длинных текстах, модель STT от Fish Audio сохраняет стабильность на протяжении минут и часов аудио. Нейросетевая архитектура разработана именно для непрерывной транскрибации.
Микрофон не требуется: Вам не нужно говорить в устройство здесь и сейчас. Просто загрузите запись из любого источника и получите готовый текст.

Для создателей контента, журналистов и исследователей рабочий процесс меняется: вместо того чтобы диктовать и постоянно исправлять ошибки, вы просто записываете речь естественным образом, а затем транскрибируете все целиком за один раз.

Доступ к API для разработчиков

Если вы создаете приложение, которому нужна функция преобразования речи в текст, API Fish Audio предоставляет программный доступ к этому движку транскрибации. Варианты использования:

Инструменты для встреч: Автоматическая транскрибация конференц-звонков.
Функции доступности: Титры в реальном времени для видеоплатформ.
Работа с контентом: Пакетная транскрибация подкастов или озвучки видео.
Голосовые интерфейсы: Превращение речи пользователя в команды внутри приложений.

API поддерживает потоковую передачу для приложений реального времени и пакетную обработку для записанных файлов. Подробности и цены доступны на fish.audio/plan.

Заключение

Функция преобразования речи в текст доступна на любой платформе: Win + H на Windows, двойное нажатие Fn на Mac, значок микрофона на iPhone и Android. Включение занимает секунды, и для быстрых сообщений или коротких заметок встроенная диктовка вполне подходит.

Для всего остального встроенные инструменты создают слишком много работы по исправлению ошибок, сводя на нет преимущество в скорости. Если вам нужно транскрибировать записи, протоколировать встречи или переводить длинные аудио в текст, Fish Audio's Speech to Text справится с задачами, для которых обычная диктовка не предназначена. Загрузил, транскрибировал, готово.

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Поделиться этой статьей

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Читать больше от Kyle Cui >