Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться
5 мар. 2026 г.Руководство

Как включить функцию преобразования речи в текст и начать диктовку на любом устройстве

Как включить функцию преобразования речи в текст и начать диктовку на любом устройстве

Большинство людей печатают со скоростью 40 слов в минуту. Говорят же — 130. Это трехкратный разрыв в продуктивности, который вы теряете каждый раз, когда набираете сообщение на смартфоне, медленно печатаете электронное письмо или вручную транскрибируете заметки после встречи.

Преобразование речи в текст, также называемое диктовкой или голосовым вводом, переводит ваши слова в письменный текст в режиме реального времени. Эта функция встроена в каждое современное устройство. Включить ее просто, но для получения точных результатов нужно знать несколько вещей, о которых не пишут на экране настройки.

Windows 10 и 11

В Windows есть два инструмента для работы с речью. «Голосовой ввод» — это легкий инструмент для диктовки, а «Распознавание речи Windows» — более старая и комплексная система.

Включение голосового ввода

«Голосовой ввод» (Voice Typing) — это более быстрый вариант, который Microsoft активно развивает. Он работает в любом текстовом поле системы.

  • Нажмите Win + H, чтобы открыть панель голосового ввода. В верхней части экрана появится небольшая панель с микрофоном.
  • Нажмите на значок микрофона или снова нажмите Win + H, чтобы начать диктовку.
  • Говорите естественно. Windows транскрибирует речь в реальном времени и вставляет текст в место, где находится курсор.

Заметки по первой настройке:

  • Разрешение для микрофона: Windows может запросить доступ к микрофону. Разрешите его, иначе голосовой ввод не будет работать.
  • Онлайн-распознавание речи: Для повышения точности убедитесь, что онлайн-распознавание включено в разделе Параметры > Конфиденциальность и защита > Речь. Облачная модель значительно точнее автономной.
  • Автоматическая пунктуация: Голосовой ввод может сам расставлять точки, запятые и вопросительные знаки. Включите эту опцию через значок шестеренки на панели голосового ввода.

Голосовые команды во время диктовки:

  • «Точка», «запятая», «вопросительный знак», «восклицательный знак» для вставки знаков препинания.
  • «Новая строка» или «новый абзац» для разрыва строк.
  • «Удалить это», чтобы удалить последнюю фразу.
  • «Остановить диктовку», чтобы выключить микрофон.

Распознавание речи Windows

Старый инструмент распознавания речи предлагает более широкие возможности управления, включая команды для навигации по Windows, открытия приложений и нажатия кнопок. Он мощнее, но сложнее в настройке.

  • Откройте Параметры > Специальные возможности > Речь (Windows 11) или введите «Распознавание речи Windows» в меню «Пуск».
  • Следуйте инструкциям мастера настройки, которые включают калибровку микрофона и короткое упражнение по обучению голосу.

Для обычной диктовки лучше выбрать «Голосовой ввод». «Распознавание речи Windows» стоит изучить, если вам нужно полное голосовое управление компьютером.

macOS

macOS предлагает системную функцию «Диктовка», а также «Улучшенную диктовку» для использования в автономном режиме.

Включение диктовки

  • Откройте Системные настройки > Клавиатура.
  • Найдите раздел Диктовка и включите его.
  • macOS попросит подтверждение и может загрузить языковую модель.

После включения нажмите клавишу с микрофоном на клавиатуре (на новых Mac) или дважды нажмите Fn (или другое настроенное вами сочетание), чтобы начать диктовку в любом текстовом поле.

Полезные настройки:

  • Язык: Нажмите на выпадающий список языков, чтобы добавить дополнительные языки диктовки. macOS поддерживает несколько языков одновременно, и движок автоматически определяет, на каком из них вы говорите.
  • Автопунктуация: Включите, чтобы macOS сама расставляла знаки препинания на основе вашего темпа и интонации.
  • Сочетание клавиш: Настройте удобный способ активации в настройках диктовки, если двойное нажатие Fn вам не подходит.

По умолчанию macOS Dictation отправляет аудио на серверы Apple для обработки. На компьютерах с Apple Silicon под управлением macOS Ventura или новее доступна обработка на устройстве для поддерживаемых языков, что сохраняет ваши данные локально.

Голосовое управление

Voice Control — это полноценная система голосовых команд macOS. Она позволяет не только диктовать, но и перемещаться, кликать, прокручивать и редактировать текст с помощью голоса.

  • Откройте Системные настройки > Специальные возможности > Голосовое управление и включите его.

Voice Control использует исключительно обработку на устройстве и работает офлайн. Он предназначен в первую очередь для пользователей, которым требуется полное управление без рук, но писатели и опытные пользователи часто выбирают его за точные команды редактирования, такие как «выделить предыдущее предложение» или «сделать это слово заглавным».

iPhone и iPad

В iOS диктовка встроена с 2011 года. Точность значительно выросла, особенно на устройствах с процессором Apple Neural Engine.

Включение диктовки

  • Перейдите в Настройки > Основные > Клавиатура.
  • Включите опцию Включение диктовки.
  • Подтвердите выбор.

Чтобы использовать ее, откройте любое приложение с текстовым полем и нажмите значок микрофона на клавиатуре. Начните говорить. Снова нажмите на микрофон или значок клавиатуры, чтобы остановить диктовку.

На iPhone и iPad с iOS 16 или новее диктовка и ввод с клавиатуры работают одновременно. Вы можете произнести предложение, вручную исправить слово на клавиатуре, а затем продолжить говорить — и все это без переключения режимов. Этот гибридный ввод — одна из самых недооцененных функций продуктивности в iOS.

Полезные детали:

  • Эмодзи голосом: Скажите «эмодзи сердце» или «эмодзи большой палец вверх», и iOS вставит соответствующий символ.
  • Пунктуация: Произносите «точка», «запятая», «вопросительный знак», «восклицательный знак» или «новый абзац» прямо в процессе речи.
  • Переключение языков: Если у вас установлено несколько клавиатур, диктовка в большинстве случаев автоматически определяет язык, на котором вы говорите.
  • Обработка на устройстве: Модели iPhone с процессором A12 Bionic или новее обрабатывают диктовку на самом устройстве для поддерживаемых языков, то есть ваша запись не покидает телефон.

Android

Функция преобразования речи в текст на Android работает на базе движка распознавания голоса Google и доступна во всей системе через Gboard или другие клавиатуры.

Включение голосового ввода в Gboard

Gboard — это клавиатура по умолчанию на большинстве Android-смартфонов. Голосовой ввод обычно включен изначально, но вот как его проверить и настроить:

  • Откройте Настройки > Система > Язык и ввод > Экранная клавиатура > Gboard.
  • Нажмите Голосовой ввод и убедитесь, что переключатель включен.
  • Или просто откройте любое текстовое поле и найдите значок микрофона на панели Gboard. Нажмите его, чтобы начать диктовку.

На устройствах Samsung с использованием Samsung Keyboard:

  • Откройте Настройки > Общие настройки > Настройки клавиатуры Samsung.
  • Нажмите Голосовой ввод и выберите предпочитаемый движок.

Важные настройки:

  • Офлайн-распознавание речи: В настройках Gboard перейдите в Голосовой ввод > Офлайн-распознавание речи, чтобы скачать языковые пакеты для использования без интернета. Точность офлайн ниже, но это исключает задержки.
  • Автопунктуация: Обычно включена по умолчанию в Gboard. Движок ставит точки при естественных паузах и иногда добавляет запятые.
  • Voice Match: Если точность кажется низкой, заново обучите голосовую модель в разделе Настройки > Google > Настройки для приложений Google > Поиск, Ассистент и голосовое управление > Голос > Voice Match.

Диктовка через Google Assistant

Для быстрого ввода текста вы также можете сказать «Окей, Google, напиши...», а затем произнести сообщение в приложениях, поддерживающих интеграцию с Ассистентом. Это удобно для коротких сообщений, но менее практично для длительной диктовки.

Chromebook

ChromeOS поддерживает диктовку через встроенные функции специальных возможностей и через движок Google в веб-приложениях.

Включение диктовки

  • Перейдите в Настройки > Специальные возможности > Клавиатура и текстовый ввод.
  • Включите опцию Диктовка.
  • В системном трее появится небольшой значок микрофона. Нажмите на него, чтобы начать диктовку в любом текстовом поле.

Диктовка в ChromeOS использует тот же движок Google, что и Android. Точность, поддержка языков и голосовые команды почти идентичны.

Голосовой ввод в Google Документах

Если вы в основном работаете в Google Документах, там есть отдельный встроенный инструмент голосового ввода:

  • Откройте Google Документ.
  • Перейдите в Инструменты > Голосовой ввод или нажмите Ctrl + Shift + S.
  • Нажмите на появившийся значок микрофона слева и начните говорить.

Голосовой ввод в Google Документах поддерживает более 100 языков и включает команды форматирования: «жирный», «курсив», «создать маркированный список», «заголовок 2» и другие. Для серьезной работы с документами на Chromebook это зачастую удобнее системной диктовки.

Почему точность падает после первого предложения

Вы включили диктовку, произнесли предложение, и оно сработало. Затем вы попытались надиктовать целый абзац, и результат превратился в кашу: пропущенные слова, ошибки в похожих по звучанию словах, знаки препинания не на своих местах.

Это типичная ситуация, и причина обычно не в движке распознавания, а в том, как люди говорят, когда диктуют впервые.

Естественная речь полна слов-паразитов, фальстартов, исправлений на ходу и оборванных мыслей. Ваш мозг автоматически отфильтровывает все это, когда слушает другой человек. Но движок преобразования речи в текст транскрибирует все буквально, включая каждое «эм», «э-э», «ой, подождите» и каждую незаконченную фразу.

Три совета, которые мгновенно повысят точность:

  • Сначала сформулируйте мысль, потом говорите. Сделайте паузу, составьте полное предложение в уме и только тогда произносите его. Эта привычка устраняет большинство ошибок транскрибации.
  • Проговаривайте знаки препинания явно, пока автопунктуация не подстроится под вас. Говорите «запятая» и «точка» вслух. Это кажется странным первые пять минут, но потом становится автоматическим действием.
  • Диктуйте короткими фразами, а не потоком. Произнесите 2-3 предложения, сделайте паузу, проверьте текст и продолжайте. Длинные непрерывные потоки перегружают буфер движка и увеличивают количество ошибок.

Встроенные движки хорошо справляются с этими правилами для коротких сообщений и быстрых заметок. Однако для более объемного контента — транскрибации встреч, интервью, лекций или сценариев подкастов — требования к точности растут, и встроенные инструменты начинают показывать свои пределы.

Когда встроенная диктовка достигает своего предела

Системная диктовка на устройствах предназначена для оперативного ввода коротких фрагментов в реальном времени. Вы говорите, она транскрибирует, вы вручную исправляете ошибки и идете дальше. Для СМС или поискового запроса этого достаточно.

Но этот процесс становится неэффективным в ряде случаев:

  • Длинные тексты: Диктовка статьи на 2000 слов означает исправление ошибок каждые несколько предложений. Постоянные прерывания убивают преимущество в скорости, ради которого все и затевалось.
  • Предварительно записанное аудио: Встроенная диктовка требует живого ввода с микрофона. Она не может транскрибировать аудиофайл, запись встречи или эпизод подкаста.
  • Несколько говорящих: Диктовка на устройстве не различает голоса. На встрече или в интервью все превращается в один неразрывный поток текста.
  • Специализированная лексика: Медицинские термины, юридический жаргон, технические названия продуктов и иностранные слова часто распознаются неверно, а автозамена только усугубляет ситуацию.

И это не редкие случаи. Это именно те ситуации, где преобразование речи в текст приносит больше всего пользы, но именно здесь встроенные инструменты пасуют.

ИИ-преобразование речи в текст для аудиофайлов, встреч и длинных транскрипций

Fish Audio's Speech to Text использует другой подход. Вместо диктовки только через микрофон в реальном времени, сервис обрабатывает аудиофайлы и создает высокоточные транскрипции с помощью нейронных моделей, обученных на самых разных речевых паттернах. fish-logo Что это дает на практике:

  • Загрузка любого аудиофайла: MP3, WAV, M4A и другие стандартные форматы. Запишите встречу, лекцию, интервью или подкаст и получите текст, не напечатав ни слова.
  • Поддержка множества языков: Движок работает с широким спектром языков и может обрабатывать аудио, где спикеры переключаются между языками в процессе разговора.
  • Высокая точность на длинных записях: Если точность встроенной диктовки падает на длинных текстах, модель STT от Fish Audio сохраняет стабильность на протяжении минут и часов аудио. Нейросетевая архитектура разработана именно для непрерывной транскрибации.
  • Микрофон не требуется: Вам не нужно говорить в устройство здесь и сейчас. Просто загрузите запись из любого источника и получите готовый текст.

Для создателей контента, журналистов и исследователей рабочий процесс меняется: вместо того чтобы диктовать и постоянно исправлять ошибки, вы просто записываете речь естественным образом, а затем транскрибируете все целиком за один раз.

Доступ к API для разработчиков

Если вы создаете приложение, которому нужна функция преобразования речи в текст, API Fish Audio предоставляет программный доступ к этому движку транскрибации. Варианты использования:

  • Инструменты для встреч: Автоматическая транскрибация конференц-звонков.
  • Функции доступности: Титры в реальном времени для видеоплатформ.
  • Работа с контентом: Пакетная транскрибация подкастов или озвучки видео.
  • Голосовые интерфейсы: Превращение речи пользователя в команды внутри приложений.

API поддерживает потоковую передачу для приложений реального времени и пакетную обработку для записанных файлов. Подробности и цены доступны на fish.audio/plan.

Заключение

Функция преобразования речи в текст доступна на любой платформе: Win + H на Windows, двойное нажатие Fn на Mac, значок микрофона на iPhone и Android. Включение занимает секунды, и для быстрых сообщений или коротких заметок встроенная диктовка вполне подходит.

Для всего остального встроенные инструменты создают слишком много работы по исправлению ошибок, сводя на нет преимущество в скорости. Если вам нужно транскрибировать записи, протоколировать встречи или переводить длинные аудио в текст, Fish Audio's Speech to Text справится с задачами, для которых обычная диктовка не предназначена. Загрузил, транскрибировал, готово.

Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Читать больше от Kyle Cui

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти