Полное руководство по преобразованию речи в текст на Mac: настройки и использование голосового ввода macOS

28 февр. 2026 г.

Kyle Cui, AI Systems EngineerРуководство

Полное руководство по преобразованию речи в текст на Mac: настройки и использование голосового ввода macOS

Восемь часов набора текста, 4000 слов — и ваши запястья напоминают вам, что у них есть предел. Вы включаете функцию преобразования речи в текст на Mac (Диктовку), начинаете говорить и видите, как первые два предложения появляются идеально. Затем вы делаете паузу на 30 секунд, чтобы подумать, и Диктовка отключается сама по себе. Вы запускаете ее снова, на этот раз говорите быстрее и замечаете, что она пишет случайные слова с заглавной буквы и игнорирует каждую запятую. К третьему перезапуску вы тратите больше времени на борьбу с инструментом, чем потратили бы на набор текста.

Встроенная функция Диктовки на Mac способна на большее, чем осознает большинство пользователей, но ее поведение по умолчанию не всегда интуитивно понятно, настройки разбросаны по нескольким системным панелям, а самые полезные функции не афишируются. Среднестатистический человек печатает 40 слов в минуту. Голосовой ввод на Mac фиксирует 130–160 слов в минуту. Этот 3–4-кратный прирост скорости становится реальным при правильной настройке, но он бесполезен, если Диктовка автоматически останавливается после 30 секунд молчания.

Диктовка на Mac в 2026 году: два движка, один запутанный переключатель

В настоящее время Apple поставляет в macOS две системы диктовки, и различия между ними влияют на точность, конфиденциальность и то, как долго вы можете диктовать без перерыва.

Функция	Улучшенная диктовка (на устройстве)	Стандартная диктовка (на сервере)
Обработка	На вашем Mac, интернет не требуется	Серверы Apple, требуется интернет
Непрерывная диктовка	Да, без ограничений по времени	Автоматически останавливается после пауз
Конфиденциальность	Аудио никогда не покидает ваше устройство	Аудио отправляется в Apple для обработки
Точность	Очень хорошая для поддерживаемых языков	Немного лучше для сложных случаев
Память	Загрузка 1-2 ГБ на язык	Локальное хранилище не требуется
Доступность	macOS Ventura 13+ с Apple Silicon	Все версии macOS

На компьютерах Mac с процессором Apple Silicon под управлением macOS Ventura или более поздней версии диктовка на устройстве включена по умолчанию. Она обрабатывает речь локально с помощью Neural Engine, поэтому время ожидания не истекает, не требуется Wi-Fi, а ваше аудио не отправляется на серверы Apple.

На старых компьютерах Mac с процессором Intel вы ограничены диктовкой на базе сервера, которая требует подключения к интернету и склонна к автоматической остановке после коротких пауз. Именно это поведение автостопа расстраивает большинство пользователей, которые пробуют диктовку один раз и сдаются.

Если вы не уверены, какую версию используете, проверьте Системные настройки > Клавиатура > Диктовка. Если вы видите упоминание «Диктовка на устройстве», значит, вы используете локальный движок.

Настройка Диктовки: правильный путь (не самый очевидный)

Большинство людей находят Диктовку случайно, когда нажимают клавишу микрофона на клавиатуре. Настройка проста, но есть два неочевидных параметра, которые кардинально влияют на результат.

Базовая настройка

Откройте Системные настройки (меню Apple > Системные настройки)
Нажмите Клавиатура на боковой панели
Прокрутите вниз до раздела Диктовка и включите ее
Выберите Язык (можно добавить несколько)
Установите Сочетание клавиш (по умолчанию — двойное нажатие клавиши Fn, но также доступны варианты «Нажать Fn» или собственное сочетание)
При появлении запроса загрузите модель распознавания речи на устройстве для вашего языка

Две настройки, которые большинство пропускает

Автопунктуация. Начиная с macOS Sonoma, Apple включила автоматическую пунктуацию по умолчанию. Диктовка вставляет точки, запятые и вопросительные знаки на основе интонации вашей речи, без необходимости произносить «точка» или «запятая» вслух. Если это не работает, убедитесь, что вы используете macOS 14 или новее и что выбран поддерживаемый язык (автопунктуация пока поддерживает не все языки).

Источник микрофона. По умолчанию macOS использует тот микрофон, который настроен в системе. Если точность низкая, проблема часто в оборудовании, а не в ПО. Перейдите в Системные настройки > Звук > Вход и убедитесь, что выбран лучший микрофон. Даже недорогой USB-микрофон, расположенный близко ко рту, часто повышает точность диктовки по сравнению со встроенным.

Как правильно диктовать на Mac (по приложениям)

После включения Диктовки активация работает везде одинаково: нажмите сочетание клавиш (по умолчанию Fn дважды), начните говорить, нажмите сочетание клавиш еще раз, чтобы остановить. Но поведение в разных приложениях немного отличается.

Pages и TextEdit

Самый чистый опыт диктовки на Mac. Поместите курсор, активируйте голосовой ввод и говорите. Текст появляется в режиме реального времени. Вы можете диктовать непрерывно, переключаясь между набором текста и речью. В macOS Sonoma и более новых версиях вам не нужно останавливать Диктовку, чтобы внести быструю правку с клавиатуры.

Заметки

Хорошо подходит для мозгового штурма и заметок со встреч. Полезный трюк: создайте новую заметку, запустите Диктовку и используйте ее как голосовой черновик. Заметки синхронизируются с iCloud, поэтому продиктованный текст сразу доступен на вашем iPhone и iPad.

Почта

Диктовка на Mac работает в окне создания письма. Удобно для длинных ответов, когда печатать лень. Один нюанс: если вы диктуете URL-адрес или адрес электронной почты, точность значительно падает. Проговаривайте их по буквам или вводите вручную.

Safari и Chrome (текстовые поля)

Диктовка работает в любом текстовом поле в браузере, включая Google Docs, Notion, Slack и социальные сети. Тем не менее, веб-редакторы текста иногда по-разному обрабатывают вставку в реальном времени, что может вызвать «прыжки» курсора. Если вы заметили, что текст появляется не в том месте, кликните мышью, чтобы изменить положение курсора, и перезапустите Диктовку.

Терминал

Технически Диктовка работает в Терминале, но это непрактично. Синтаксис команд, флаги и пути к файлам плохо переводятся в распознавание речи. Для Терминала лучше придерживаться набора текста.

Голосовые команды, превращающие Диктовку в настоящее редактирование

Большинство пользователей Mac диктуют текст, а затем переключаются на клавиатуру и мышь, чтобы все исправить. Это потеря половины эффективности. macOS поддерживает голосовые команды для пунктуации, форматирования и базового редактирования, устраняя большую часть работы после диктовки.

Пунктуация (произносите во время диктовки):

«Точка»
«Запятая»
«Вопросительный знак»
«Восклицательный знак»
«Двоеточие» / «Точка с запятой»
«Открыть кавычки» ... «Закрыть кавычки»
«Открыть скобку» ... «Закрыть скобку»
«Тире» (вставляет дефис)
«Многоточие»

Управление строками и абзацами:

«Новая строка» (переход на следующую строку)
«Новый абзац» (вставка разрыва абзаца)
«Клавиша Tab»

Команды редактирования:

«Выбрать предыдущее слово» / «Выбрать следующее слово»
«Выбрать все»
«Удалить это» (удаляет последнюю продиктованную фразу)
«Отменить»
«Включить все прописные» ... «Выключить все прописные»
«Цифра [число]» (принудительный числовой формат, например, «цифра 5» → 5 вместо «пять»)

Важный момент, который многие не осознают: в macOS Sonoma и более поздних версиях вы можете смешивать ввод текста и диктовку в реальном времени. Продиктуйте абзац, кликните мышью в другом месте, введите исправление, а затем возобновите диктовку. Старое ограничение «либо диктовка, либо ввод текста» в новых системах отсутствует.

5 факторов, убивающих точность (и как исправить каждый из них)

Если точность Диктовки на Mac кажется ниже ожидаемой, виноват один из этих пяти факторов.

1. Встроенный микрофон ноутбука в шумной комнате. Самый большой убийца точности. Микрофоны MacBook предназначены для звонков FaceTime, а не для непрерывной диктовки. Конденсаторный USB-микрофон ($15-30), расположенный в 15-20 см от рта, повысит точность с 85% до 95%+ в тихой обстановке.

2. Слишком быстрая речь без пауз. Диктовка обрабатывает речь фрагментами. Если вы произносите предложения без естественных пауз, модель теряет границы контекста и ошибается в словах. Говорите в темпе беседы с паузами в 0,5 секунды между предложениями. Это медленнее вашей обычной речи, но быстрее, чем тщательное проговаривание каждого слога.

3. Нестандартный акцент или диалект. Модель Apple хорошо справляется с основными акцентами английского языка, но испытывает трудности с сильными региональными диалектами. Обработка на устройстве, как правило, немного более снисходительна, чем серверная, но разрыв все равно заметен для носителей менее распространенных акцентов.

4. Проникновение фонового звука. Музыка, телевизор, разговоры других людей. Даже при низкой громкости посторонние звуки путают модель. Используйте наушники для прослушивания и оставляйте канал микрофона чистым только для вашего голоса.

5. Отсутствие обучения системы. macOS со временем учится на ваших паттернах диктовки, но только если вы исправляете ошибки с помощью клавиатуры (а не путем повторной диктовки поверх них). Когда Диктовка ошибается в слове, нажмите на него, введите исправление и продолжайте. За дни и недели точность улучшится именно для вашего словарного запаса и особенностей речи.

Где возможности Диктовки Mac заканчиваются (и что использовать вместо нее)

Диктовка на Mac действительно хороша для своей цели: превращения живой речи в текст в реальном времени для одного говорящего и одного микрофона. Но у нее есть жесткие границы.

Нет транскрибации аудиофайлов. Вы не можете загрузить в Диктовку MP3, запись Zoom или голосовую заметку. Она обрабатывает только живой вход с микрофона. Если у вас есть запись интервью, лекции или встречи, Диктовка здесь не поможет.

Нет идентификации говорящих. Диктовка не понимает, кто именно говорит. Если вы пытаетесь транскрибировать интервью с двумя участниками, воспроизводя его через динамики, вы получите сплошную стену текста без меток говорящих.

Один язык за сессию. Вы можете диктовать на английском или русском, но не на обоих сразу в одной сессии. Для переключения языков нужно остановить Диктовку, изменить настройки языка и запустить ее снова. Для билингвов или мультиязычного контента это серьезная помеха.

Нет меток времени. Диктовка выдает обычный текст. Нет возможности получить метки времени для ссылки на аудио, что важно для журналистов и исследователей.

Предел точности при несовершенном аудио. Диктовка предполагает чистую речь прямо в микрофон. Как только качество звука падает (записи на телефон, эхо в комнате, шум улицы), точность снижается до уровня, когда редактирование занимает больше времени, чем набор с нуля.

От живой диктовки к полноценной транскрибации с Fish Audio

Когда ваши потребности выходят за рамки «записи собственных мыслей» и переходят к «транскрибации записанного аудио», специализированный инструмент для перевода речи в текст подхватывает работу там, где Mac Диктовка останавливается.

Speech to Text от Fish Audio создан для сценариев, с которыми macOS не справляется. Вот что меняется:

Загружайте любой аудиофайл. MP3, WAV, M4A, записи интервью, экспорт из Zoom, голосовые заметки, эпизоды подкастов. Загрузите файл — получите текст. Никаких уловок с воспроизведением в реальном времени или сложной маршрутизации аудио. В пакетном режиме скорость обработки обычно составляет около 0,3–0,5 от длительности аудио (например, 10-минутный файл может быть готов через ~3–5 минут).

Точность, которая выдерживает реальные условия. Модель Fish Audio обучена на различных условиях записи, включая аудио телефонного качества, эхо, фоновый шум и наложение голосов. Разрыв в точности между студийной записью и интервью в кафе здесь гораздо меньше.

Мультиязычная транскрибация без переключения сессий. Fish Audio поддерживает более 100 языков и диалектов. Модель автоматически обрабатывает переключение языков (code-switching) внутри одного файла, например, между английским и русским, не требуя раздельных сессий.

Практический рабочий процесс для пользователей Mac:

Живые черновики и мозговой штурм: Используйте Диктовку на Mac. Это бесплатно, встроено и отлично подходит для одиночной работы в тихой комнате. Нажмите Fn дважды, говорите, готово.
Транскрибация записанного аудио: Используйте Fish Audio STT. Загрузите файл, получите чистый текст и вставьте его в свой текстовый редактор на Mac.
Создание аудио из готового текста: Используйте Fish Audio TTS с более чем 2 000 000 голосов, 15-секундным клонированием голоса и поддержкой 8 языков.

Эта комбинация закрывает весь цикл «речь-текст-речь». Диктовка на Mac берет на себя живой ввод, а Fish Audio — всё, что требует обработки файлов, мультиязычности или студийного качества на выходе. Эти инструменты дополняют друг друга.

Стоимость

Бесплатный уровень Fish Audio достаточно щедр, чтобы протестировать его на реальных записях. Платные планы начинаются от $11 в месяц за 600 000 символов вывода TTS, включая использование STT. Для сравнения: профессиональные услуги транскрибации стоят от $1 до $3 за минуту аудио. Транскрипт 60-минутного интервью обойдется в $60-180 и займет 24-48 часов. Fish Audio обработает тот же файл менее чем за 2 минуты. Полные цены здесь.

Заключение

Диктовка на Mac — это самая недооцененная функция повышения производительности в macOS. Настройте ее правильно (нужный микрофон, движок на устройстве, автопунктуация), выучите десять голосовых команд, и вы будете создавать контент в 3–4 раза быстрее, чем при обычном наборе текста.

Чего она не умеет, так это транскрибировать записи, работать с несколькими языками одновременно или обрабатывать аудио с помехами. Для таких задач лучше всего оставить Диктовку Mac для живого ввода и добавить Fish Audio для всего остального: транскрибации файлов и профессиональной генерации голоса. Начните с бесплатного уровня и протестируйте его на любой записи, которая давно ждет своего часа в приложении «Голосовые заметки».

Часто задаваемые вопросы

Перейдите в Системные настройки > Клавиатура > Диктовка и переключите тумблер в положение «Вкл».

Если у вас Mac с процессором Apple Silicon и macOS Ventura или новее, вы можете использовать диктовку на устройстве, которая работает без подключения к интернету.

Вы можете либо включить «Автопунктуацию» в настройках диктовки, либо просто произносить названия знаков препинания («запятая», «точка») во время речи.

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Поделиться этой статьей

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Читать больше от Kyle Cui >