Полное руководство по преобразованию текста в речь на Mac: настройки, использование и способы отключения

28 февр. 2026 г.

Kyle Cui, AI Systems EngineerРуководство

Полное руководство по преобразованию текста в речь на Mac: настройки, использование и способы отключения

Вы закончили сценарий для подкаста на 2000 слов в Pages, нажали сочетание клавиш для проговаривания текста и услышали голос, который звучит так, будто его записали в 2009 году внутри микроволновки. Вы залезли в Системные настройки, нашли шесть разных меню, где упоминается «речь» или «озвучивание контента», изменили три параметра и каким-то образом сделали только хуже. Теперь ваш Mac озвучивает каждое уведомление, и вы не знаете, как это выключить.

В macOS функция преобразования текста в речь встроена с начала 2000-х годов. Apple значительно улучшила её за последние несколько лет, но настройки разбросаны по нескольким панелям, поведение меняется от версии к версии, а разрыв между возможностями встроенных голосов и реальными потребностями создателей контента остается огромным. Хорошая новость: как только вы поймете, где что находится, настройка займет около 5 минут. А когда вы перерастете встроенные возможности, путь к обновлению окажется проще, чем многие ожидают.

В macOS есть 3 отдельные системы TTS. Большинство находит только одну.

Это основной момент, вызывающий путаницу. У Apple нет единого переключателя «текст в речь». Есть три разные системы, которые пересекаются, и каждая управляется из своего раздела:

Система	Что она делает	Где найти	Основное назначение
Озвучивание контента	Читает вслух выделенный текст или весь экран	Системные настройки > Универсальный доступ > Озвучивание контента	Чтение статей, корректура и доступность
VoiceOver	Полноэкранный диктор для пользователей с нарушениями зрения	Системные настройки > Универсальный доступ > VoiceOver	Навигация, доступность
Голос Siri	Озвучивает ответы Siri и диктовку	Системные настройки > Siri	Ответы виртуального ассистента

Большинство пользователей, ищущих «текст в речь на Mac», нуждаются в Озвучивании контента. Это функция, которая читает выделенный текст в любом приложении с помощью сочетания клавиш. VoiceOver — это полноценный инструмент доступности, который комментирует всё на экране, включая кнопки, меню и заголовки окон. Включать VoiceOver, когда вам нужно просто прочитать текст, — это всё равно что вызывать пожарную машину, чтобы зажечь свечу.

Настройка озвучивания контента: 5-минутный гайд

Для macOS Sonoma (14) и новее

Откройте Системные настройки (меню Apple > Системные настройки).
Нажмите Универсальный доступ в боковой панели.
Выберите Озвучивание контента.
Включите переключатель Проговаривание выбранного текста.
Выберите предпочтительный голос в выпадающем списке «Системный голос».
Отрегулируйте ползунок скорости речи по своему вкусу.
При желании включите Проговаривание объекта под указателем, если вам нужна функция чтения при наведении.

Для macOS Ventura (13) и более старых версий

Путь в старых версиях немного отличается:

Откройте Системные настройки (System Preferences).
Нажмите Универсальный доступ.
Выберите Озвучивание контента в левой панели.
Установите флажок Проговаривание выбранного текста.
Нажмите на выпадающий список Системный голос, чтобы выбрать голос.
Отрегулируйте скорость речи.

Сочетание клавиш

Когда функция включена, выделите любой текст в любом приложении и нажмите Option + Esc, чтобы услышать его. Это сочетание можно настроить:

В настройках «Озвучивания контента» нажмите Options (или значок «i») рядом с пунктом «Проговаривание выбранного текста».
Установите удобную вам комбинацию клавиш.
Включите или выключите экранный контроллер (маленькая плавающая панель с кнопками воспроизведения, паузы и пропуска).

Экранный контроллер стоит включить. Он позволяет ставить на паузу, возобновлять чтение, перематывать и менять скорость, не возвращаясь каждый раз в настройки.

Выбор правильного голоса (у Apple их больше, чем вы думаете)

Большинство пользователей Mac слышали только голос «Милена» или стандартный голос Siri. На самом деле Apple предлагает десятки голосов на разных языках, и разница в качестве между базовыми и премиальными версиями огромна.

Как скачать премиальные голоса

Перейдите в Системные настройки > Универсальный доступ > Озвучивание контента.
Нажмите на выпадающий список Системный голос.
Выберите Управлять голосами....
Найдите нужный язык. Премиальные голоса отмечены иконкой загрузки.
Нажмите на стрелку загрузки рядом с голосом. Файлы весят от 150 МБ до 900 МБ в зависимости от уровня качества.

Уровни качества голосов

Apple разделяет голоса на несколько категорий:

Компактные голоса: Маленький размер, роботизированное звучание. Подходят для коротких системных уведомлений, но не для чтения чего-то длиннее абзаца.
Стандартные голоса: Среднее качество. Приемлемы для проверки коротких документов, но в длинных текстах заметен неестественный ритм.
Премиальные/Улучшенные голоса: Самые тяжелые файлы, но звучат заметно естественнее. Они используют синтез на основе нейронных сетей и звучат ближе к реальному человеку. В эту категорию входят «Milena (Premium)», «Yuri (Premium)» и другие.

Однако даже у премиальных голосов есть предел. Они звучат хорошо в течение 2-3 минут. После этого просодия (интонация) выравнивается, эмоциональное разнообразие исчезает, и голос переходит в монотонный ритм, который трудно слушать долго. Это не баг, а ограничение размера моделей, которые Apple может практически разместить на устройстве.

Использование TTS в приложениях на Mac

После активации «Озвучивания контента» сочетание Option + Esc работает почти во всех приложениях Mac:

Pages и TextEdit: Выделите текст, нажмите клавиши. Работает надежно: голос читает фрагмент и останавливается.

Safari и Chrome: Выделите текст на любой веб-странице и нажмите сочетание клавиш. Полезно для прослушивания статей, пока вы заняты чем-то другим. В Safari также есть режим Для чтения (Reader Mode), который убирает лишнее форматирование перед озвучкой.

Preview (PDF): Выделите текст в PDF и запустите озвучку. Качество зависит от того, есть ли в PDF текстовый слой. Отсканированные документы без распознавания текста (OCR) читаться не будут.

Почта: Выделите тело письма, нажмите клавиши. Удобно для длинных писем, которые проще прослушать.

Терминал: Да, вы можете запустить TTS из командной строки. Введите say "Ваш текст", и macOS прочитает его системным голосом. Для длинных текстов: say -f /путь/к/файлу.txt. Вы даже можете экспортировать в аудио: say -f script.txt -o output.aiff. Последняя команда — это самый простой встроенный способ экспорта аудио в macOS.

Трюк в Терминале, о котором мало кто знает

Команда say принимает флаг -v для выбора любого установленного голоса:

say -v "Milena (Premium)" "Это тест премиального голоса."

say -v "?"

Вторая команда выводит список всех голосов, установленных в системе. Это самый быстрый способ прослушать их без навигации по настройкам.

Как отключить текст в речь (если он не замолкает)

Этот раздел необходим, потому что многие пользователи случайно включают VoiceOver или проговаривание и не знают, как это прекратить. Если ваш Mac комментирует каждое действие, вот решение:

Если запущен VoiceOver (Mac озвучивает каждый клик и кнопку)

Немедленно нажмите Cmd + F5. Это выключает VoiceOver. На MacBook с Touch Bar или новых моделях можно также трижды нажать кнопку Touch ID.

Если проговаривание текста не останавливается

Снова нажмите Option + Esc, чтобы остановить текущее чтение. Если это не помогает, щелкните в любом месте за пределами выделенного текста.

Если Mac озвучивает уведомления или оповещения

Перейдите в Системные настройки > Универсальный доступ > Озвучивание контента.
Выключите Проговаривание объявлений.
Также проверьте, выключен ли пункт Проговаривание объекта под указателем, если вам не нужно чтение при наведении.

Чек-лист для полного отключения

Чтобы полностью заставить TTS замолчать:

Озвучивание контента: Системные настройки > Универсальный доступ > Озвучивание контента > Выключить всё.
VoiceOver: Системные настройки > Универсальный доступ > VoiceOver > Выключить (или Cmd + F5).
Голосовые ответы Siri: Системные настройки > Siri > Ответы Siri > Выкл.
Звуковые сигналы: Системные настройки > Звук > Снимите флажок «Воспроизводить звук при запуске» и отрегулируйте громкость оповещений.

После этого ваш Mac будет молчать, пока вы сами не запустите озвучку.

Где возможности macOS заканчиваются (и что делать дальше)

Встроенные голоса Apple хороши для двух вещей: быстрой проверки коротких текстов и специальных возможностей. Для всего остального вы столкнетесь с жесткими ограничениями:

Нет настройки эмоций: Вы не можете изменить акценты или темп более детально, чем одним ползунком скорости. Голос читает шутку и трагедию с одинаковой интонацией.
Ограниченный выбор: Даже со всеми скачанными голосами у вас будет всего несколько качественных вариантов. Для контента с определенным тоном или характером этого мало.
Нет клонирования голоса: Вы не можете создать голос, который звучит как ваш собственный.
Примитивный экспорт: Команда say экспортирует в формат AIFF, но нет встроенного способа генерировать MP3 или WAV с нормализацией для подкастов.
Падение качества на других языках: Премиальные голоса Apple хороши в английском, но на многих других языках они звучат гораздо более роботизированно.
Отсутствие стабильности в длинных текстах: Через 2-3 минуты просодия «плывет», и слушать становится утомительно. 20-минутный сценарий в конце будет звучать заметно хуже, чем в начале.

Эти ограничения не важны для проверки опечаток в почте. Но они критичны, если вы делаете видео для YouTube, озвучиваете курс или переводите текст в аудио для аудитории.

От корректуры на Mac к профессиональному производству аудио

Когда ваши потребности выходят за рамки встроенных голосов, рабочий процесс меняется просто: вы продолжаете писать на Mac, но генерируете аудио через специализированную платформу ИИ.

Fish Audio закрывает именно те пробелы, которые оставляет macOS. Вот что меняется при переходе:

Более 2 000 000 голосов вместо 20. Библиотека голосов Fish Audio классифицирована по языкам, акцентам, тонам и сценариям использования. Нужен теплый разговорный голос для туториала? Отфильтруйте его. Нужен четкий японский диктор? Он там есть. Выбор в 100 000 раз больше, чем предлагает Apple.

Стабильная интонация в длинных сценариях. Архитектура моделей Fish Audio справляется с эмоциональным разнообразием на протяжении всего контента. 15-минутная озвучка сохраняет свой характер от начала до конца, без монотонного дрейфа. Вопросы звучат как вопросы, а ударения стоят там, где нужно.

Клонирование голоса за 15 секунд. Хотите, чтобы аудио звучало вашим голосом? Загрузите 15-секундный образец, и Fish Audio создаст клон, который сохранит вашу индивидуальность в любом тексте. Apple не предлагает ничего подобного.

Более 13 языков без потери качества. Fish Audio поддерживает произношение на уровне носителя во всем наборе языков. Голос, звучащий естественно на английском, остается таким же на испанском, китайском, японском или арабском.

Готовые к публикации файлы. Генерируйте и скачивайте файлы MP3 или WAV, готовые для YouTube, подкастов или учебных платформ. Никаких танцев с бубном в Терминале или конвертации из AIFF в MP3.

Рабочий процесс современного креатора на Mac

Напишите сценарий в Pages, Google Docs или любом текстовом редакторе.
Быстро проверьте его с помощью «Озвучивания контента» (Option + Esc), чтобы найти корявые фразы.
Скопируйте готовый текст и вставьте его в fish.audio/text-to-speech.
Выберите голос из библиотеки (или используйте свой клон).
Настройте эмоции и темп в соответствии с вашим контентом.
Сгенерируйте и скачайте аудиофайл.
Добавьте в проект: Final Cut Pro, Logic Pro, GarageBand или любой другой редактор.

Такой подход оставляет TTS на macOS для того, в чем она хороша (бесплатная мгновенная проверка), и использует Fish Audio для того, что действительно должно звучать профессионально.

Стоимость

Fish Audio предлагает бесплатный уровень, достаточный для тестирования реальных сценариев. Платные тарифы начинаются от 11 долларов в месяц за 250 000 кредитов, что дает до 200 минут (~3 ч 20 мин) генерации S1 или до 400 минут (~6 ч 40 мин) генерации v1.5 или v1.6. Для сравнения: TTS на macOS бесплатна, но не позволяет экспортировать качественные файлы. Живой диктор для 15 часов контента стоил бы от 3 000 до 15 000 долларов. Полный расчет цен здесь.

Заключение

В macOS скрыта вполне достойная система преобразования текста в речь (TTS). Когда вы знаете, что «Озвучивание контента» — это именно та функция, которая вам нужна, что Option + Esc — это горячая клавиша, а в системе есть премиальные голоса, встроенные средства Mac отлично справляются с быстрой корректурой. А если VoiceOver вдруг начнет озвучивать всё подряд, Cmd + F5 станет вашей кнопкой спасения.

Но встроенные голоса создавались для доступности и системных уведомлений, а не для продакшена. Как только вам нужно аудио, которое люди будут слушать дольше двух минут, голоса, соответствующие вашему бренду, или мультиязычный контент без роботизированного акцента — возможностей Apple становится недостаточно. Пишите на Mac, проверяйте с помощью «Озвучивания контента» и создавайте шедевры с Fish Audio. Используйте привычный инструмент для письма в паре с движком, созданным для звука, который ваша аудитория захочет слушать.

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Поделиться этой статьей

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Читать больше от Kyle Cui >