Mac 텍스트 음성 변환(TTS) 완벽 가이드: 설정, 사용법 및 비활성화 방법

2026년 2월 28일

Mac 텍스트 음성 변환(TTS) 완벽 가이드: 설정, 사용법 및 비활성화 방법

Pages에서 2,000단어 분량의 팟캐스트 스크립트를 마친 후, '선택 항목 말하기' 단축키를 눌렀는데 2009년 마이크로웨이브 안에서 녹음된 것 같은 목소리가 흘러나온 적이 있나요? 시스템 설정을 뒤져 '말하기'나 '콘텐츠 말하기'가 언급된 6개의 서로 다른 메뉴를 찾아 3가지를 변경했지만, 상황은 오히려 악화되었습니다. 이제 Mac은 모든 알림을 소리 내어 읽어주는데, 도대체 어떻게 꺼야 할지 알 수가 없습니다.

macOS는 2000년대 초반부터 텍스트 음성 변환 기능을 내장해 왔습니다. Apple은 지난 몇 년 동안 이 기능을 크게 개선했지만, 설정은 여러 패널에 흩어져 있고, macOS 버전에 따라 동작이 달라지며, 내장 음성의 성능과 콘텐츠 제작자가 실제로 필요로 하는 수준 사이의 간극은 여전히 큽니다. 다행인 점은, 모든 설정이 어디에 있는지 알게 되면 설정하는 데 5분도 걸리지 않는다는 것입니다. 그리고 내장 옵션만으로 부족할 때 업그레이드할 수 있는 경로도 예상보다 훨씬 깔끔합니다.

macOS에는 3가지의 개별 TTS 시스템이 있습니다. 대부분의 사람들은 그중 하나만 발견합니다.

이 부분이 가장 혼란을 주는 부분입니다. Apple에는 단일 '텍스트 음성 변환' 스위치가 없습니다. 서로 중복되는 세 개의 뚜렷한 시스템이 있으며, 각각 다른 곳에서 제어됩니다.

시스템	주요 기능	설정 위치	주요 용도
말하기 콘텐츠	선택한 텍스트 또는 전체 화면 읽기	시스템 설정 > 손쉬운 사용 > 말하기 콘텐츠	기사 읽기, 교정 및 손쉬운 사용
VoiceOver	시각 장애인을 위한 전체 화면 읽기 도구	시스템 설정 > 손쉬운 사용 > VoiceOver	탐색, 손쉬운 사용
Siri 음성	Siri 응답 및 받아쓰기 피드백 제공	시스템 설정 > Siri	가상 비서 응답

대부분의 사용자가 'Mac에서 텍스트 음성 변환'을 검색할 때 원하는 기능은 말하기 콘텐츠입니다. 이 기능은 키보드 단축키를 사용하여 모든 앱에서 선택한 텍스트를 읽어주는 기능입니다. 반면 VoiceOver는 버튼, 메뉴, 창 제목을 포함하여 화면의 모든 것을 설명하는 전체 접근성 도구입니다. 단순히 텍스트를 읽고 싶을 때 VoiceOver를 켜는 것은 양초에 불을 붙이려고 소방차를 부르는 것과 같습니다.

말하기 콘텐츠 설정: 5분 설정 가이드

macOS Sonoma (14) 및 이후 버전

시스템 설정을 엽니다 (Apple 메뉴 > 시스템 설정 클릭).
사이드바에서 손쉬운 사용을 클릭합니다.
말하기 콘텐츠를 클릭합니다.
선택 항목 말하기를 켭니다.
'시스템 음성' 옆의 드롭다운을 클릭하여 선호하는 음성을 선택합니다.
말하기 속도 슬라이더를 취향에 맞게 조정합니다.
마우스를 올려놓았을 때 읽어주는 기능을 원한다면 포인터 아래의 항목 말하기를 선택적으로 켭니다.

macOS Ventura (13) 및 이전 버전

이전 버전에서는 경로가 약간 다릅니다.

시스템 환경설정(시스템 설정이 아님)을 엽니다.
손쉬운 사용을 클릭합니다.
왼쪽 사이드바에서 말하기 콘텐츠를 클릭합니다.
선택 항목 말하기를 체크합니다.
시스템 음성 드롭다운을 클릭하여 음성을 선택합니다.
말하기 속도를 조정합니다.

키보드 단축키

말하기 콘텐츠가 활성화되면, 아무 애플리케이션에서나 텍스트를 선택하고 Option + Esc를 눌러 소리 내어 읽기를 실행할 수 있습니다. 이 단축키는 사용자화할 수 있습니다.

말하기 콘텐츠 설정에서 '선택 항목 말하기' 옆의 옵션 아이콘을 클릭합니다.
원하는 키 조합을 설정합니다.
화면 컨트롤러(재생/일시정지/건너뛰기 컨트롤이 있는 작은 플로팅 패널)를 활성화하거나 비활성화합니다.

화면 컨트롤러는 활성화할 가치가 있습니다. 매번 시스템 설정으로 돌아가지 않고도 일시정지, 재개, 앞으로 건너뛰기, 속도 조절을 할 수 있기 때문입니다.

올바른 음성 선택하기 (Apple에는 생각보다 많은 음성이 있습니다)

대부분의 Mac 사용자는 'Siri' 기본 음성 정도만 들어봤을 것입니다. 하지만 Apple은 실제로 여러 언어에 걸쳐 수십 개의 음성을 제공하며, 기본 음성과 프리미엄 다운로드 음성 간의 품질 차이는 상당합니다.

프리미엄 음성 다운로드 방법

시스템 설정 > 손쉬운 사용 > 말하기 콘텐츠로 이동합니다.
시스템 음성 드롭다운을 클릭합니다.
음성 관리를 클릭합니다.
언어별로 찾아봅니다. 프리미엄 음성에는 다운로드 아이콘이 표시되어 있습니다.
원하는 음성 옆의 다운로드 화살표를 클릭합니다. 파일 크기는 품질 단계에 따라 150MB에서 900MB 사이입니다.

음성 품질 단계

Apple은 음성을 여러 품질 레벨로 분류합니다.

Compact 음성: 파일 크기가 작고 로봇 같은 느낌입니다. 빠른 시스템 알림에는 괜찮지만, 한 단락 이상의 긴 글을 듣기에는 부적합합니다.
표준 음성: 중간 단계의 품질입니다. 짧은 문서를 교정하는 데는 적당하지만, 긴 지문에서는 부자연스러운 리듬이 느껴집니다.
프리미엄/향상된 음성: 다운로드 용량이 가장 크지만 훨씬 자연스럽습니다. 신경망 합성 기술을 사용하여 실제 사람에 더 가까운 소리를 냅니다. 'Zoe (Premium)', 'Evan (Premium)' 등이 이 카테고리에 속합니다.

하지만 프리미엄 음성이라 하더라도 한계는 있습니다. 2~3분 정도는 듣기 좋지만, 그 이상이 지나면 억양(prosody)이 단조로워지고 감정적 변화가 사라지며 장시간 듣기 힘든 단조로운 리듬으로 바뀝니다. 이는 버그가 아니라 Apple이 기기에 실제로 탑재할 수 있는 온디바이스 모델 크기의 한계입니다.

Mac 앱 전반에서 텍스트 음성 변환 사용하기

말하기 콘텐츠가 활성화되면 Option + Esc 단축키는 거의 모든 Mac 앱에서 작동합니다. 주요 앱에서의 동작 방식은 다음과 같습니다.

Pages 및 TextEdit: 텍스트를 선택하고 단축키를 누릅니다. 안정적으로 작동하며, 선택한 부분만 읽고 멈춥니다.

Safari 및 Chrome: 웹페이지에서 텍스트를 선택하고 단축키를 누릅니다. 다른 작업을 하면서 기사를 듣기에 유용합니다. Safari에는 읽기 전에 페이지 서식을 제거하는 별도의 읽기 도구 모드가 있어 때때로 읽기 속도와 흐름을 개선해 줍니다.

미리보기 (PDF): PDF에서 텍스트를 선택하고 단축키를 누릅니다. 품질은 PDF에 선택 가능한 텍스트가 있는지 여부에 따라 달라집니다. OCR 처리가 되지 않은 스캔 문서는 작동하지 않습니다.

Mail: 이메일 본문을 선택하고 단축키를 누릅니다. 읽기보다는 듣고 싶은 긴 이메일에 유용합니다.

터미널: 네, 명령줄에서도 TTS를 실행할 수 있습니다. say "입력할 텍스트"를 실행하면 macOS가 시스템 음성으로 읽어줍니다. 더 긴 텍스트의 경우: say -f /경로/파일명.txt. 오디오로 내보낼 수도 있습니다: say -f script.txt -o output.aiff. 이 명령은 macOS에서 내장 오디오 내보내기 기능에 가장 가까운 방법입니다.

대부분 모르는 터미널 팁

say 명령은 -v 플래그를 사용하여 설치된 특정 음성을 지정할 수 있습니다.

say -v "Zoe (Premium)" "프리미엄 음성 테스트입니다."

say -v "?"

두 번째 명령은 시스템에 설치된 모든 음성 목록을 보여줍니다. 시스템 설정을 일일이 클릭하지 않고 음성을 확인하는 가장 빠른 방법입니다.

텍스트 음성 변환 비활성화 방법 (멈추지 않을 때)

이 섹션이 있는 이유는 의외로 많은 Mac 사용자가 실수로 VoiceOver나 말하기 콘텐츠를 활성화하고 끄는 방법을 몰라 당황하기 때문입니다. Mac이 현재 화면의 모든 것을 설명하고 있다면 다음 방법을 시도하세요.

VoiceOver가 실행 중인 경우 (모든 클릭과 버튼을 설명할 때)

즉시 Cmd + F5를 누르세요. 이는 VoiceOver를 끄는 단축키입니다. 터치바가 있는 MacBook이나 최신 모델의 경우 Touch ID 버튼을 세 번 빠르게 누를 수도 있습니다.

선택 항목 말하기가 도중에 멈추지 않을 때

Option + Esc를 다시 누르면 현재 읽기가 중지됩니다. 그래도 안 된다면 선택한 텍스트 밖의 아무 곳이나 클릭해 보세요.

Mac이 알림이나 경고를 말할 때

시스템 설정 > 손쉬운 사용 > 말하기 콘텐츠로 이동합니다.
공지 사항 말하기를 뼙니다.
마우스를 올릴 때 읽어주는 것을 원치 않는다면 포인터 아래의 항목 말하기도 꺼져 있는지 확인하세요.

전체 비활성화 체크리스트

Mac의 모든 TTS를 완전히 끄려면:

말하기 콘텐츠: 시스템 설정 > 손쉬운 사용 > 말하기 콘텐츠 > 모든 항목 끄기
VoiceOver: 시스템 설정 > 손쉬운 사용 > VoiceOver > 끄기 (또는 Cmd + F5)
Siri 음성 피드백: 시스템 설정 > Siri > Siri 응답 > 끄기
오디오 경고: 시스템 설정 > 사운드 > '시동 시 사운드 재생' 체크 해제 및 경고 음량 조절

이 목록을 모두 확인하면 Mac은 명시적으로 실행하지 않는 한 더 이상 소리를 내지 않습니다.

macOS TTS의 한계 (그리고 다음 단계)

Apple의 내장 음성은 짧은 문서의 빠른 교정이나 손쉬운 사용이라는 두 가지 목적에는 충분합니다. 하지만 그 이상을 원한다면 다음과 같은 한계에 부딪히게 됩니다.

음성 사용자화 불가: 단일 속도 슬라이더 외에는 감정, 강조 또는 흐름을 조절할 수 없습니다. 농담과 비극을 똑같은 억양으로 읽습니다.
제한된 음성 선택: 프리미엄 음성을 모두 다운로드해도 영어 옵션은 15~20개 정도입니다. 특정 톤, 억양 또는 개성이 필요한 콘텐츠 제작에는 라이브러리가 너무 작습니다.
음성 복제(Cloning) 불가: 자신의 목소리와 같거나 특정 브랜드 보이스에 맞춘 음성을 만들 방법이 없습니다.
원시적인 오디오 내보내기: say 명령은 AIFF로 내보내지만, MP3, WAV 또는 적절한 노멀라이즈 처리가 된 팟캐스트용 오디오를 생성하는 내장 방법은 없습니다.
다국어 품질 저하: Apple의 프리미엄 음성은 영어에서는 강력하지만, 태국어, 아랍어 또는 포르투갈어로 바꾸면 다시 로봇 같은 품질로 돌아갑니다.
장문 일관성 부족: 2~3분이 지나면 운율이 흐트러져 장시간 듣기 피곤해집니다. 20분짜리 스크립트는 1분 때보다 18분 때의 소리가 눈에 띄게 나빠집니다.

이러한 제한은 이메일 오타를 잡는 용도라면 중요하지 않습니다. 하지만 YouTube 영상을 제작하거나 강의를 녹음하고, 청중이 실제로 끝까지 들을 만한 오디오 콘텐츠를 만드는 경우에는 큰 문제가 됩니다.

Mac 교정에서 전문 오디오 제작으로

내장 음성만으로 부족해질 때, 워크플로우를 전환하는 방법은 간단합니다. 글은 Mac에서 계속 쓰되, 오디오 생성은 전용 AI TTS 플랫폼을 통하는 것입니다.

Fish Audio는 macOS가 채우지 못한 빈틈을 정확히 메워줍니다. 전환 시 달라지는 점은 다음과 같습니다.

20개가 아닌 200만 개 이상의 음성. Fish Audio의 음성 라이브러리는 언어, 억양, 톤 및 용도별로 분류되어 있습니다. 튜토리얼을 위해 따뜻하고 대화적인 미국 영어 음성이 필요하신가요? 필터링만 하면 됩니다. 현지화된 제품 영상을 위해 깔끔한 일본어 내레이터가 필요하신가요? 이미 준비되어 있습니다. Apple이 제공하는 것보다 약 10만 배 더 많은 선택지가 있습니다.

긴 스크립트에서도 유지되는 운율. Fish Audio의 모델 아키텍처는 긴 콘텐츠에서도 감정적 변화와 속도를 조절합니다. 15분 분량의 음성 해설도 처음부터 끝까지 캐릭터를 유지하며, macOS 음성에서 나타나는 2~3분 후의 단조로운 현상이 없습니다. 질문은 질문처럼 들리고, 강조할 부분은 확실히 강조합니다.

15초 음성 복제. 모든 오디오가 자신의 목소리로 들리길 원하시나요? 15초 분량의 샘플을 업로드하면 Fish Audio가 사용자의 목소리 정체성을 그대로 담은 클론을 생성합니다. Apple은 이와 비견될 만한 기능을 제공하지 않습니다.

품질 저하 없는 13개 이상의 언어. Fish Audio는 모든 언어 세트에서 원어민 수준의 발음을 유지합니다. 영어에서 자연스럽게 들리는 음성이 스페인어, 중국어, 일본어, 아랍어에서도 자연스럽습니다. 언어를 바꾼다고 해서 갑자기 품질이 떨어지지 않습니다.

제작 준비가 완료된 오디오 파일. YouTube, 팟캐스트 호스팅, 강의 플랫폼 또는 기타 배포 채널에 바로 사용할 수 있는 MP3 또는 WAV 파일을 생성하고 다운로드하세요. 터미널을 쓸 필요도, AIFF를 MP3로 변환하는 번거로운 과정도 필요 없습니다.

Mac 크리에이터를 위한 워크플로우

Pages, Google Docs 또는 원하는 Mac 텍스트 편집기에서 스크립트를 작성합니다.
macOS 말하기 콘텐츠(Option + Esc)를 사용하여 어색한 문구는 없는지 빠르게 교정합니다.
완성된 텍스트를 복사하여 fish.audio/text-to-speech에 붙여넣습니다.
라이브러리에서 음성을 선택하거나 복제된 음성을 사용합니다.
콘텐츠에 맞게 감정과 속도를 조절합니다.
오디오 파일을 생성하고 다운로드합니다.
Final Cut Pro, Logic Pro, GarageBand 또는 사용 중인 팟캐스트 편집기에 파일을 넣습니다.

이 워크플로우를 통해 macOS TTS는 무료로 즉시 교정하는 용도로 최적화해 사용하고, 실제로 전문적인 소리가 필요한 부분에는 Fish Audio를 활용할 수 있습니다.

비용 안내

Fish Audio는 실제 스크립트로 테스트해 보기에 충분한 무료 티어를 제공합니다. 유료 플랜은 월 $11부터 시작하며 250,000 크레딧을 제공합니다. 이는 S1 생성 시 약 200분(약 3시간 20분), v1.5 또는 v1.6 생성 시 약 400분(약 6시간 40분)에 해당합니다. 비교하자면, macOS TTS는 무료지만 사용 가능한 오디오 파일로 내보낼 수 없습니다. 15시간 분량의 녹음을 위해 전문 성우를 고용한다면 $3,000에서 $15,000의 비용이 듭니다. 자세한 가격 체계는 여기에서 확인하세요.

결론

macOS에는 여러 설정 패널 뒤에 숨겨진 유능한 텍스트 음성 변환(TTS) 시스템이 있습니다. '말하기 콘텐츠'가 실제 원하는 기능이라는 것과 'Option + Esc'가 단축키라는 점, 그리고 프리미엄 음성 다운로드가 가능하다는 사실을 알게 되면 Mac의 내장 TTS는 빠른 교정과 가벼운 감상용으로 제 역할을 다합니다. 혹시라도 VoiceOver가 갑자기 화면을 읽기 시작한다면 Cmd + F5가 '비상 정지' 버튼임을 기억하세요.

하지만 내장 음성은 콘텐츠 제작이 아닌 손쉬운 사용과 시스템 피드백을 위해 설계되었습니다. 청중이 2분 이상 들을 오디오, 브랜드에 맞는 음성, 또는 번역기 같지 않은 다국어 출력이 필요한 순간, Apple의 내장 기능만으로는 부족합니다. 글은 Mac에서 쓰고, 교정은 '말하기 콘텐츠'로 하며, 최종 제작은 Fish Audio와 함께하세요. 이미 가지고 있는 글쓰기 도구와 청중이 실제로 듣게 될 오디오를 위해 제작된 TTS 엔진의 완벽한 조합이 될 것입니다.

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인

이 글 공유하기

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >