Mac 음성-텍스트 변환 완벽 가이드: macOS 받아쓰기 설정 및 사용법

2026년 2월 28일

Mac 음성-텍스트 변환 완벽 가이드: macOS 받아쓰기 설정 및 사용법

8시간 동안 타이핑하고 4,000단어를 채우고 나면, 손목은 한계가 왔음을 알립니다. 이때 Mac 받아쓰기(Mac Dictation)를 켜고 말을 시작하면 처음 두 문장은 완벽하게 입력됩니다. 하지만 30초 정도 생각을 정리하려고 멈추면 받아쓰기 기능이 저절로 꺼져버립니다. 다시 시작해서 이번에는 더 빨리 말해보지만, 무작위로 단어가 대문자로 변하거나 쉼표가 무시되는 것을 보게 됩니다. 세 번째로 다시 시작할 때쯤이면, 타이핑하는 것보다 도구와 씨름하는 데 더 많은 시간을 쓰게 됩니다.

Mac의 내장 받아쓰기 기능은 대부분의 사용자가 생각하는 것보다 더 뛰어나지만, 기본 동작이 직관적이지 않고 설정이 여러 시스템 패널에 흩어져 있으며 유용한 기능들이 잘 알려져 있지 않습니다. 일반적인 사람은 분당 40단어를 타이핑합니다. Mac 음성 입력은 분당 130-160단어를 캡처합니다. 설정을 제대로 마치면 3~4배의 속도 향상을 실제로 경험할 수 있지만, 약 30초의 침묵 후에 받아쓰기가 자동으로 중단된다면 그 가치는 0이 됩니다.

2026년의 Mac 받아쓰기: 두 개의 엔진, 하나의 혼란스러운 토글

현재 Apple은 macOS에서 두 가지 받아쓰기 시스템을 제공하며, 이들의 차이점은 정확도, 개인정보 보호 및 중단 없이 받아쓰기를 할 수 있는 시간에 영향을 미칩니다.

기능	향상된 받아쓰기 (온디바이스)	표준 받아쓰기 (서버 기반)
처리 방식	Mac에서 직접 처리, 인터넷 불필요	Apple 서버 필요, 인터넷 필요
연속 받아쓰기	예, 시간 제한 없음	일시 중지 후 자동 중단
개인정보 보호	오디오가 기기를 벗어나지 않음	처리를 위해 오디오가 Apple로 전송됨
정확도	지원되는 언어에 대해 매우 우수함	예외적인 경우에 약간 더 나음
저장 공간	언어당 1-2 GB 다운로드 필요	로컬 저장 공간 불필요
가용성	Apple Silicon 기반 macOS Ventura 13+	모든 macOS 버전

macOS Ventura 이상을 실행하는 Apple Silicon Mac에서는 온디바이스 받아쓰기가 기본입니다. Neural Engine을 사용하여 로컬에서 음성을 처리하므로 시간 제한이 없고, Wi-Fi가 필요하지 않으며, 오디오를 Apple 서버로 전송하지 않습니다.

구형 Intel Mac에서는 인터넷 연결이 필요하고 짧은 일시 중지 후 자동 중단되는 경향이 있는 서버 기반 받아쓰기를 사용해야 합니다. 이러한 자동 중단 동작은 받아쓰기를 한 번 시도해 보고 포기하는 대부분의 사용자들을 좌절시키는 요인입니다.

현재 어떤 버전을 실행 중인지 확실하지 않다면 시스템 설정 > 키보드 > 받아쓰기를 확인하세요. "온디바이스 받아쓰기"라는 문구가 보인다면 로컬 엔진을 사용 중인 것입니다.

받아쓰기 설정하기: 올바른 방법 (뻔하지 않은 방법)

대부분의 사람들은 키보드의 마이크 키를 눌러 우연히 받아쓰기 기능을 발견합니다. 설정은 간단하지만, 경험에 큰 영향을 미치는 두 가지 숨겨진 설정이 있습니다.

기본 설정

시스템 설정을 엽니다 (Apple 메뉴 > 시스템 설정)
사이드바에서 키보드를 클릭합니다
받아쓰기까지 아래로 스크롤하여 켭니다
언어를 선택합니다 (여러 개 추가 가능)
단축키를 설정합니다 (기본값은 Fn 키를 두 번 누르는 것이지만, "Fn 키 누르기" 또는 사용자화 단축키도 가능합니다)
메시지가 표시되면 해당 언어에 대한 온디바이스 음성 인식 모델을 다운로드합니다.

대부분이 놓치는 두 가지 설정

자동 구두점. macOS Sonoma부터 Apple은 자동 구두점 기능을 기본으로 활성화했습니다. 받아쓰기 기능은 "마침표"나 "쉼표"라고 말하지 않아도 음성 패턴에 따라 마침표, 쉼표, 물음표를 삽입합니다. 이 기능이 작동하지 않는다면 macOS 14 이상을 실행 중인지, 받아쓰기 언어가 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 중국어, 한국어 또는 일본어인지 확인하세요(자동 구두점은 아직 모든 언어를 지원하지 않습니다).

마이크 소스. 기본적으로 macOS는 시스템에 설정된 마이크를 사용합니다. 정확도가 떨어진다면 소프트웨어가 아닌 하드웨어가 문제인 경우가 많습니다. 시스템 설정 > 사운드 > 입력으로 이동하여 가장 좋은 마이크를 선택했는지 확인하세요. 저렴한 USB 마이크라도 입에 가까이 대고 사용하면 내장 마이크보다 정확도가 크게 향상됩니다.

실제로 Mac에서 받아쓰는 법 (앱별 가이드)

Mac 받아쓰기가 활성화되면 작동 방식은 어디서나 동일합니다. 단축키(기본값: Fn 두 번)를 누르고 말을 시작한 다음, 다시 단축키를 눌러 중단합니다. 하지만 앱마다 동작이 약간 다를 수 있습니다.

Pages 및 TextEdit

Mac에서 가장 쾌적한 받아쓰기 경험을 제공합니다. 커서를 놓고 받아쓰기를 활성화한 뒤 말하세요. 텍스트가 실시간으로 나타납니다. 타이핑과 말하기를 번갈아 가며 연속해서 받아쓰기를 할 수 있습니다. macOS Sonoma 이상에서는 키보드로 빠르게 편집하기 위해 받아쓰기를 중단할 필요가 없습니다.

메모

브레인스토밍이나 회의록 작성에 유용합니다. 유용한 팁: 새 메모를 만들고 받아쓰기를 시작하여 음성 메모장으로 사용하세요. 메모는 iCloud에 동기화되므로 받아쓴 텍스트를 iPhone이나 iPad에서도 즉시 확인할 수 있습니다.

Mail

받아쓰기는 작성 창에서 작동합니다. 타이핑이 번거로운 긴 이메일 답장에 유용합니다. 한 가지 주의할 점: URL이나 이메일 주소를 말하면 정확도가 크게 떨어집니다. 이런 것들은 한 글자씩 말하거나 직접 입력하세요.

Safari 및 Chrome (텍스트 필드)

받아쓰기는 Google Docs, Notion, Slack, 소셜 미디어 작성란을 포함한 모든 웹 텍스트 필드에서 작동합니다. 다만, 웹 기반 텍스트 편집기는 실시간 삽입을 다르게 처리하는 경우가 있어 커서가 튀는 문제가 발생할 수 있습니다. 텍스트가 엉뚱한 곳에 나타나면 클릭하여 커서 위치를 다시 잡고 받아쓰기를 재개하세요.

터미널

기술적으로 터미널에서도 작동하지만 실용적이지는 않습니다. 명령 구문, 플래그, 파일 경로는 음성 인식으로 변환하기 어렵습니다. 터미널에서는 타이핑을 고수하세요.

받아쓰기를 실제 편집으로 바꿔주는 음성 명령

대부분의 Mac 사용자는 텍스트를 받아쓰게 한 다음, 키보드와 마우스로 전환하여 수정합니다. 이는 가치의 절반을 놓치는 것입니다. macOS는 구두점, 서식 및 기본 편집을 위한 음성 명령을 지원하여 받아쓰기 후의 정리 작업을 최소화합니다.

구두점 (받아쓰기 중 이렇게 말하세요):

"마침표"
"쉼표"
"물음표"
"느낌표"
"콜론" / "세미콜론"
"큰따옴표 열기" ... "큰따옴표 닫기"
"괄호 열기" ... "괄호 닫기"
"대시" (하이픈 삽입)
"말줄임표"

줄 및 단락 제어:

"줄 바꿈" (다음 줄로 이동)
"새 단락" (단락 구분 삽입)
"탭 키"

편집 명령:

"이전 단어 선택" / "다음 단어 선택"
"모두 선택"
"그거 삭제" (마지막으로 받아쓴 구절 제거)
"실행 취소"
"대문자 시작" ... "대문자 끝" (모두 대문자 섹션용)
"숫자 [숫자]" (숫자 형식 강제 지정, 예: "숫자 5" → 'five' 대신 5 입력)

많은 분들이 모르는 사실 하나: macOS Sonoma 이상에서는 타이핑과 받아쓰기를 실시간으로 혼합할 수 있습니다. 단락을 받아쓰다가 마우스로 다른 곳을 클릭해 수정한 다음, 다시 받아쓰기를 이어가세요. 예전처럼 "받아쓰기 또는 타이핑 중 하나만 선택"해야 하던 방식은 최신 시스템에서 더 이상 적용되지 않습니다.

정확도를 떨어뜨리는 5가지 요인 (및 해결 방법)

Mac 받아쓰기 정확도가 기대 이하라고 느껴진다면, 다음 다섯 가지 요인 중 하나가 원인일 가능성이 큽니다.

1. 시끄러운 방에서의 내장 노트북 마이크. 정확도를 떨어뜨리는 가장 큰 요인입니다. MacBook 마이크는 FaceTime 통화용이지 연속 받아쓰기용이 아닙니다. 입에서 15-20cm 떨어진 곳에 저렴한 USB 콘덴서 마이크($15-30)를 배치하면 조용한 환경에서 정확도가 약 85%에서 95% 이상으로 높아집니다.

2. 일시 중지 없이 너무 빨리 말하기. 받아쓰기는 음성을 덩어리로 처리합니다. 자연스러운 멈춤 없이 문장을 이어 말하면 모델이 문맥 경계를 놓치고 단어를 잘못 배정합니다. 평소 대화하듯 말하되 문장 사이에 0.5초 정도 멈추세요. 평소 말하는 속도보다는 느리게, 하지만 아주 또박또박 발음하는 것보다는 빠르게 말하는 것이 좋습니다.

3. 표준이 아닌 억양이나 방언. Apple의 모델은 주요 영어 억양(미국, 영국, 호주)은 잘 처리하지만, 강한 지역 방언이나 심한 비원어민 억양에는 어려움을 겪습니다. 온디바이스 처리는 모델이 지속적인 문맥을 파악하기 때문에 서버 기반보다는 약간 더 관대하지만, 덜 일반적인 억양 패턴을 가진 사용자에게는 여전히 차이가 느껴질 수 있습니다.

4. 배경 오디오 간섭. 음악, TV, 다른 사람의 대화 등 소리가 작더라도 배경음은 모델을 혼란스럽게 합니다. 헤드폰을 사용하여 소리를 듣고, 마이크 채널은 오직 여러분의 목소리만 들어가도록 깨끗하게 유지하세요.

5. 시스템 학습 부족. macOS는 시간이 지나면서 사용자의 받아쓰기 패턴을 학습하지만, 이는 키보드를 사용하여 오류를 수정할 때만 가능합니다(다시 말해서 수정하는 방식이 아님). 받아쓰기가 단어를 틀렸을 때, 해당 단어를 클릭하고 수정한 뒤 계속 진행하세요. 며칠, 몇 주가 지나면 여러분의 특정 어휘와 말투에 대한 정확도가 향상됩니다.

Mac 받아쓰기의 한계 (대안은 무엇일까?)

Mac 받아쓰기는 원래 의도된 목적, 즉 실시간으로 한 사람의 목소리를 한 가지 언어로 텍스트화하는 데에는 정말 훌륭합니다. 하지만 하드웨어 업그레이드나 학습으로도 해결할 수 없는 명확한 한계가 있습니다.

오디오 파일 트랜스크립션 불가. MP3, Zoom 녹화본, 음성 메모를 받아쓰기 기능에 넣을 수 없습니다. 오직 실시간 마이크 입력만 처리합니다. 녹음된 인터뷰, 강의, 팟캐스트 또는 회의록의 트랜스크립트가 필요하다면 받아쓰기 기능은 도움이 되지 않습니다.

화자 식별 불가. 받아쓰기 기능은 누가 말하고 있는지 알지 못합니다. 스피커를 통해 재생하여 두 사람의 인터뷰를 받아쓰게 하더라도(오디오 루프백 편법), 화자 구분 없이 텍스트 덩어리만 얻게 됩니다.

세션당 단일 언어. 영어 또는 한국어로 받아쓸 수는 있지만, 한 세션에서 동시에 두 언어를 사용할 수는 없습니다. 언어를 바꾸려면 받아쓰기를 중단하고 설정을 변경한 뒤 다시 시작해야 합니다. 이중 언어 사용자나 다국어 콘텐츠 제작자에게는 매우 번거로운 작업입니다.

타임스탬프 부재. 받아쓰기는 일반 텍스트만 생성합니다. 오디오 참조를 위한 타임스탬프를 얻을 수 없는데, 이는 언론인, 연구원 등 녹음의 특정 지점을 찾아야 하는 사람들에게 중요합니다.

불완전한 오디오에서의 정확도 한계. 받아쓰기는 마이크에 대고 직접 말하는 깨끗한 음성을 가정합니다. 전화 녹음, 방 안의 울림, 거리 소음 등으로 오디오 품질이 조금만 떨어져도 정확도가 급격히 낮아져 직접 타이핑하는 것보다 수정하는 시간이 더 오래 걸릴 수 있습니다.

실시간 받아쓰기에서 Fish Audio를 통한 전체 오디오 트랜스크립션까지

사용자의 필요가 '내 생각을 받아쓰는 것'을 넘어 '녹음된 오디오를 텍스트로 변환하는 것'으로 확장될 때, 전용 음성-텍스트 변환 도구는 Mac 받아쓰기가 멈춘 지점에서 바로 시작됩니다.

Fish Audio의 Speech to Text는 macOS가 처리할 수 없는 시나리오를 위해 제작되었습니다. 다음과 같은 이점이 있습니다.

모든 오디오 파일 업로드 가능. MP3, WAV, M4A, 녹음된 인터뷰, Zoom 내보내기, 음성 메모, 팟캐스트 에피소드 등 파일을 올리기만 하면 트랜스크립트를 얻을 수 있습니다. 실시간 재생 편법이나 루프백 라우팅이 필요 없으며 기다릴 필요도 없습니다. 배치 모드에서 처리 속도는 일반적으로 오디오 길이의 약 0.3~~0.5배로 설명됩니다(예: 10분짜리 파일은 약 3~~5분 안에 완료). 따라서 파일이 길수록 처리 시간도 비례하여 늘어납니다.

실제 환경의 오디오에서도 유지되는 정확도. Fish Audio의 모델은 전화 통화 품질, 방 안의 울림, 배경 소음, 겹치는 대화 등 다양한 녹음 환경에서 학습되었습니다. 스튜디오 녹음과 카페 인터뷰 사이의 정확도 격차는 Mac 받아쓰기의 루프백 방식을 사용할 때보다 훨씬 작습니다.

세션 전환 없는 다국어 트랜스크립션. Fish Audio는 100개 이상의 언어와 방언을 지원합니다. STT FAQ에 따르면 영어, 중국어, 광둥어, 일본어, 한국어를 명시적으로 지원하며, 다국어 코드 스위칭(code-switching)도 자동으로 처리됩니다. 녹음본에 영어와 한국어, 혹은 스페인어와 포르투갈어가 섞여 있어도 별도의 세션 없이 한 파일 내에서 언어 전환을 매끄럽게 처리합니다.

Mac 사용자를 위한 실용적인 워크플로우:

실시간 초안 작성 및 브레인스토밍: Mac 받아쓰기를 사용하세요. 무료이고 내장되어 있으며, 조용한 방에서 혼자 받아쓰기에 최적입니다. Fn을 두 번 누르고 말하면 끝입니다.
녹음된 오디오 트랜스크립션: Fish Audio STT를 사용하세요. 파일을 업로드하고 깨끗한 트랜스크립트를 받아 Mac 텍스트 편집기에 붙여넣으세요.
완성된 텍스트에서 오디오 제작: 2,000,000개 이상의 음성, 15초 음성 복제(voice cloning), 8개 언어를 지원하는 Fish Audio TTS를 사용하세요.

이 조합은 음성-텍스트-음성의 전체 루프를 완벽하게 커버합니다. Mac 받아쓰기는 실시간 입력을 무료로 처리합니다. Fish Audio는 오디오 파일 처리, 다국어 지원 또는 전문가 수준의 출력이 필요한 모든 작업을 처리합니다. 두 도구는 경쟁 관계가 아니라 상호 보완적인 관계입니다.

비용 안내

Fish Audio의 무료 요금제는 샘플 클립뿐만 아니라 실제 녹음으로도 테스트해 볼 수 있을 만큼 넉넉합니다. 유료 플랜은 월 $11부터 시작하며, STT 사용이 포함된 600,000자의 TTS 출력을 제공합니다. 참고로 전문적인 인간 타이핑 서비스는 오디오 분당 $1~$3를 청구합니다. 60분 인터뷰 트랜스크립트는 서비스 이용 시 $60-180의 비용과 24-48시간의 시간이 소요되지만, Fish Audio는 동일한 파일을 2분 이내에 처리합니다. 전체 가격표는 여기에서 확인하세요.

결론

Mac 받아쓰기는 macOS에서 가장 과소평가된 생산성 기능 중 하나입니다. 올바른 마이크 설정, 온디바이스 엔진 사용, 자동 구두점 활성화 등 제대로 된 설정을 갖추고 10가지 음성 명령만 익히면, 손목의 피로 없이 타이핑보다 3~4배 빠른 속도로 콘텐츠 초안을 작성할 수 있습니다. 원래 용도에서는 정말 훌륭한 도구입니다.

하지만 녹음본을 트랜스크립션하거나, 한 세션에서 여러 언어를 처리하거나, 직접 말하지 않은 오디오를 처리하는 기능은 제공하지 않습니다. 이러한 작업에는 실시간 입력용 Mac 받아쓰기에 더해, 다른 모든 작업을 위한 Fish Audio를 추가하는 것이 가장 효율적인 방법입니다. 입력 측면에서의 파일 트랜스크립션과 출력 측면에서의 전문가급 음성 생성까지 모두 가능합니다. 지금 바로 무료 요금제로 시작하여, 트랜스크립션이 필요해 음성 메모 앱에 방치해 두었던 녹음 파일들을 테스트해 보세요.

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인

이 글 공유하기

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >