모든 기기에서 음성 인식을 켜고 받아쓰기를 시작하는 방법

2026년 3월 5일

가이드

대부분의 사람들은 분당 40단어를 입력합니다. 하지만 말하는 속도는 보통 분당 130단어에 달하죠. 이는 메시지를 손으로 타이핑하거나, 이메일을 하나씩 입력하거나, 회의록을 나중에 직접 받아적을 때마다 3배의 효율성을 놓치고 있다는 뜻입니다.

음성 인식(Speech to text), 즉 받아쓰기나 음성 타이핑은 말하는 즉시 음성을 텍스트로 변환해 줍니다. 모든 주요 기기에는 이 기능이 내장되어 있습니다. 기능을 켜는 법은 간단하지만, 정확한 결과를 얻으려면 설정 화면에서 알려주지 않는 몇 가지 요령을 알아야 합니다.

Windows 10 및 11

Windows에는 두 가지 음성 인식 도구가 있습니다. '음성 타이핑(Voice Typing)'은 가벼운 받아쓰기 도구이며, 'Windows 음성 인식'은 더 오래되고 포괄적인 시스템입니다.

음성 타이핑 활성화하기

음성 타이핑은 더 빠른 옵션이며 Microsoft가 적극적으로 유지 관리하는 기능입니다. 시스템 전체의 모든 텍스트 필드에서 작동합니다.

Win + H를 눌러 음성 타이핑 도구 모음을 엽니다. 화면 상단에 작은 마이크 패널이 나타납니다.
마이크 아이콘을 클릭하거나 Win + H를 다시 눌러 받아쓰기를 시작합니다.
자연스럽게 말하세요. Windows가 실시간으로 변환하여 커서 위치에 텍스트를 삽입합니다.

처음 설정 시 주의 사항:

마이크 권한: Windows에서 마이크 액세스 권한을 요청할 수 있습니다. 이를 허용해야 합니다. 허용하지 않으면 음성 타이핑이 작동하지 않습니다.
온라인 음성 인식: 더 높은 정확도를 위해 설정 > 개인 정보 및 보안 > 음성에서 온라인 음성 인식이 활성화되어 있는지 확인하세요. 클라우드 기반 모델이 오프라인 모델보다 훨씬 정확합니다.
자동 문장 부호: 음성 타이핑은 마침표, 쉼표, 물음표를 자동으로 삽입할 수 있습니다. 음성 타이핑 도구 모음의 기어 아이콘을 통해 이 기능을 켜세요.

받아쓰기 중 사용할 수 있는 음성 명령:

문장 부호를 삽입하려면 "마침표", "쉼표", "물음표", "느낌표"라고 말하세요.
줄을 바꾸려면 "새 줄" 또는 "새 단락"이라고 말하세요.
마지막 문구를 삭제하려면 "그거 지워"라고 말하세요.
마이크를 끄려면 "받아쓰기 중지"라고 말하세요.

Windows 음성 인식

오래된 '음성 인식' 도구는 Windows 탐색, 앱 열기, 버튼 클릭 등 더 광범위한 제어 기능을 제공합니다. 더 강력하지만 설정이 복잡합니다.

설정 > 접근성 > 음성(Windows 11)을 열거나 시작 메뉴에서 "Windows 음성 인식"을 검색합니다.
마이크 보정 단계와 짧은 음성 훈련 연습이 포함된 설정 마법사를 따릅니다.

단순히 글을 적는 용도라면 '음성 타이핑'이 더 나은 선택입니다. 컴퓨터 전체를 손 안 대고 제어하고 싶다면 Windows 음성 인식을 살펴보는 것이 좋습니다.

macOS

macOS는 시스템 전반에서 사용할 수 있는 '받아쓰기' 기능과 오프라인용 '향상된 받아쓰기' 기능을 제공합니다.

받아쓰기 활성화하기

시스템 설정 > 키보드를 엽니다.
받아쓰기 섹션으로 스크롤하여 기능을 켭니다.
확인 메시지가 나타나면 승인하고, 언어 모델을 다운로드할 수도 있습니다.

활성화되면 키보드의 마이크 키(최신 Mac 기준)를 누르거나 Fn 키를 두 번 눌러(또는 설정한 단축키 사용) 모든 텍스트 필드에서 받아쓰기를 시작할 수 있습니다.

확인해 볼 만한 설정:

언어: 언어 드롭다운을 클릭하여 받아쓰기 언어를 추가하세요. macOS는 여러 언어를 동시에 지원하며, 엔진이 말하는 언어를 자동으로 감지합니다.
자동 문장 부호: 말의 속도와 억양에 따라 마침표, 쉼표, 물음표를 자동으로 삽입하도록 설정하세요.
단축키: Fn 키를 두 번 누르는 것이 불편하다면 받아쓰기 설정에서 실행 단축키를 사용자화하세요.

macOS 받아쓰기는 기본적으로 처리를 위해 오디오를 Apple 서버로 전송합니다. macOS Ventura 이상이 설치된 Apple Silicon 기반 Mac에서는 지원되는 언어에 대해 온디바이스 처리가 가능하여 오디오가 기기 외부로 유출되지 않습니다.

음성 명령 (Voice Control)

음성 명령은 macOS의 전체 음성 제어 시스템입니다. 받아쓰기를 넘어 음성으로 탐색, 클릭, 스크롤, 편집을 할 수 있습니다.

시스템 설정 > 접근성 > 음성 명령을 열고 활성화합니다.

음성 명령은 전적으로 온디바이스 처리를 사용하며 오프라인에서도 작동합니다. 주로 손을 쓰기 어려운 사용자를 위해 설계되었지만, 작가나 파워 유저들도 "이전 문장 선택" 또는 "대문자로 변환"과 같은 정밀한 편집 명령을 사용하기 위해 도입하기도 합니다.

iPhone 및 iPad

iOS에는 2011년부터 받아쓰기 기능이 내장되어 있습니다. 특히 Apple의 Neural Engine이 탑재된 기기에서는 정확도가 비약적으로 향상되었습니다.

받아쓰기 활성화하기

설정 > 일반 > 키보드로 이동합니다.
받아쓰기 활성화를 켭니다.
메시지가 나타나면 확인을 누릅니다.

사용하려면 텍스트 필드가 있는 앱을 열고 키보드에서 마이크 아이콘을 탭한 뒤 말을 시작하세요. 마이크를 다시 탭하거나 키보드 아이콘을 누르면 중지됩니다.

iOS 16 이상의 iPhone 및 iPad에서는 받아쓰기와 키보드 입력을 동시에 사용할 수 있습니다. 문장을 말하다가 키보드로 단어를 수동으로 수정한 뒤, 다시 말을 이어가는 과정을 모드 전환 없이 할 수 있습니다. 이 하이브리드 입력 방식은 iOS에서 가장 과소평가된 생산성 기능 중 하나입니다.

유용한 팁:

음성으로 이모티콘 입력: "하트 이모티콘" 또는 "엄지 척 이모티콘"이라고 말하면 해당 이모티콘이 삽입됩니다.
문장 부호: 문장 중간에 "마침표", "쉼표", "물음표", "느낌표" 또는 "새 단락"을 자연스럽게 말하세요.
언어 전환: 여러 키보드가 설치된 경우, 대부분의 경우 받아쓰기 엔진이 말하는 언어를 자동으로 감지합니다.
온디바이스 처리: A12 Bionic 이상 칩이 탑재된 iPhone 모델은 지원되는 언어에 대해 온디바이스로 받아쓰기를 처리하므로 오디오 데이터가 기기 밖으로 나가지 않습니다.

Android

Android의 음성 인식은 Google의 음성 인식 엔진을 기반으로 하며, Gboard 또는 대부분의 다른 키보드 앱을 통해 시스템 전체에서 작동합니다.

Gboard에서 음성 타이핑 활성화하기

Gboard는 대부분의 Android 휴대폰의 기본 키보드입니다. 음성 타이핑은 대개 기본적으로 켜져 있지만, 확인 및 설정 방법은 다음과 같습니다.

설정 > 시스템 > 언어 및 입력 > 화면 키보드 > Gboard를 엽니다.
음성 타이핑을 탭하고 활성화되어 있는지 확인합니다.
또는 텍스트 필드를 열고 Gboard 도구 모음에서 마이크 아이콘을 찾아 탭하여 받아쓰기를 시작합니다.

삼성 키보드를 사용하는 삼성 기기의 경우:

설정 > 일반 > 삼성 키보드 설정을 엽니다.
음성 입력을 탭하고 선호하는 음성 엔진을 선택합니다.

조정해야 할 핵심 설정:

오프라인 음성 인식: Gboard 설정에서 음성 타이핑 > 오프라인 음성 인식으로 이동하여 인터넷 없이 사용할 언어 팩을 다운로드하세요. 오프라인 정확도는 다소 낮을 수 있지만 지연 시간이 없습니다.
자동 문장 부호: Gboard에서는 기본적으로 켜져 있는 경우가 많습니다. 엔진이 자연스러운 일시 정지 지점에 마침표를 찍고 가끔 쉼표를 삽입합니다.
Voice Match: 정확도가 떨어지는 것 같다면 설정 > Google > Google 앱 설정 > 검색, 어시스턴트 및 음성 > 음성 > Voice Match에서 음성 모델을 다시 학습시키세요.

Google 어시스턴트 받아쓰기

빠른 텍스트 입력을 위해 Google 어시스턴트 통합을 지원하는 앱에서 "Hey Google, 입력해줘..."라고 말한 뒤 메시지를 읊을 수도 있습니다. 짧은 메시지에는 빠르지만 긴 받아쓰기에는 실용적이지 않습니다.

Chromebook

ChromeOS는 내장된 접근성 기능과 웹 앱 내의 Google 음성 엔진을 통해 받아쓰기를 지원합니다.

받아쓰기 활성화하기

설정 > 접근성 > 키보드 및 텍스트 입력으로 이동합니다.
받아쓰기 활성화를 켭니다.
시스템 트레이에 작은 마이크 아이콘이 나타납니다. 이를 클릭하여 모든 텍스트 필드에서 받아쓰기를 시작하세요.

ChromeOS 받아쓰기는 Android와 동일한 Google 음성 엔진을 사용합니다. 정확도, 언어 지원 및 음성 명령이 거의 동일합니다.

Google 문서에서 음성 입력 사용하기

주로 Google 문서에서 작업한다면 앱에 내장된 별도의 음성 입력 도구가 있습니다.

Google 문서를 엽니다.
도구 > 음성 입력을 선택하거나 Ctrl + Shift + S를 누릅니다.
왼쪽 여백에 나타나는 마이크 아이콘을 클릭하고 말을 시작합니다.

Google 문서 음성 입력은 100개 이상의 언어를 지원하며 "굵게", "이탤릭체", "글머리 기호 목록 만들기", "제목 2" 등 서식 지정을 위한 음성 명령을 포함하고 있습니다. Chromebook에서 문서 작업이 많다면 시스템 수준의 받아쓰기보다 이 기능이 더 유용할 때가 많습니다.

첫 문장 이후 정확도가 떨어지는 이유

음성 인식을 켜고 첫 문장을 말했을 때는 잘 작동하다가, 전체 단락을 받아쓰려고 하면 결과가 엉망이 되는 경우가 있습니다. 단어를 놓치고, 동음이의어를 틀리고, 문장 부호가 엉뚱한 곳에 찍히기도 하죠.

이는 가장 흔한 경험이며, 원인은 대개 음성 엔진이 아니라 처음 받아쓰기를 할 때 사람들이 말하는 방식에 있습니다.

자연스러운 대화에는 추임새, 말실수, 문장 중간의 수정, 끝맺지 못한 생각 등이 포함됩니다. 사람이 들을 때는 뇌가 이를 자동으로 수정해서 듣지만, 음성 인식 엔진은 "음", "어", "아니 잠깐만" 같은 소리와 미완성된 생각까지 모든 것을 그대로 기록합니다.

정확도를 즉시 높이는 세 가지 습관:

말하기 전에 생각을 마치세요. 잠시 멈추고 머릿속으로 완전한 문장을 만든 다음 말하세요. 이 습관 하나만으로도 대부분의 변환 오류를 없앨 수 있습니다.
자동 문장 부호 기능이 익숙해질 때까지 문장 부호를 직접 말하세요. "쉼표", "마침표"라고 직접 말하는 것이 5분 정도는 어색하겠지만 금방 익숙해집니다.
길게 이어 말하지 말고 짧게 끊어서 받아쓰세요. 2~3문장을 말하고 잠시 멈추어 검토한 뒤 계속하세요. 길게 끊이지 않고 말하면 엔진의 버퍼에 과부하가 걸려 오류율이 높아집니다.

내장된 음성 인식 엔진은 짧은 메시지나 간단한 메모에는 이러한 조정을 잘 처리합니다. 하지만 회의록, 인터뷰, 강의 녹음, 팟캐스트 스크립트와 같이 긴 콘텐츠의 경우 더 높은 정확도가 요구되며 내장 도구의 한계가 드러나기 시작합니다.

내장 받아쓰기 기능의 한계

기기 내장 음성 인식은 실시간의 짧은 입력을 위해 설계되었습니다. 말하면 변환되고, 오류를 수동으로 수정하고, 다음으로 넘어가는 방식입니다. 문자 메시지나 검색어 입력에는 충분하죠.

하지만 다음과 같은 상황에서는 효율이 떨어집니다.

장문 텍스트 변환: 2,000단어 분량의 기사를 받아쓰기하려면 몇 문장마다 오류를 수정해야 합니다. 이러한 중단은 받아쓰기의 장점인 속도를 갉아먹습니다.
사전 녹음된 오디오: 내장 받아쓰기는 실시간 마이크 입력이 필요합니다. 오디오 파일, 회의 녹음본, 팟캐스트 에피소드를 직접 변환할 수 없습니다.
다수의 화자: 기기 받아쓰기는 화자를 구분하지 못합니다. 회의나 인터뷰에서 모든 목소리가 구분 없이 하나의 텍스트 스트림으로 합쳐집니다.
전문 용어: 의학 용어, 법률 용어, 기술 제품명, 외국어 등은 오인식되는 경우가 많으며 자동 수정 기능이 상황을 더 악화시키기도 합니다.

이런 사례들은 특수한 경우가 아닙니다. 오히려 음성 인식이 가장 큰 가치를 발휘하는 상황들이며, 바로 여기서 내장 도구의 한계가 명확해집니다.

오디오 파일, 회의 및 긴 텍스트 변환을 위한 AI 음성 인식

Fish Audio의 Speech to Text는 다른 접근 방식을 취합니다. 실시간 마이크 전용 받아쓰기 대신, 오디오 파일을 처리하고 다양한 음성 패턴으로 학습된 신경망 모델을 사용하여 고정밀 텍스트 변환을 생성합니다. 실제 활용 시 장점은 다음과 같습니다:

모든 오디오 파일 업로드 가능: MP3, WAV, M4A 및 기타 표준 포맷을 지원합니다. 회의, 강의, 인터뷰, 팟캐스트 에피소드를 녹음하여 업로드하면 타이핑 없이 텍스트 변환 결과를 얻을 수 있습니다.
다국어 지원: 광범위한 언어를 처리할 수 있으며, 대화 중간에 언어를 바꾸어 말하는 오디오도 처리 가능합니다.
긴 콘텐츠에서의 높은 정확도: 긴 지문에서 정확도가 떨어지는 내장 받아쓰기와 달리, Fish Audio의 STT 모델은 몇 분 또는 몇 시간 분량의 오디오에서도 일관성을 유지합니다. 신경망 구조가 짧은 문구가 아닌 지속적인 텍스트 변환을 위해 설계되었기 때문입니다.
마이크 불필요: 실시간으로 기기에 대고 말할 필요가 없습니다. 어떤 소스에서든 녹음된 파일을 업로드하기만 하면 텍스트 결과를 받을 수 있습니다.

콘텐츠 제작자, 기자, 연구원 등 정기적으로 음성을 텍스트로 변환해야 하는 사람들에게 이 워크플로우는 "받아쓰기하며 끊임없이 오류를 수정하는 것"에서 "자연스럽게 녹음한 뒤 한꺼번에 변환하는 것"으로 전환되는 경험을 선사합니다.

개발자를 위한 API 액세스

음성 인식 기능이 필요한 애플리케이션을 구축 중이라면, Fish Audio의 API를 통해 동일한 텍스트 변환 엔진에 프로그래밍 방식으로 액세스할 수 있습니다. 활용 사례는 다음과 같습니다:

회의 도구: 화상 회의의 자동 텍스트 변환
접근성 기능: 비디오 플랫폼을 위한 실시간 자막
콘텐츠 파이프라인: 팟캐스트 에피소드 또는 영상 나레이션의 일괄 텍스트 변환
음성 인터페이스: 앱 내에서 사용자 음성을 실행 가능한 텍스트로 변환

API는 실시간 애플리케이션을 위한 스트리밍과 사전 녹음된 파일을 위한 배치 처리를 모두 지원합니다. 자세한 내용과 가격은 fish.audio/plan에서 확인할 수 있습니다.

결론

음성 인식은 모든 주요 플랫폼에서 사용할 수 있습니다. Windows는 Win + H, Mac은 Fn 두 번, iPhone과 Android는 마이크 아이콘, Chromebook은 시스템 트레이 마이크를 사용하면 됩니다. 기능을 켜는 데는 몇 초밖에 걸리지 않으며, 빠른 메시지나 짧은 메모에는 내장 기능으로도 충분합니다.

하지만 그보다 긴 작업의 경우, 내장 도구는 수정 작업이 많아져 속도의 이점을 상쇄합니다. 녹음본을 텍스트로 변환하거나, 회의 내용을 처리하거나, 긴 오디오를 텍스트로 바꾸어야 한다면 기기 수준의 받아쓰기가 감당하지 못하는 업무를 Fish Audio의 Speech to Text로 해결해 보세요. 업로드하고, 변환하면 끝입니다.

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인

이 글 공유하기

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >

모든 기기에서 음성 인식을 켜고 받아쓰기를 시작하는 방법

Windows 10 및 11

음성 타이핑 활성화하기

Windows 음성 인식

macOS

받아쓰기 활성화하기

음성 명령 (Voice Control)

iPhone 및 iPad

받아쓰기 활성화하기

Android

Gboard에서 음성 타이핑 활성화하기

Google 어시스턴트 받아쓰기

Chromebook

받아쓰기 활성화하기

Google 문서에서 음성 입력 사용하기

첫 문장 이후 정확도가 떨어지는 이유

내장 받아쓰기 기능의 한계

오디오 파일, 회의 및 긴 텍스트 변환을 위한 AI 음성 인식

개발자를 위한 API 액세스

결론

실감 나는 목소리를 만들어보세요

최근 글

우리가 말하는 오픈 소스의 의미와 S2에 이것이 중요한 이유

Fish Audio S2! 단어 수준의 세밀한 AI 음성 제어

Fish Audio, S2 오픈 소스 공개: 미세 제어와 프로덕션 스트리밍의 결합

우리가 말하는 오픈 소스의 의미와 S2에 이것이 중요한 이유

Fish Audio S2! 단어 수준의 세밀한 AI 음성 제어

Fish Audio, S2 오픈 소스 공개: 미세 제어와 프로덕션 스트리밍의 결합