Google Docs 음성 입력 전체 가이드: 음성 입력 및 Speech-to-Text 사용 방법

2026년 2월 28일

Google Docs 음성 입력 전체 가이드: 음성 입력 및 Speech-to-Text 사용 방법

휴대전화로 45분간의 고객 인터뷰를 녹음했습니다. 다시 책상으로 돌아와 Google Docs를 열고 "전사(transcribe)" 기능을 검색해 보지만 아무것도 찾을 수 없습니다. Google Docs 음성 입력을 시도해 보며 노트북 마이크에 휴대전화를 갖다 대고 재생 버튼을 누릅니다. Google은 단어의 약 40% 정도만 올바르게 받아쓰다가 오디오 품질이 떨어지자 아예 포기해 버립니다.

이것이 대부분의 사람들이 겪게 되는 한계입니다. Google Docs에는 조용한 방에서 마이크에 직접 대고 말할 때 잘 작동하는 기본 음성 입력 도구가 내장되어 있습니다. 하지만 녹음된 파일을 전사하거나, 여러 화자를 처리해야 하거나, 시끄러운 환경에서 받아쓰기를 해야 하는 순간 Google Docs 음성 입력은 한계에 부딪힙니다. 일반적인 사람의 타이핑 속도는 분당 40단어입니다. 반면 받아쓰기는 분당 150단어에 달할 수 있습니다. 이 3.7배의 속도 차이는 Speech-to-Text 도구가 실제로 여러분의 말을 정확히 캡처할 때만 의미가 있습니다.

Google Docs 음성 입력, 제대로 설정하면 생각보다 뛰어납니다

대부분의 사람들은 음성 입력을 한 번 시도해 보고 오류에 실망하여 포기합니다. 대부분의 경우 문제는 도구가 아니라 설정에 있습니다. 카페에서 노트북 내장 마이크를 사용하는 것보다 15달러짜리 USB 마이크와 조용한 방을 준비하는 것이 정확도를 두 배로 높여줍니다.

시작하기 전에 음성 입력이 할 수 있는 것과 할 수 없는 것을 확인하세요:

기능	지원 여부	참고 사항
실시간 받아쓰기	예	마이크에 대고 직접 말하기
오디오 파일 전사	아니요	실시간 마이크 입력만 처리
음성으로 구두점 입력	예	"마침표", "쉼표", "새 단락"이라고 말하기
다국어 지원	예	100개 이상의 언어 지원
화자 식별	아니요	화자 간의 차이를 구별할 수 없음
오프라인 사용	아니요	인터넷 연결 필요
모바일 지원	예	Android 및 iOS용 Google Docs 앱

오디오 파일 전사 항목 옆의 "아니요"는 대부분의 사용자가 대안을 찾게 만드는 가장 큰 제한 사항입니다. 이 부분은 뒤에서 다시 다루겠습니다.

단계별 가이드: Google Docs 음성 입력 설정하기

데스크톱 (Chrome 브라우저 필수)

음성 입력은 Google Chrome에서만 작동합니다. Firefox, Safari 또는 Edge에서는 나타나지 않습니다.

Chrome에서 Google Docs를 엽니다.
도구 > 음성 입력으로 이동합니다 (또는 Windows의 경우 Ctrl + Shift + S, Mac의 경우 Cmd + Shift + S를 누릅니다).
문서 왼쪽에 마이크 아이콘이 나타납니다.
마이크 위의 드롭다운을 클릭하여 언어를 선택합니다.
마이크 아이콘을 클릭합니다. 듣고 있을 때는 아이콘이 빨간색으로 변합니다.
자연스러운 속도로 명확하게 말하기 시작합니다.
중지하려면 마이크를 다시 클릭하거나, 약 30초 동안 멈추면 자동으로 중지됩니다.

모바일 (Android 및 iOS)

모바일 환경은 기기 자체의 음성 인식 기능을 사용하기 때문에 약간 다릅니다.

Google Docs 앱을 엽니다.
텍스트를 입력할 위치를 탭하여 커서를 둡니다.
키보드의 마이크 아이콘을 탭합니다 (이것은 Google Docs 전용 기능이 아닌 기기 내장 받아쓰기 기능입니다).
자연스럽게 말하면 텍스트가 실시간으로 나타납니다.
중지하려면 마이크를 다시 탭합니다.

Android의 경우 Google의 Speech-to-Text 인식이 OS와 긴밀하게 통합되어 있어 정확도가 더 높은 경향이 있습니다. iOS의 경우 Apple의 받아쓰기 엔진을 사용하는데, 영어는 잘 처리하지만 다른 언어에서는 Google의 음성 인식 정확도에 비해 뒤처질 수 있습니다.

작업 시간을 10분 단축해주는 음성 명령

많은 사용자가 Google Docs 음성 입력이 서식 지정 및 탐색을 위한 음성 명령을 지원한다는 사실을 모릅니다. 이 중 5가지만 익혀도 말하기와 타이핑 사이를 계속 오갈 필요가 없습니다.

필수 구두점 명령:

"마침표" → .
"쉼표" → ,
"물음표" → ?
"느낌표" → !
"새 줄" → 다음 줄로 이동
"새 단락" → 단락 구분 삽입

서식 명령 (영어 설정 시):

"Bold" / "Unbold"
"Italics" / "Remove italics."
"Underline" / "Remove underline."
"Create bulleted list."
"Create numbered list."

탐색 및 편집:

"Select [word]" → 특정 단어 강조 표시
"Select all" → 전체 선택
"Delete" / "Backspace" → 마지막 단어 삭제
"Go to end of line" → 커서 이동
"Undo" → 마지막 작업 취소

주의사항: 이러한 서식 명령은 인터페이스 언어가 영어로 설정되어 있을 때만 작동합니다. 스페인어나 일본어로 받아쓰기를 하는 경우, 내용은 해당 언어로 말할 수 있지만 서식 명령은 영어로 내려야 합니다. 이는 Google Docs 음성 입력을 사용하는 다국어 사용자에게는 다소 불편한 한계입니다.

음성 입력의 한계 (그리고 도구를 교체해야 할 때)

음성 입력은 조용한 환경에서의 초안 작성이라는 원래 목적에는 놀라울 정도로 훌륭합니다. 하지만 설정만으로는 해결할 수 없는 5가지 명확한 한계가 있습니다.

오디오 파일 전사 불가. 이것이 가장 큰 공백입니다. MP3를 업로드하거나 WAV 파일을 끌어오거나 Zoom 녹화본을 연결할 수 없습니다. 오직 실시간 마이크 입력만 처리합니다. 녹음된 인터뷰, 강의 또는 팟캐스트 에피소드를 전사해야 한다면 Google Docs의 기능만으로는 불가능합니다.

단일 화자 전용. 음성 입력은 화자 분리(Speaker Diarization) 개념이 없습니다. 회의에서 두 사람이 말하면, 전사 결과는 누가 무엇을 말했는지 알 수 없는 구분 없는 텍스트 덩어리가 됩니다. 인터뷰나 여러 명이 참여하는 회의의 경우, 수동 편집 없이는 결과물을 거의 사용할 수 없습니다.

억양 및 배경 소음 시 정확도 저하. Google의 Speech-to-Text 모델은 주로 명확하고 표준적인 억양을 바탕으로 학습되었습니다. 비원어민, 지역 방언 또는 배경 소음이 있는 경우 정확도가 80% 미만으로 떨어질 수 있습니다. 이 정도 오류율이면 받아쓰기로 절약한 시간보다 전사본을 수정하는 데 더 많은 시간을 쓰게 됩니다.

사후 편집 지능 부족. 음성 입력은 가공되지 않은 텍스트만 제공합니다. 문장 시작 외에는 고유 명사의 대문자 자동 변환이 없고, 숫자나 날짜의 스마트한 서식 지정도 없으며, 문맥에 따른 교정도 이루어지지 않습니다. 동음이의어의 경우 매번 복불복입니다.

실시간 전용. 문장 중간에 인터넷이 끊기면 음성 입력도 멈춥니다. 로컬 백업이나 버퍼링, 복구 기능이 없습니다. 연결 의존성 때문에 Wi-Fi가 불안정한 곳에서 긴 받아쓰기 세션을 진행하기에는 신뢰도가 떨어집니다.

Google Docs에서 오디오 파일을 전사하는 임시방편

기술적으로 가능한 방법이 하나 있지만, 들리는 것만큼이나 번거롭습니다.

컴퓨터의 소리 설정을 엽니다.
시스템 오디오 출력을 마이크 입력으로 루프백하도록 설정합니다 (Windows의 경우 "스테레오 믹스", Mac의 경우 Soundflower나 BlackHole 같은 타사 앱 필요).
Google Docs를 열고 음성 입력을 시작합니다.
오디오 파일을 재생합니다. 시스템이 가상 마이크를 통해 오디오를 라우팅하고 Google Docs 음성 입력이 이를 실시간으로 전사합니다.

실제로 이 방식은 세 가지 문제를 가지고 있습니다:

오디오가 추가 처리 단계를 거치기 때문에 정확도가 크게 떨어집니다.
전체 파일을 실시간으로 재생해야 합니다. 60분짜리 녹음은 전사하는 데 60분이 걸립니다.
시스템 알림 소리나 배경 앱 오디오까지 모두 이상한 텍스트로 전사됩니다.

짧고 명확한 오디오 클립에는 급한 대로 쓸 수 있지만, 5분 이상의 길이나 오디오 품질이 완벽하지 않은 경우에는 진정한 해결책이 되지 못합니다.

Google Docs로 충분하지 않을 때: Fish Audio를 활용한 전문적인 Speech-to-Text

만약 여러분의 워크플로우에 음성 입력이 처리할 수 없는 시나리오가 포함되어 있다면, 전문적인 Speech-to-Text 도구가 그 공백을 완벽히 메워줄 수 있습니다. Fish Audio의 Speech-to-Text는 업로드된 오디오, 다국어 지원, 소음이 섞인 녹음 및 제작 수준의 전사가 필요한 사례를 위해 설계되었습니다.

음성 입력이 하지 못하는 것들을 해결합니다

오디오 파일 업로드: MP3, WAV, M4A 등 흔히 사용하는 포맷을 그대로 업로드하세요. 실시간 재생 트릭이 필요 없습니다. 파일을 업로드하면 바로 전사본을 얻을 수 있습니다.
다양한 억양에 대한 높은 정확도: Fish Audio의 모델은 표준어뿐만 아니라 다양한 말하기 패턴을 학습했습니다. 지역 억양, 비원어민, 그리고 대화 중 발생하는 잦은 멈춤이나 추임새("음", "어" 등)도 더 매끄럽게 처리합니다.
다국어 전사: 영어, 중국어(표준어 및 광둥어), 일본어, 한국어를 지원합니다.
소음 내성: 배경 소음, 방 안의 울림, 낮은 통화 품질의 녹음도 처리할 수 있도록 구축되었습니다. 스튜디오 환경뿐만 아니라 실제 현장의 오디오를 처리하는 데 최적화되어 있습니다.

워크플로우: 녹음된 오디오를 단 몇 분 만에 Google Docs로

fish.audio/speech-to-text에 접속합니다.
오디오 파일을 업로드합니다 (인터뷰, 강의, 회의 녹음, 음성 메모 등).
언어를 선택합니다 (또는 자동 감지 기능을 사용합니다).
전사하기를 클릭하고 잠시 기다립니다. 60분 길이의 파일도 지원되며, 처리 시간은 파일 길이에 따라 다르지만 실시간 재생만큼 오래 걸리지 않습니다.
전사된 텍스트를 복사하여 Google Docs에 붙여넣습니다.

이게 전부입니다. 전사된 텍스트는 깨끗하고 서식이 갖춰져 있어 바로 편집할 수 있습니다. 가상 오디오 라우팅도, 실시간 재생도, Wi-Fi가 끊기지 않기를 기도할 필요도 없습니다.

실제 콘텐츠 워크플로우에서의 활용

Google Docs를 주로 사용하는 작가와 크리에이터를 위한 가장 실용적인 구성은 다음과 같습니다:

실시간 받아쓰기 (초안 작성, 브레인스토밍, 자유 글쓰기): Google Docs 음성 입력을 사용하세요. 무료이고 내장되어 있으며, 조용한 방에서의 개인적인 받아쓰기에 충분합니다.
오디오 전사 (인터뷰, 회의, 강의, 팟캐스트): Fish Audio STT를 사용하세요. 파일을 업로드하고 전사본을 받아 Google Docs에 붙여넣으세요.
텍스트를 오디오로 제작 (작성된 문서를 내레이션으로 변환): 2,000,000개 이상의 목소리, 15초 음성 복제, 8개 언어를 지원하는 Fish Audio TTS를 사용하세요.

이 조합은 아이디어를 캡처하는 음성-텍스트 변환부터 오디오 콘텐츠를 생산하는 텍스트-음성 변환까지 전체 루프를 커버합니다. Google Docs는 집필 공간으로 사용하고, Fish Audio는 양방향 오디오 변환을 담당하게 됩니다.

Google Docs 정확도를 두 배로 높이는 5가지 습관

음성 입력을 사용하든 전문 도구를 사용하든, 어떻게 말하느냐가 도구 선택만큼이나 중요합니다:

단편적인 단어가 아닌 완전한 문장으로 말하세요. 음성 인식 모델은 문맥을 사용하여 단어를 예측합니다. "회의 일정 화요일 오후 3시"라고 하는 것보다 "화요일 오후 3시로 회의 일정을 잡읍시다"라고 하는 것이 모델이 활용할 문맥이 더 많아 정확도가 높습니다.
구두점을 입으로 말하세요. "마침표", "쉼표", "새 단락"을 말하며 진행하세요. 처음 10분은 어색할 수 있지만, 익숙해지면 습관이 되어 전사본이 훨씬 깨끗해집니다.
생각 사이에는 멈춤을 두고, 말끝을 흐리지 마세요. 깨끗한 1초의 멈춤은 모델에게 명확한 문장 경계가 됩니다. "음... 그러니까... 그게..."라며 말끝을 흐리면 나중에 지우는 데 시간이 더 걸리는 불필요한 텍스트가 생성됩니다.
노트북 마이크 대신 USB 마이크를 사용하세요. 입에서 15~~20cm 떨어진 곳에 배치한 2~~3만 원대 USB 콘덴서 마이크가 200만 원짜리 노트북의 내장 마이크보다 성능이 좋습니다. 정확도 차이는 보통 10~15%p에 달합니다.
한 번에 한 가지 언어로만 받아쓰세요. 문장 중간에 한국어와 영어를 섞어 쓰면 두 언어 모두 정확도가 떨어집니다. 한 언어 블록을 마치고 음성 입력을 중지한 뒤, 언어 설정을 바꾸고 계속하세요.

결론

Google Docs 음성 입력은 실시간 받아쓰기를 위한 훌륭한 무료 도구입니다. 올바르게 설정하고, 몇 가지 음성 명령을 익히고, 괜찮은 마이크를 사용한다면 타이핑보다 3~4배 빠른 속도로 초안을 작성할 수 있습니다. 이는 타이핑보다 생각이 빠른 작가들에게 진정으로 유용한 도구입니다.

하지만 Google Docs는 텍스트 편집기이지 오디오 처리 플랫폼이 아닙니다. 녹음 파일을 전사하거나, 여러 화자를 관리하거나, 열악한 조건의 오디오를 처리해야 하는 순간 Google Docs의 한계를 느끼게 될 것입니다. 가장 깔끔한 업그레이드 방법은 Google Docs를 작업 공간으로 유지하면서, 입력 단계의 전사와 출력 단계의 음성 생성을 위해 모든 오디오 관련 작업은 Fish Audio를 사용하는 것입니다. 무료 티어부터 시작하여 가장 처리하기 어려운 녹음 파일로 직접 테스트해 보세요.

자주 묻는 질문

Google Chrome 브라우저에서 문서를 연 뒤, 상단 메뉴의 '도구' > '음성 입력'을 선택하거나 단축키 Ctrl+Shift+S(Mac은 Cmd+Shift+S)를 누르면 됩니다.

기본적으로 Google Docs는 실시간 마이크 입력만 지원합니다. 녹음된 파일을 전사하려면 Fish Audio 같은 전문 Speech-to-Text 서비스를 사용하여 텍스트로 변환한 후 Google Docs에 복사하여 붙여넣는 방식이 가장 정확하고 빠릅니다.

가장 먼저 Google Chrome 브라우저를 사용 중인지 확인하세요. 그 다음 브라우저에 마이크 권한이 허용되어 있는지, 조용한 환경인지, 그리고 마이크가 제대로 연결되어 있는지 체크해야 합니다.

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인

이 글 공유하기

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >