음성 인식 기술(STT)의 원리는 무엇일까요? – 음성-텍스트 변환의 작동 원리

2026년 2월 28일

가이드

음성 인식 기술(STT)의 원리는 무엇일까요? – 음성-텍스트 변환의 작동 원리

대부분의 사람들은 음성 인식(STT, Speech-to-Text)을 오디오가 입력되면 텍스트가 출력되는, 마치 분당 150단어 속도의 사전 검색과 같은 단순한 변환 과정으로 생각합니다. 하지만 실제로는 단 한 문장의 음성이라도 4~~6단계의 신경망 처리를 거쳐야 합니다. 각 단계는 인간이 무의식적으로 수행하지만, 기계는 여전히 약 5~~15%의 확률로 잘못 해석하는 뚜렷한 과제들을 해결합니다.

스탠퍼드 대학교의 연례 AI 인덱스에 따르면, 오류율은 2013년 43%에서 2025년 깨끗한 영어 오디오 기준으로 5% 미만으로 떨어졌습니다. 그럼에도 불구하고 이 수치는 큰 변동성을 숨기고 있습니다. 깨끗한 스튜디오 오디오를 붐비는 식당에서의 전화 녹음으로 바꾸거나, 영어를 태국어로 변경하거나, 두 번째 화자가 등장하면 오류율은 금세 15~30%까지 치솟을 수 있습니다. 그 이유를 이해하려면 이 기술이 실제로 어떻게 작동하는지 그 이면을 살펴봐야 합니다.

음성 인식 기술(STT)의 한 문장 정의 (그리고 심층 분석)

핵심만 말하자면, 음성-텍스트 변환(STT) 또는 자동 음성 인식(ASR)은 구어를 문어로 변환하는 기술입니다. 이것이 한 문장으로 정의한 내용입니다.

심층적인 설명: STT 시스템은 먼저 아날로그 오디오 신호를 캡처하여 디지털 표현으로 변환하는 것으로 시작합니다. 그 후 시스템은 음성 소리에 해당하는 패턴을 추출하고, 해당 소리를 가능성이 높은 단어와 문장에 매핑하며, 발화의 가장 확률 높은 의미를 결정하기 위해 언어적 맥락을 적용합니다. 모든 단계에는 속도, 정확도 및 계산 비용 사이의 절충이 수반됩니다. 휴대폰의 실시간 전사(Transcription)와 의료 전사 서비스의 24시간 소요 시간 사이의 차이는 결국 각 시스템이 선택한 절충안에 달려 있습니다. 결론적으로 "음성 인식이 어떻게 작동하는가"라는 질문에 대한 실질적인 답변은 환경, 화자의 다양성, 오디오 품질 및 사용 사례에 따라 크게 달라집니다.

5단계 워크플로우: 소리와 텍스트 사이에서 일어나는 일들

휴대폰에서 실행되든 클라우드 데이터 센터에서 실행되든, 현대의 음성 인식 시스템은 일반적으로 다섯 가지 핵심 단계를 따릅니다. 각 단계는 특정 기술적 과제를 해결합니다.

1단계: 오디오 전처리

가공되지 않은 오디오는 복잡합니다. 인식이 시작되기 전에 시스템은 신호를 정제하고 표준화합니다.

소음 감소: 시스템은 배경 소음(교통 소음, 음악 또는 겹치는 대화 등)에서 음성 신호를 분리합니다. 현대 시스템은 신경망 기반의 소원 분리(Source Separation) 기술을 사용하여 주변 소음과 화자의 목소리를 구별합니다.
정규화: 조용한 목소리와 큰 목소리가 일관된 신호 강도를 생성하도록 볼륨 레벨을 조정합니다.
샘플링 및 프레이밍: 연속적인 오디오 스트림은 일반적으로 각각 20~25밀리초의 짧은 프레임으로 나뉘며, 프레임 간에는 약간의 겹침이 있습니다. 각 프레임은 그 안의 오디오 신호를 음향적으로 안정적인 것으로 처리할 수 있을 만큼 짧습니다.

이 단계는 오디오 품질이 정확도를 결정짓는 지점입니다. 깨끗한 스튜디오 녹음은 시스템에 강력한 출발점을 제공합니다. 차 안에서 블루투스 스피커를 통해 녹음된 전화 통화는 이후 모든 단계에서 보정해야 할 소음을 유발합니다.

2단계: 특징 추출

정제된 오디오 프레임은 파형 데이터에서 음성 소리의 특성을 포착하는 형식으로 변환되어야 합니다. 시스템은 원시 음파를 직접 처리하지 않고, 각 아주 작은 오디오 조각이 왜 그렇게 들리는지를 나타내는 수치적 표현인 '특징'을 추출합니다.

전통적으로 시스템은 인간의 귀가 음높이와 톤을 인식하는 방식과 유사하게 오디오를 표현하는 **멜 주파수 셉스트럼 계수(MFCCs)**에 의존합니다. 이는 사진을 필수적인 윤곽은 보존하면서 시각적 노이즈는 제거한 스케치로 변환하는 것과 비슷하다고 생각하면 됩니다.

최근의 시스템, 특히 엔드투엔드(End-to-End) 딥러닝 시스템을 기반으로 구축된 시스템은 MFCC와 같이 수동으로 제작된 특징을 생략하고 원시 오디오에서 직접 자체적인 표현을 학습합니다. OpenAI의 Whisper와 Meta의 wav2vec이 이러한 방식의 대표적인 예입니다. 충분한 학습 데이터가 있다면 신경망이 인간이 설계한 것보다 뛰어난 특징 표현을 스스로 찾아낼 수 있음을 보여주었습니다.

3단계: 음향 모델링

추출된 오디오 특징을 음성 소리에 매핑하는 단계입니다. 이 단계의 근본적인 질문은 "이 오디오 프레임에 어떤 음소(소리의 기본 단위)가 포함되어 있는가?"입니다.

영어에는 약 44개의 음소가 있습니다. 예를 들어 "cat"이라는 단어는 /k/, /æ/, /t/ 세 가지 음소로 구성됩니다. 음향 모델은 각 프레임에서 추출된 특징을 평가하고 가능한 모든 음소에 대한 확률 분포를 추정합니다.

이 단계에서는 두 가지 아키텍처가 주도적입니다:

연결주의 시공간 분류(CTC): 신경망이 전체 오디오 시퀀스를 처리하고 각 타임스텝에서 음소 확률을 출력하며, 사전에 정렬된 학습 데이터가 필요하지 않습니다. CTC는 학습 중에 오디오와 전사본을 수동으로 맞출 필요를 없앴기 때문에 큰 혁신이었습니다.

어텐션 기반 인코더-디코더(Transformer): GPT와 같은 대규모 언어 모델의 아키텍처를 오디오 처리에 맞게 조정한 방식으로, 인코더를 사용하여 오디오 특징을 처리하고 디코더를 사용하여 한 번에 하나의 텍스트 토큰을 생성합니다. 어텐션 메커니즘은 오디오의 어느 부분이 각 출력 토큰에 해당하는지 학습합니다. CTC와 비교했을 때, 이 방식은 장거리 의존성을 더 효과적으로 처리하여 대화체 음성에 대해 더 자연스러운 전사 결과를 만들어내는 경우가 많습니다.

2025~2026년의 대부분의 상용 시스템은 속도와 정확도의 균형을 맞추기 위해 CTC 정렬과 Transformer 기반 디코딩을 결합한 하이브리드 방식을 채택합니다.

4단계: 언어 모델링

음향 모델링은 어떤 소리가 있는지를 알려줍니다. 언어 모델링은 문맥상 그 소리들이 어떤 단어를 나타낼 가능성이 가장 높은지를 결정합니다.

이 단계가 중요한 이유는 다음과 같습니다. /r/ /aɪ/ /t/라는 음소 시퀀스를 생각해보십시오. 이는 "right," "write," 또는 "rite"에 해당할 수 있습니다. 언어적 문맥이 없다면 시스템은 추측할 뿐입니다. 이전 단어가 "please write"였다는 것을 아는 언어 모델이 있다면 "write"일 확률은 확신에 가까워집니다.

현대적인 STT 시스템은 일반적으로 두 가지 유형의 언어 문맥에 의존합니다:

통계적 언어 모델: 이전 2~5개 단어를 기반으로 단어를 예측합니다. 이러한 모델은 효율적이고 가볍지만 문맥 범위가 제한적입니다.
신경망 언어 모델: 전체 문장(또는 문단)을 처리하여 단어 확률을 추정합니다. 이러한 모델은 모호한 문구, 장거리 의존성 및 복잡한 문장 구조를 더 효과적으로 처리할 수 있지만, 계산 비용이 훨씬 더 많이 듭니다.

특정 도메인의 어휘 또한 언어 모델에서 중요한 역할을 합니다. 범용 언어 모델은 "CRISPR-Cas9"을 "crisper cast nine"으로 전사할 수 있지만, 생물의학 데이터로 미세 조정(Fine-tuning)된 모델은 이를 정확하게 인식할 수 있습니다. 이것이 왜 의료, 법률, 금융 분야의 전문 전사 서비스가 전문 용어 측면에서 여전히 범용 도구보다 뛰어난 성능을 보이는지 설명해 줍니다.

5단계: 후처리 및 포맷팅

3단계와 4단계를 거친 후의 결과물은 구두점, 대문자 표시, 단락 구분이 없는 소문자 단어들의 나열입니다. 후처리는 이 원시 출력을 사용 가능한 텍스트로 변환합니다.

구두점 삽입: 별도의 모델이 음향적 단서(음높이 변화 및 일시 정지 등)와 언어적 패턴을 기반으로 마침표, 쉼표, 물음표를 삽입할 위치를 예측합니다.
대문자 표시: 고유 명사, 문장 시작, 약어는 언어 규칙과 개체명 인식(Named Entity Recognition)을 기반으로 대문자로 표시됩니다.
숫자 포맷팅: "three hundred forty two dollars and fifty cents"는 "$342.50"이 됩니다.
비유창성 제거: "음", "어"와 같은 채움말과 말실수 등을 선택적으로 제거할 수 있습니다.
화자 분리(활성화된 경우): 여러 명이 녹음된 파일에서 각 부분이 어떤 화자의 것인지 결정합니다. 이는 목소리 특성(음높이, 음색, 말하기 속도 등)을 분석하여 오디오 세그먼트를 화자 정체성별로 클러스터링하는 별도의 모델입니다.

후처리는 종종 전사본이 단순히 기술적으로 정확한지, 아니면 실제로 사용 가능한지를 결정합니다. 구두점이 없는 95% 정확도의 전사본보다 형식이 제대로 갖춰진 92% 정확도의 전사본이 읽기에 훨씬 편합니다.

43% 오류에서 5%로: 모든 것을 바꾼 세 가지 혁신

음성 인식 연구는 1950년대부터 진행되어 왔습니다. "어떻게 음성 인식이 현대의 앱과 기기를 구동할 만큼 충분히 잘 작동하게 되었는가"라고 묻는다면, 그 답은 지난 10년 동안 정확도를 높였을 뿐만 아니라 연구를 실질적으로 유용한 기술로 변화시킨 세 가지 주요 혁신에 있습니다.

혁신 1: 딥러닝이 은닉 마르코프 모델(HMM)을 대체함 (2012-2015). 수십 년 동안 STT 시스템은 가우시안 혼합 모델(GMM)과 결합된 은닉 마르코프 모델(HMM)이라는 통계 모델에 의존했습니다. 이러한 시스템은 정교하게 설계되었지만 대화체 음성에서 약 20~25%의 단어 오류율에서 정체되었습니다. 심층 신경망(DNN)이 핵심 음향 모델로서 HMM을 대체했을 때, 오류율은 단기간에 30%나 급감했습니다. 이는 Siri나 Google Voice와 같은 제품들이 "재미있는 장난감"에서 불완전하더라도 진정으로 유용한 도구로 진화한 전환점이 되었습니다.

혁신 2: 엔드투엔드(End-to-End) 모델이 시스템을 단순화함 (2016-2020). 전통적인 STT 시스템은 특징 추출, 음향 모델링, 언어 모델링을 위해 별도로 설계되고 독립적으로 훈련된 모델이 필요했습니다. Google의 LAS(Listen, Attend and Spell) 및 Meta의 wav2vec과 같은 엔드투엔드 시스템은 오디오를 텍스트에 직접 매핑하는 단일 신경망을 훈련했습니다. 이는 엔지니어링 복잡성을 줄였고, 더 중요한 것은 각 단계를 개별적으로 최적화하는 대신 모델이 전체 프로세스를 공동으로 최적화할 수 있게 해주었습니다.

혁신 3: 대규모 라벨 미지정 오디오에 대한 자기 지도 사전 학습 (2020-현재). 최근의 혁신은 인간이 작성한 전사본에 의존하지 않고 수십만 시간의 오디오를 통해 모델을 훈련시킨 것에서 비롯되었습니다. 예를 들어 OpenAI의 Whisper 모델은 68만 시간의 다국어 오디오로 훈련되었습니다. Meta의 wav2vec 2.0은 라벨이 지정되지 않은 음성으로 사전 학습된 모델이 단 10분의 라벨 지정 데이터만으로도 미세 조정될 수 있으며, 100배 더 많은 라벨 지정 데이터로 훈련된 시스템보다 여전히 뛰어난 성능을 보일 수 있음을 증명했습니다. 이 방식은 현대 STT 시스템이 라벨 지정 학습 데이터가 제한적인 언어를 포함하여 수십 개의 언어에서 안정적으로 작동하는 핵심 이유입니다.

이 세 가지 변화는 누적적입니다. 현대의 상용 STT 시스템은 심층 신경망 아키텍처, 엔드투엔드 훈련, 자기 지도 사전 학습을 모두 통합합니다. 그 결과 깨끗한 영어 오디오의 오류율은 5% 미만으로 떨어졌고, 10년 전에는 거의 해결 불가능하다고 여겨졌던 까다로운 조건에서도 8~15% 수준을 유지하고 있습니다.

실제 상황에서 정확도가 여전히 차이 나는 이유

기술이 이렇게 발전했는데 왜 휴대폰은 가끔 내 말을 잘못 인식할까요? 5%의 오류율은 이상적인 조건에서 측정된 것이기 때문입니다. 실제 환경에서는 오류를 급격히 증폭시키는 변수들의 영향을 받습니다.

억양 및 방언의 차이. STT 모델은 주로 널리 사용되는 언어의 표준 방언으로 훈련됩니다. 조용한 방에서 녹음된 일반적인 미국식 억양은 거의 완벽한 전사 결과를 보여줄 수 있습니다. 하지만 동일한 환경에서 강한 스코틀랜드 억양이나 인도식 영어 억양은 오류율을 10~15%까지 높일 수 있습니다. 지역 방언과 코드 스위칭(문장 중간에 언어를 바꾸는 것)은 여전히 큰 과제로 남아 있습니다.

오디오 품질 저하. 압축, 배경 소음, 그리고 화자와 마이크 사이의 거리 등 모든 요소가 왜곡을 유발합니다. 마이크에 대고 직접 44.1kHz로 녹음하는 것과 회의 탁자 건너편에서 두 번째 기기로 캡처한 스피커폰 녹음은 근본적으로 다릅니다.

겹치는 음성. 두 사람이 동시에 말할 때 대부분의 STT 시스템은 겹치는 부분에 대해 신뢰할 수 있는 출력을 생성하지 못합니다. 화자 분리 모델이 개선되고는 있지만, 특히 화자의 목소리 특성이 비슷할 때 목소리를 구별하는 것은 여전히 기술적으로 까다로운 문제입니다.

특정 도메인 어휘. 일반적인 STT 모델은 회사의 제품 이름, 업계 약어 또는 특정 분야의 전문 용어를 자동으로 인식하지 못합니다. 도메인 적응 없이는 희귀한 단어들이 음성적으로 유사한 흔한 단어들로 대체됩니다.

장문 인식 성능 저하. 일부 모델은 매우 긴 녹음에서 문맥을 유지하는 데 어려움을 겪습니다. 언어 모델이 제한된 유효 윈도우 내에서 작동하기 때문에 30분 전의 정보가 현재 문장에 대한 예측에 더 이상 영향을 미치지 않을 수 있습니다. 결과적으로 동일한 조건에서 녹음되더라도 5분짜리 회의록이 90분짜리 회의록보다 정확한 경우가 많습니다.

STT가 측정 가능한 가치를 창출하는 6가지 실제 응용 분야

음성-텍스트 변환은 이제 단순히 휴대폰의 편의 기능이 아닙니다. 여러 산업 전반에 걸친 기초 인프라가 되었습니다.

콘텐츠 제작 및 저널리즘: 인터뷰, 기자 회견 및 취재 녹음 전사. 60분 분량의 인터뷰를 녹음한 기자는 STT를 사용함으로써 3~~4시간의 수동 전사 시간을 절약할 수 있으며, 비용은 분당 약 0.01~~0.10달러로 인간 전사 비용인 분당 1~3달러에 비해 매우 저렴합니다.
접근성: 실시간 자막은 회의, 강의 및 라이브 이벤트 중에 청각 장애인 및 난청 사용자를 지원합니다. 많은 관할 구역에서 한때 프리미엄 기능으로 여겨졌던 것이 이제 ADA 및 유사한 규정에 따라 법적 요구 사항이 되었습니다.
의료 문서화: 의료진은 진료 내용을 전자 건강 기록에 받아쓰기합니다. 2023년 스탠퍼드 메디신 연구에 따르면 임상 어휘로 훈련된 의료용 STT 시스템은 의사들의 문서 작업 시간을 하루 평균 2시간 절약해 줍니다.
고객 서비스 분석: 수백만 건의 상담 전화를 전사하고 분석하여 트렌드, 준수 이슈 및 교육 기회를 식별합니다. 기업들은 STT 시스템을 사용하여 매달 10만 시간 이상의 통화 오디오를 처리할 수 있습니다.
법률 전사: 법정 절차, 증언 및 의뢰인 인터뷰. 법률 문맥에서는 전사본의 오류가 중대한 결과를 초래할 수 있기 때문에 정확도 임계값이 더 높습니다.
교육: 강의 전사본 생성, 강의 녹음의 검색 가능한 아카이브 구축, 오디오보다 텍스트를 통해 더 잘 학습하는 학생 지원.

Fish Audio의 STT 엔진이 이러한 원칙을 적용하는 방법

음성 인식은 어떻게 작동할까요? 이 질문에 대한 답을 이론적으로 아는 것과 효과적인 도구를 선택하는 것은 별개의 문제입니다.

Fish Audio의 음성 인식(Speech to Text) 엔진은 위에서 설명한 것과 동일한 세대의 모델, 즉 다양한 오디오 환경에서 자기 지도 사전 학습을 거친 엔드투엔드 딥러닝 시스템을 기반으로 구축되었습니다. 이러한 기술적 토대가 어떻게 실제적인 능력으로 전환되는지는 다음과 같습니다. 소음에 강한 처리. 전처리 및 음향 모델링 단계는 전화 녹음, 실내 잔향, 거리 소음 및 화상 회의 등 실제 오디오를 통해 훈련되었습니다. 그 결과 스튜디오 녹음과 번화한 인도에서 캡처한 음성 메모 사이의 성능 격차가 휴대폰 받아쓰기와 같은 기본 소비자용 도구보다 훨씬 작습니다. 실제로 신뢰할 수 있는 결과를 얻기 위해 깨끗한 녹음 조건이 반드시 필요한 것은 아닙니다.

언어 자동 감지 기능을 갖춘 영어, 중국어, 광둥어, 일본어 및 한국어 지원. Fish Audio의 모델은 앞서 설명한 '혁신 3'의 자기 지도 사전 학습 방식의 혜택을 받습니다. 라벨이 지정된 전사본으로 미세 조정을 거치기 전에 대규모 다국어 오디오 데이터셋에서 음성 패턴을 학습함으로써, 영어만큼 방대한 라벨 지정 학습 데이터셋이 부족한 언어에서도 정확도를 유지합니다. 일본어, 아랍어, 포르투갈어, 태국어 및 수십 개의 다른 언어가 동일한 핵심 아키텍처에 의해 지원됩니다.

빠른 배치 처리. 5단계 아키텍처는 오디오 세그먼트를 순차적이 아닌 병렬로 처리합니다. 시스템이 오디오를 실시간으로 들을 필요가 없기 때문에 60분 분량의 녹음을 2분 이내에 처리할 수 있습니다. 대신 전체 파일을 수집하고 모든 세그먼트를 동시에 처리합니다.

API를 통한 개발자 액세스. STT를 자체 제품에 통합하려는 팀을 위해 Fish Audio API는 실시간 스트리밍을 위한 밀리초 수준의 지연 시간과 파일 처리를 위한 배치 엔드포인트를 지원하는 동일한 엔진을 제공합니다. 소비자용 도구를 구동하는 것과 동일한 모델에 프로그래밍 방식으로 액세스할 수 있습니다.

전체 오디오 루프

Fish Audio의 STT 엔진은 종합 음성 플랫폼의 절반을 나타냅니다. 나머지 절반은 2,000,000개 이상의 목소리, 15초 음성 복제, 13개 이상의 언어를 지원하는 텍스트-음성 변환(Text to Speech)입니다. 이들은 함께 전체 오디오 루프를 형성하여 단일 시스템 내에서 음성 및 서면 콘텐츠의 양방향을 모두 처리합니다:

음성 → 텍스트: 녹음 파일을 업로드하고 전사본을 받습니다 (fish.audio/speech-to-text)
텍스트 → 음성: 텍스트를 붙여넣고 목소리를 선택하여 상용 수준의 오디오를 생성합니다 (fish.audio/text-to-speech)

콘텐츠 제작자, 개발자 및 오디오와 텍스트를 모두 다루는 팀에게 단일 플랫폼 내에서 양방향을 통합하는 것은 별도의 전사 및 오디오 제작 서비스로 인해 발생하는 파편화를 제거해 줍니다.

시작하기

무료 티어는 실제 녹음 파일로 테스트하기에 충분할 만큼 넉넉합니다. 오디오 파일을 업로드하여 전사 품질을 직접 평가하고 현재 솔루션과 비교해 보십시오. 유료 플랜은 월 11달러부터 시작합니다. 전체 가격 정보는 여기에서 확인하실 수 있습니다.

향후 전망: 2026-2027년 STT가 나아갈 방향

세 가지 트렌드가 차세대 음성 인식 기술을 정의하고 "음성 인식이 어떻게 작동하는가"라는 질문을 더욱 명확하게 해줄 것입니다.

실시간 화자 할당 전사. 화자 분리(누가 무엇을 말했는지 라벨링)는 현재 시스템에서 후처리 단계로 구현될 수 있습니다. 차세대 기술은 라이브 대화 중에 이를 실시간으로 처리하여 화자별 정확도 지표와 목소리 프로필에 기반한 즉각적인 화자 식별 기능을 제공할 것입니다.

멀티모달 문맥. STT 시스템은 오디오와 함께 시각적 및 문맥적 신호를 점점 더 많이 통합할 것입니다. 발표자가 슬라이드를 제시하는 경우 모델은 화면의 텍스트를 사용하여 전문 용어의 인식률을 높일 것입니다. 토론 중에 공유 문서를 참조하는 경우 모델은 모호한 단어를 해결하기 위해 해당 문서에서 어휘를 추출할 것입니다. 이러한 진화는 "음성 인식이 어떻게 작동하는가"에 대한 답을 순수 오디오 인식에서 다중 신호 이해로 확장합니다.

개인화된 어휘 적응. 범용 언어 모델에만 의존하는 대신, STT 시스템은 각 사용자의 업계 전문 용어, 연락처, 제품 이름 및 말하기 패턴에 적응하는 개별화된 어휘 프로필을 구축할 것입니다. 이러한 기능은 이미 기기 내 받아쓰기 시스템(Apple과 Google 모두 로컬 적응 지원)에 부분적으로 구현되었습니다. 다음 단계는 기기 간에 작동하며 모든 전사 작업을 통해 개선되는 클라우드 기반 적응입니다.

결론

음성-텍스트 변환은 서로 겹쳐진 5개 계층의 머신러닝으로 구성되며, 각 계층은 인간의 뇌에는 수월하게 느껴지지만 컴퓨터가 근접하기까지는 수십 년이 걸린 과제들을 해결합니다. "음성 인식이 어떻게 작동하는가"에 대한 답을 찾으려면 먼저 이 계층화된 파이프라인을 탐구해야 합니다. 오디오 전처리는 신호를 정제합니다. 특징 추출은 소리를 숫자로 변환합니다. 음향 모델링은 그 숫자를 음성 소리에 매핑합니다. 언어 모델링은 소리를 확률적인 문장으로 변환합니다. 후처리는 출력물을 읽기 좋은 텍스트로 다듬습니다.

약 10년 동안 이 기술은 딥러닝, 엔드투엔드 아키텍처 및 대규모 오디오 데이터셋에 대한 자기 지도 사전 학습의 발전에 힘입어 단어 오류율이 43%에서 5% 미만으로 개선되었습니다. 남아 있는 정확도 격차, 즉 95%와 99% 사이의 차이는 억양, 배경 소음, 겹치는 화자 및 도메인별 어휘를 처리하는 데 달려 있습니다.

실제 오디오 조건과 다양한 언어에서 안정적으로 작동하는 STT가 필요한 모든 분을 위해, Fish Audio는 브라우저에서 바로 사용할 수 있는 형태의 차세대 기술을 제공합니다. 녹음 파일을 업로드하거나 API를 통해 연결하면 이 글에서 설명한 아키텍처가 2분 이내에 오디오를 처리해 드립니다.

자주 묻는 질문

현대적인 STT 시스템은 오디오 전처리, 특징 추출, 음향 모델링, 언어 모델링, 그리고 후처리의 5단계를 거쳐 작동합니다.

배경 소음, 화자의 억양, 오디오 품질, 그리고 특정 분야의 전문 용어 사용 여부 등이 정확도에 큰 영향을 미치기 때문입니다.

Fish Audio는 딥러닝 기반의 엔드투엔드 모델을 사용하여 소음에 강하며, 한국어를 포함한 다국어 자동 감지 및 빠른 배치 처리를 지원합니다.

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인

이 글 공유하기

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >