팟캐스트 전사 도구 — Fish Audio로 팟캐스트를 텍스트로 변환하는 방법

Fish Audio의 팟캐스트 전사 도구는 자동 감정 태그, 화자 레이블 및 타임스탬프와 함께 오디오를 텍스트로 변환하며, SRT, VTT 또는 JSON으로 내보낼 수 있습니다. 무료 요금제를 제공하며 코딩 지식이 필요하지 않습니다.

2026년 3월 | Fish Audio STT 서비스가 fish.audio/app/speech-to-text에서 시작되었습니다.

전사(Transcript) 없이 게시되는 모든 팟캐스트 에피소드는 잠재적인 트래픽을 놓치고 있는 것입니다. 전사는 에피소드를 Google에서 검색 가능하게 만들고, 클릭 한 번으로 쇼 노트를 작성할 수 있게 하며, YouTube나 웹사이트 등 배포하는 모든 곳에 자막을 자동으로 생성할 수 있게 해줍니다. 또한 청각 장애가 있는 시청자들에게는 콘텐츠의 접근성을 높여줍니다. 팟캐스트 편집자, 미디어 팀, YouTube 크리에이터들은 SEO 콘텐츠 생성, 검색 가능한 아카이브 구축, 접근성 높은 에피소드 페이지 제작을 위해 전사 기능을 활용합니다. 대부분의 팟캐스트 전사 도구는 단순히 텍스트 덩어리만을 제공하고 끝납니다. Fish Audio의 팟캐스트 전사 도구는 한 걸음 더 나아갑니다. 모든 전사 결과에는 자동 감정 및 주변 언어 태그, 화자 레이블, 타임스탬프가 포함되며 세 가지 내보내기 형식을 지원합니다. 이 가이드는 업로드부터 내보내기까지 전체 워크플로우를 약 3분 만에 마치는 방법을 설명합니다.

무료로 팟캐스트 전사 시작하기 →

좋은 팟캐스트 전사 도구의 조건은 무엇인가요?

전사 도구를 선택하기 전에 실제로 무엇을 평가해야 하는지 아는 것이 중요합니다. 좋은 팟캐스트 전사 도구는 다음 네 가지를 제공해야 합니다.

다양한 억양, 오디오 품질 및 녹음 환경에서도 유지되는 높은 전사 정확도
전사 결과에서 진행자와 게스트를 구분할 수 있는 화자 식별(Speaker identification)
다양한 내보내기 형식 — 최소한 비디오 자막용 SRT를 지원해야 하며, VTT와 JSON도 지원하는 것이 이상적입니다.
실제 에피소드에 충분히 사용할 수 있는 무료 요금제를 포함한 투명하고 저렴한 가격 정책

Fish Audio의 팟캐스트 전사 도구는 100개 이상의 언어를 지원하고, 24가지 오디오 및 비디오 형식을 수용하며, 수동 작업 없이 텍스트 내에 감정 및 주변 언어 이벤트를 자동으로 태그합니다. 이 Speech-to-Text 모델은 대화형 오디오와 팟캐스트, 인터뷰, 라이브 토론과 같은 다중 화자 녹음에 최적화되어 있습니다. 실제 작동 방식은 다음과 같습니다.

Fish Audio로 팟캐스트 전사하는 방법 — 단계별 가이드

소요 시간: 약 3분 필요한 도구: 오디오 파일 (MP3, MP4, WAV, M4A 등) 결과물: 태그된 전사 텍스트 + 내보내기 준비가 된 자막 파일

1단계 — Fish Audio STT 열기

fish.audio/app/speech-to-text로 이동하세요. 파일명, 날짜, 상태, 사용된 크레딧, 화자 수 등이 포함된 이전 전사 작업 내역을 볼 수 있습니다. 새로운 전사를 시작하려면 Create task를 클릭하세요.

완료된 전사 작업과 크레딧, 화자 수가 표시된 Fish Audio Speech to Text 작업 목록

2단계 — 에피소드 업로드 및 화자 설정

전사 작업 생성 창에서 오디오 또는 비디오 파일을 업로드하세요. Fish Audio는 MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM 등 대부분의 주요 형식을 지원합니다.

화자 수(Number of speakers) 설정에서 녹음에 몇 명이 참여했는지 확실하지 않다면 'Auto'로 두세요. Fish Audio가 자동으로 화자를 감지합니다. 표준적인 진행자-게스트 형식처럼 정확한 인원수(예: 2명)를 알고 있다면 수동으로 설정하여 더 정확한 화자 레이블을 얻을 수 있습니다.

확인하기 전에 인터페이스에 예상 소요 시간, 청구 가능 시간 및 예상 사용 크레딧이 표시됩니다. Create task를 클릭하기 전까지는 크레딧이 차감되지 않습니다.

파일 업로드, 화자 수 설정, 예상 크레딧이 표시된 Fish Audio 전사 작업 생성 대화 상자

3단계 — 전사 결과 검토

작업이 완료되면 Open viewer를 클릭하세요. 전사 결과는 SPK/TAGS(화자 레이블), TIME(타임스탬프 범위), TEXT(인라인 태그가 포함된 전사 텍스트)의 세 열로 표시됩니다.

모든 세그먼트는 초 단위까지 타임스탬프가 찍힙니다. 감정 및 주변 언어 이벤트는 텍스트 바로 안에 보라색 인라인 태그로 나타납니다. 녹음 중에 발생한 정확한 시점에 [pause], [sigh], [emphasis], [breath]와 같은 태그를 볼 수 있습니다.

임의의 세그먼트를 클릭하면 해당 부분의 오디오를 브라우저에서 바로 재생할 수 있습니다. 이를 통해 파일 전체를 훑어볼 필요 없이 정확성을 확인하거나 특정 순간을 빠르게 점검할 수 있습니다.

우측의 Controller 패널에는 총 시간, 감지된 화자 수, 세그먼트 수 요약과 함께 음성 분리(Voice separation) 및 오디오 이벤트 태그(Tag audio events) 기능이 켜져 있는지 확인하는 정보가 표시됩니다.

화자 레이블, 타임스탬프, 그리고 pause 및 sigh와 같은 인라인 감정 태그가 표시된 Fish Audio 전사 뷰어

4단계 — 원하는 형식으로 내보내기

Controller 패널 오른쪽 하단의 Export를 클릭하세요. 형식을 선택하고 내보내기 옵션을 설정한 후 다운로드하세요.

형식 선택을 보여주는 Fish Audio 내보내기 옵션 패널

SRT, VTT, JSON 형식 옵션 및 일반 설정이 표시된 Fish Audio 전사 내보내기 대화 상자

첫 에피소드를 전사할 준비가 되셨나요? 무료 전사 작업 시작하기 →

자동 태그 — 다른 도구가 놓치는 부분을 Fish Audio가 포착하는 방법

이 부분은 Fish Audio의 팟캐스트 전사 도구가 다른 대안들과 가장 명확하게 차별화되는 지점입니다.

누군가 질문에 답하기 전에 한숨을 쉬거나, 문장 중간에 웃거나, 강조를 위해 멈추거나, 숨을 크게 들이마실 때 — 일반적인 전사 도구는 이 모든 것을 무시합니다. 감정이 배제된 텍스트만 얻게 됩니다.

Fish Audio는 이러한 이벤트들을 전사 텍스트 내에서 발생한 정확한 위치에 인라인 태그로 삽입합니다. 이러한 태그는 수동 주석이나 후처리 단계 없이 자동으로 생성됩니다. Controller 패널에서 Tag audio events는 기본적으로 On으로 설정되어 있습니다.

태그되는 항목

주변 언어(Paralanguage) — 말과 함께 발생하는 비언어적 소리.

감정(Emotion) — 문맥과 운율에서 포착된 전달의 정서적 톤.

팟캐스터에게 이것이 중요한 이유

대부분의 팟캐스트 워크플로우에서 태그는 세 가지 실용적인 목적을 수행합니다. 첫째, 전사 텍스트를 쇼 노트 소스로 활용할 때 더 유용합니다. [laugh]나 [pause]가 포함된 전사 텍스트는 편집자에게 평면적인 텍스트 파일보다 훨씬 풍부한 자료를 제공합니다. 둘째, 긴 녹음 파일을 더 빠르게 탐색할 수 있게 해줍니다. [sigh]나 [emphasis]가 표시된 순간을 스캔하여 다시 듣지 않고도 정서적으로 중요한 부분을 찾을 수 있습니다. 셋째, 가장 독특한 점으로, 이러한 태그들은 Fish Audio의 TTS 모델과 호환됩니다. 즉, 전사 결과물을 형식 변경 없이 바로 음성 제작 워크플로우에 다시 투입할 수 있다는 뜻입니다.

태그가 실제로 작동하는 모습을 보고 싶으신가요? 첫 오디오 파일 업로드하기 →

내보내기 형식 설명 — 어떤 형식이 필요할까요?

Fish Audio STT는 세 가지 내보내기 형식을 지원합니다. 어떤 형식을 사용할지는 전사 텍스트로 다음에 무엇을 할지에 따라 달라집니다.

SRT는 비디오 콘텐츠를 배포하는 대부분의 팟캐스터에게 적합한 선택입니다. YouTube, Premiere Pro, Final Cut Pro 및 대부분의 비디오 플랫폼과 호환되는 가장 널리 사용되는 자막 형식입니다.

VTT (WebVTT)는 웹 네이티브 형식입니다. 자신의 사이트에 비디오를 삽입하고 인라인 단어 타이밍이 필요할 때 사용하세요.

JSON은 자막 변환 없이 원시 STT 데이터를 제공합니다. 전사 텍스트를 다른 도구에 입력하거나 맞춤형 기능을 구축할 때 사용하세요.

내보내기 옵션

SRT 또는 VTT로 내보낼 때 네 가지 추가 설정을 할 수 있습니다.

Include tags — [pause] 및 [sigh]와 같은 대괄호 이벤트를 자막 파일에 유지합니다. 깔끔한 자막을 원하면 끄고, 표현력 있는 메타데이터를 보존하려면 켜두세요.
Include speaker — 각 자막 큐 앞에 감지된 화자 레이블(SPK_0, SPK_1)을 붙입니다. 여러 명이 출연하는 에피소드에 유용합니다.
Punctuation — 내보낸 텍스트에 문장 부호를 유지합니다. 추가 처리를 위해 깨끗한 토큰 스트림이 필요한 경우 끄세요.
Split mode — Segment(기존 STT 경계 유지) 또는 Max words(단어 수, 문장 부호 및 화자 변경에 따라 큐 재구성) 중에서 선택하세요. 큐당 최대 7단어로 설정한 Max words 모드는 빠른 대화에서 가독성 높은 자막을 만드는 경향이 있습니다.

화자 감지 — 진행자와 게스트 구분하기

팟캐스트 인터뷰와 패널 토론에서 화자 감지는 전사 도구가 제공할 수 있는 가장 유용한 기능 중 하나입니다. Fish Audio는 다인원 녹음에서 화자를 자동으로 분리합니다. 전사 뷰어의 각 세그먼트에는 오디오에서 감지된 고유한 목소리에 따라 SPK_0, SPK_1 등의 레이블이 지정됩니다.

작업을 생성할 때 **화자 수(number of speakers)**를 Auto로 두거나 수동으로 설정할 수 있습니다. 정확한 인원수를 설정하면 특히 한 화자가 다른 화자보다 훨씬 조용하게 녹음된 경우 더 깔끔한 화자 경계를 생성하는 경향이 있습니다.

내보낼 때 Include speaker를 활성화하면 각 자막 큐의 접두사로 화자 레이블이 추가됩니다. 이를 통해 화자별로 전사 내용을 검색, 편집 또는 재구성하는 것이 간단해지며, 쇼 노트를 위한 인용구를 뽑거나 주요 대화만 편집할 때 매우 유용합니다.

참고: 화자 감지 및 화자 레이블이 지정된 전사는 Fish Audio 웹 인터페이스에서 사용할 수 있습니다. Include speaker가 활성화된 경우 SRT, VTT, JSON 형식으로 내보낼 때 화자 레이블이 함께 포함됩니다.

팟캐스트 전사 비용은 얼마인가요?

Fish Audio STT는 처리된 오디오 1분당 300 크레딧이 청구됩니다.

무료 계정은 매월 8,000 크레딧을 받으며, 이는 약 26분의 오디오를 처리할 수 있는 양입니다. 짧은 에피소드나 몇 개의 인터뷰 세그먼트를 충분히 처리할 수 있는 양입니다.

웹 인터페이스에서 작업을 확정하기 전에 정확한 예상 크레딧을 보여주므로 예상치 못한 비용 발생이 없습니다.

팀 또는 대량 제작을 위해 유료 플랜은 더 큰 크레딧 풀을 제공합니다. 전체 가격 구성은 fish.audio/plan/에서 확인하세요.

다음 팟캐스트 에피소드를 몇 분 만에 전사해 보세요. 무료로 전사 시작하기 →

Fish Audio와 다른 팟캐스트 전사 도구 비교

최고의 팟캐스트 전사 도구를 찾는 많은 팟캐스터들은 단순 텍스트 전사가 필요한지, 아니면 감정 태그 및 멀티 포맷 내보내기와 같은 풍부한 메타데이터가 필요한지에 따라 선택이 달라진다는 것을 알게 됩니다. Fish Audio와 다른 인기 옵션들을 비교해 보세요.

데이터는 2026년 3월 기준 Otter.ai, Happy Scribe, Adobe Podcast의 정보를 바탕으로 합니다.

대부분의 팟캐스트 전사 도구는 텍스트 결과물 전달에 집중합니다. Fish Audio는 전사 텍스트 내에 감정 및 주변 언어 태그를 직접 삽입하는 몇 안 되는 도구 중 하나이며, Studio 통합을 통해 전사를 음성 제작 워크플로우로 연결하는 몇 안 되는 도구이기도 합니다.

쇼 노트나 SEO 콘텐츠를 위한 깔끔한 일반 텍스트가 필요하다면 어떤 도구든 괜찮습니다. 하지만 태그된 전사 텍스트, 멀티 포맷 내보내기 또는 전사 내용을 음성 제작으로 연결하는 경로가 필요하다면 Fish Audio가 가장 완벽한 옵션입니다.

다음 단계 — 전사에서 Studio로

태그된 전사 텍스트는 단순한 문서 이상입니다. 그것은 이미 어떻게 들려야 하는지 알고 있는 스크립트입니다.

Fish Audio가 팟캐스트 전사 결과물에 삽입하는 태그들 — [calm, reflective], [breath], [determined], [pause] — 은 Fish Audio의 S2 TTS 모델과 동일한 형식을 사용합니다. 이는 전사 내용이 형식 변경 없이 바로 음성 생성 파이프라인으로 전달될 수 있음을 의미합니다.

Fish Audio Studio는 여기서 한 걸음 더 나아갑니다. Studio에서 태그된 스크립트는 완전히 편집 가능한 음성 프로젝트가 됩니다. 챕터별로 편집하고, 음성 모델을 교체하고, 단어 수준에서 전달 방식을 조정하며, 원본 녹음의 표현력 있는 메타데이터를 그대로 유지한 채 멀티트랙 오디오를 제작할 수 있습니다.

감정 레이블과 멀티트랙 오디오 타임라인이 포함된 태그된 전사 텍스트를 보여주는 Fish Audio Story Studio

STT-to-Studio 직접 가져오기는 곧 출시될 기능입니다. 전사 형식은 이미 호환되므로, STT 출력의 태그는 Studio에서 읽는 태그와 동일합니다. 기능이 출시되면 한 번의 단계로 가져오기가 가능해질 것입니다.

무료로 팟캐스트 전사 시작하기 → — 또는 제작 준비가 되었다면 Fish Audio Studio 살펴보기를 눌러보세요.

관련 항목:

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shu의 더 많은 글 보기