A ferramenta de transcrição de podcast do Fish Audio converte áudio para texto com tags automáticas de emoção, rótulos de locutor e marcações de tempo — e então exporta para SRT, VTT ou JSON. Plano gratuito disponível. Sem necessidade de programação.
Março de 2026 | O Fish Audio STT já está disponível em fish.audio/app/speech-to-text
Cada episódio de podcast que você publica sem uma transcrição é tráfego que você está perdendo. Uma transcrição torna seu episódio pesquisável no Google, oferece show notes com um clique e permite gerar legendas automaticamente — para o YouTube, seu site ou qualquer outro lugar onde você distribua. Para o público com deficiência auditiva, também torna seu conteúdo acessível. Editores de podcast, equipes de mídia e criadores do YouTube dependem de transcrições para gerar conteúdo SEO, arquivos pesquisáveis e páginas de episódios acessíveis. A maioria das ferramentas de transcrição de podcast fornece apenas um bloco de texto simples. A ferramenta de transcrição de podcast do Fish Audio vai além: cada transcrição vem com tags automáticas de emoção e paralinguagem, rótulos de locutor, marcações de tempo e três formatos de exportação. Este guia orienta você por todo o fluxo de trabalho, do upload à exportação, em cerca de três minutos.
O que torna uma boa ferramenta de transcrição de podcast?
Antes de escolher qualquer ferramenta de transcrição, ajuda saber o que você está realmente avaliando. Uma boa ferramenta de transcrição de podcast deve oferecer quatro coisas:
- Alta precisão de transcrição em diferentes sotaques, qualidades de áudio e ambientes de gravação
- Identificação de locutores para que você possa distinguir o apresentador do convidado na transcrição
- Múltiplos formatos de exportação — no mínimo SRT para legendas de vídeo, e idealmente VTT e JSON também
- Preços transparentes e acessíveis com um plano gratuito que seja realmente utilizável para um episódio real
A ferramenta de transcrição de podcast do Fish Audio suporta mais de 100 idiomas, aceita 24 formatos de áudio e vídeo e marca automaticamente eventos de emoção e paralinguagem diretamente no texto — sem qualquer anotação manual. O modelo de speech-to-text é otimizado para áudio conversacional e gravações com múltiplos locutores, como podcasts, entrevistas e discussões ao vivo. Veja como funciona na prática.
Como transcrever seu podcast com o Fish Audio — Passo a passo
Tempo necessário: ~3 minutos Ferramentas necessárias: Arquivo de áudio (MP3, MP4, WAV, M4A e outros) Resultado: Transcrição com tags + arquivo de legenda pronto para exportação
Passo 1 — Abra o Fish Audio STT
Acesse fish.audio/app/speech-to-text. Você verá seu histórico de tarefas — todas as transcrições anteriores listadas com nome do arquivo, data, status, créditos usados e contagem de locutores. Clique em Create task para iniciar uma nova transcrição.
Passo 2 — Envie seu episódio e configure os locutores
Na janela Create transcription task, faça o upload do seu arquivo de áudio ou vídeo. O Fish Audio aceita todos os principais formatos — MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM e muito mais.
Em number of speakers, deixe em Auto se não tiver certeza de quantas pessoas estão na gravação. O Fish Audio detectará os locutores automaticamente. Se você souber o número exato — por exemplo, dois para um formato padrão de apresentador e convidado — você pode defini-lo manualmente para rótulos de locutor mais precisos.
Antes de confirmar, a interface mostra a duração estimada, minutos faturáveis e créditos estimados para esta tarefa. Você não será cobrado até clicar em Create task.
Passo 3 — Revise sua transcrição
Assim que a tarefa for concluída, clique em Open viewer. A transcrição é exibida em três colunas: SPK/TAGS (rótulo do locutor), TIME (intervalo de tempo) e TEXT (a transcrição com tags integradas).
Cada segmento tem marcação de tempo precisa até o segundo. Eventos de emoção e paralinguagem aparecem como tags roxas diretamente dentro do texto — você verá coisas como [pause], [sigh], [emphasis] e [breath] no ponto exato da gravação onde ocorreram.
Clique em qualquer segmento para reproduzir essa parte do áudio diretamente no navegador. Isso facilita a verificação da precisão ou a conferência de momentos específicos sem precisar percorrer todo o arquivo.
O painel Controller à direita mostra um resumo: duração total, número de locutores detectados, número de segmentos e a confirmação de que a separação de voz e a marcação de eventos de áudio (Tag audio events) estão ativadas.
Passo 4 — Exporte no seu formato
Clique em Export no canto inferior direito do painel Controller. Escolha seu formato e configure as opções de exportação antes de baixar.
Pronto para transcrever seu primeiro episódio? Inicie uma tarefa de transcrição gratuita →
Tags Automáticas — O que o Fish Audio captura que outras ferramentas perdem
É aqui que a ferramenta de transcrição de podcast do Fish Audio se diferencia mais claramente das alternativas.
Quando alguém suspira antes de responder a uma pergunta, ri no meio de uma frase, faz uma pausa para dar ênfase ou respira de forma audível — as ferramentas de transcrição padrão ignoram tudo isso. Você recebe apenas as palavras, despojadas de todo o resto.
O Fish Audio incorpora esses eventos como tags no ponto exato em que ocorrem na transcrição. Essas tags são geradas automaticamente — sem anotação manual, sem etapa de pós-processamento. O painel Controller mostra Tag audio events: On por padrão.
O que é marcado
Paralinguagem — sons não verbais que ocorrem junto com a fala.
Emoção — tom afetivo da entrega, capturado a partir do contexto e da prosódia.
Por que isso é importante para podcasters
Para a maioria dos fluxos de trabalho de podcast, as tags servem a três propósitos práticos. Primeiro, elas tornam sua transcrição mais útil como fonte de show notes — uma transcrição que captura [laugh] e [pause] dá ao seu editor um material mais rico do que um arquivo de texto simples. Segundo, elas tornam a navegação em gravações longas mais rápida — você pode procurar momentos de [sigh] ou [emphasis] para encontrar partes emocionalmente significativas do episódio sem precisar ouvir novamente. Terceiro, e de forma mais distinta, essas tags são compatíveis com o modelo TTS do Fish Audio — o que significa que uma transcrição pode alimentar diretamente um fluxo de trabalho de produção de voz sem qualquer reformatação.
Quer ver as tags em ação? Envie seu primeiro arquivo de áudio →
Formatos de Exportação Explicados — Qual você precisa?
O Fish Audio STT suporta três formatos de exportação. Qual usar depende do que você fará com a transcrição a seguir.
SRT é a escolha certa para a maioria dos podcasters que distribuem conteúdo em vídeo. É o formato de legenda mais amplamente suportado — compatível com YouTube, Premiere Pro, Final Cut Pro e a maioria das plataformas de vídeo.
VTT (WebVTT) é o formato nativo da web — use-o quando estiver incorporando vídeo em seu próprio site e precisar de temporização de palavras integrada.
JSON fornece a saída bruta do STT sem transformações de legenda. Use isso se estiver enviando a transcrição para outra ferramenta ou criando algo personalizado.
Opções de exportação
Ao exportar em SRT ou VTT, você tem quatro configurações adicionais:
- Include tags — mantém eventos entre colchetes como
[pause]e[sigh]no arquivo de legenda. Desative para legendas limpas; deixe ativado se quiser preservar os metadados expressivos. - Include speaker — prefixa cada legenda com o rótulo do locutor detectado (SPK_0, SPK_1). Útil para episódios com vários locutores.
- Punctuation — mantém a pontuação no texto exportado. Desative para um fluxo de tokens mais limpo se estiver realizando processamento adicional.
- Split mode — escolha entre Segment (mantém os limites existentes do STT) ou Max words (reagrupa as legendas por contagem de palavras, pontuação e mudanças de locutor). O modo Max words com um limite de 7 palavras por legenda tende a produzir legendas mais legíveis para falas rápidas.
Detecção de Locutores — Distinguindo o Apresentador do Convidado
Para entrevistas de podcast e discussões em painel, a detecção de locutores é um dos recursos mais úteis que uma ferramenta de transcrição de podcast pode oferecer. O Fish Audio separa automaticamente os locutores em gravações de várias pessoas. Cada segmento no visualizador de transcrição é rotulado como SPK_0, SPK_1 e assim por diante — correspondendo às vozes distintas detectadas no áudio.
Ao criar uma tarefa, você pode deixar o number of speakers em Auto ou defini-lo manualmente. Definir o número exato tende a produzir limites de locutor mais limpos, especialmente em gravações onde um locutor é significativamente mais silencioso que o outro.
Ao exportar, ativar Include speaker adiciona o rótulo do locutor como um prefixo a cada legenda. Isso torna simples pesquisar, editar ou reformatar transcrições por locutor — útil se você estiver extraindo citações para show notes ou editando uma transcrição para destacar trocas importantes.
Nota: A detecção de locutores e transcrições com rótulos de locutor estão disponíveis na interface web do Fish Audio. Os rótulos de locutor acompanham a exportação nos formatos SRT, VTT e JSON quando a opção Include speaker está ativada.
Quanto custa transcrever um podcast?
O Fish Audio STT é cobrado por minuto de áudio processado a 300 créditos por minuto.
Contas gratuitas recebem 8.000 créditos por mês — o suficiente para aproximadamente 26 minutos de áudio. Isso cobre um episódio de curta duração ou alguns segmentos de entrevista.
A interface web mostra a estimativa exata de créditos antes de você confirmar uma tarefa, para que não haja surpresas.
Para equipes ou produção de alto volume, os planos pagos incluem pacotes maiores de créditos. Veja a tabela completa de preços em fish.audio/plan/.
Transcreva seu próximo episódio de podcast em minutos. Comece a transcrever gratuitamente →
Fish Audio vs Outras Ferramentas de Transcrição de Podcast
Muitos podcasters que procuram a melhor ferramenta de transcrição de podcast descobrem que a escolha certa depende se eles precisam de transcrições em texto simples ou metadados mais ricos, como tags de emoção e exportação multiformato. Veja como o Fish Audio se compara a outras opções populares:
Dados obtidos de Otter.ai, Happy Scribe e Adobe Podcast em março de 2026.
A maioria das ferramentas de transcrição de podcast foca em entregar resultados em texto simples. O Fish Audio é um dos poucos que incorpora tags de emoção e paralinguagem diretamente na transcrição — e uma das poucas ferramentas que conecta a transcrição a um fluxo de trabalho de produção de voz via integração com o Studio.
Se você precisa de texto simples e limpo para show notes ou conteúdo SEO, qualquer uma dessas ferramentas funcionará. Se você precisa de transcrições com tags, exportação multiformato ou um caminho da transcrição para a produção de voz, o Fish Audio é a opção mais completa.
O Que Vem a Seguir — Da Transcrição para o Studio
Uma transcrição com tags é mais do que um documento. É um roteiro que já sabe como deve soar.
As tags que o Fish Audio incorpora em sua transcrição de podcast — [calm, reflective], [breath], [determined], [pause] — usam o mesmo formato do modelo TTS S2 do Fish Audio. Isso significa que uma transcrição pode alimentar diretamente uma pipeline de geração de voz sem qualquer reformatação.
O Fish Audio Studio leva isso adiante. No Studio, roteiros com tags tornam-se projetos de voz totalmente editáveis: você pode editar por capítulo, trocar modelos de voz, ajustar a entrega no nível da palavra e produzir áudio multitrilha — tudo com os metadados expressivos da sua gravação original intactos.
A importação direta de STT para o Studio é um recurso que será lançado em breve. O formato da transcrição já é compatível — as tags na sua saída de STT são as mesmas tags que o Studio lê. A importação será uma etapa única assim que o recurso for lançado.
Comece a transcrever seu podcast gratuitamente → — ou Explore o Fish Audio Studio se você estiver pronto para produzir.
Relacionado:
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Leia mais de Sabrina Shu

