La herramienta de transcripción de podcasts de Fish Audio convierte audio en texto con etiquetas automáticas de emociones, etiquetas de interlocutores y marcas de tiempo; luego exporta a SRT, VTT o JSON. Nivel gratuito disponible. No se requiere programación.
Marzo de 2026 | Fish Audio STT ya está disponible en fish.audio/app/speech-to-text
Cada episodio de podcast que publicas sin una transcripción es tráfico que estás perdiendo. Una transcripción hace que tu episodio sea indexable en Google, te permite crear notas del programa con un solo clic y genera subtítulos automáticamente para YouTube, tu sitio web o cualquier otro canal de distribución. Además, hace que tu contenido sea accesible para personas con discapacidad auditiva. Los editores de podcasts, equipos de medios y creadores de YouTube confían en las transcripciones para generar contenido SEO, archivos de búsqueda y páginas de episodios accesibles. La mayoría de las herramientas de transcripción de podcasts te entregan un bloque de texto sin formato y dan el trabajo por terminado. La herramienta de transcripción de Fish Audio va más allá: cada transcripción incluye etiquetas automáticas de emoción y paralenguaje, etiquetas de interlocutores, marcas de tiempo y tres formatos de exportación. Esta guía te guiará por todo el flujo de trabajo, desde la carga hasta la exportación, en unos tres minutos.
¿Qué define a una buena herramienta de transcripción de podcasts?
Antes de elegir cualquier herramienta, es útil saber qué estás evaluando realmente. Una buena herramienta de transcripción de podcasts debe ofrecer cuatro cosas:
- Alta precisión de transcripción en diferentes acentos, calidades de audio y entornos de grabación.
- Identificación de interlocutores para que puedas distinguir al presentador del invitado en la transcripción.
- Múltiples formatos de exportación: como mínimo SRT para subtítulos de vídeo, e idealmente VTT y JSON también.
- Precios transparentes y asequibles, con un nivel gratuito que sea realmente útil para un episodio real.
La herramienta de transcripción de Fish Audio admite más de 100 idiomas, acepta 24 formatos de audio y vídeo, y etiqueta automáticamente eventos de emoción y paralenguaje de forma integrada, sin necesidad de anotación manual. El modelo de conversión de voz a texto está optimizado para audio conversacional y grabaciones con múltiples interlocutores, como podcasts, entrevistas y debates en directo. Así es como funciona en la práctica.
Cómo transcribir tu podcast con Fish Audio: paso a paso
Tiempo requerido: ~3 minutos Herramientas necesarias: Archivo de audio (MP3, MP4, WAV, M4A, entre otros) Resultado: Transcripción etiquetada + archivo de subtítulos listo para exportar
Paso 1: Abre Fish Audio STT
Ve a fish.audio/app/speech-to-text. Verás tu historial de tareas: todas las transcripciones anteriores con nombre de archivo, fecha, estado, créditos utilizados y número de interlocutores. Haz clic en Create task para iniciar una nueva transcripción.
Paso 2: Sube tu episodio y define los interlocutores
En la ventana "Create transcription task", sube tu archivo de audio o vídeo. Fish Audio acepta los formatos principales: MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM y más.
En number of speakers, déjalo en "Auto" si no estás seguro de cuántas personas hay en la grabación. Fish Audio detectará a los interlocutores automáticamente. Si conoces el número exacto (por ejemplo, dos para un formato estándar de presentador e invitado), puedes configurarlo manualmente para obtener etiquetas de interlocutor más precisas.
Antes de confirmar, la interfaz te muestra la duración estimada, los minutos facturables y los créditos estimados para esta tarea. No se te cobrará hasta que hagas clic en Create task.
Paso 3: Revisa tu transcripción
Una vez completada la tarea, haz clic en Open viewer. La transcripción se muestra en tres columnas: SPK/TAGS (etiqueta de interlocutor), TIME (rango de tiempo) y TEXT (la transcripción con etiquetas integradas).
Cada segmento tiene una marca de tiempo con precisión de segundos. Los eventos de emoción y paralenguaje aparecen como etiquetas púrpuras directamente en el texto: verás cosas como [pause], [sigh], [emphasis] y [breath] en el punto exacto de la grabación donde ocurrieron.
Haz clic en cualquier segmento para reproducir esa parte del audio directamente en el navegador. Esto facilita verificar la precisión o revisar momentos específicos sin tener que recorrer todo el archivo.
El panel "Controller" de la derecha muestra un resumen: duración total, número de interlocutores detectados, número de segmentos y la confirmación de que la separación de voces y las etiquetas de eventos de audio están activadas.
Paso 4: Exporta en tu formato
Haz clic en Export en la parte inferior derecha del panel "Controller". Elige tu formato y configura las opciones de exportación antes de la descarga.
¿Listo para transcribir tu primer episodio? Inicia una tarea de transcripción gratuita →
Etiquetas automáticas: Lo que Fish Audio captura y otras herramientas pasan por alto
Aquí es donde la herramienta de transcripción de podcasts de Fish Audio se diferencia claramente de las alternativas.
Cuando alguien suspira antes de responder a una pregunta, se ríe a mitad de una frase, hace una pausa para dar énfasis o respira de forma audible, las herramientas de transcripción estándar ignoran todo eso. Solo obtienes las palabras, despojadas de todo lo demás.
Fish Audio integra estos eventos como etiquetas en el punto exacto donde ocurren. Estas etiquetas se generan automáticamente, sin anotación manual ni pasos de postprocesamiento. El panel "Controller" muestra Tag audio events: On por defecto.
Qué se etiqueta
Paralenguaje: sonidos no verbales que ocurren junto al habla.
Emoción: el tono afectivo de la entrega, capturado a partir del contexto y la prosodia.
Por qué esto es importante para los podcasters
En la mayoría de los flujos de trabajo de podcasts, las etiquetas sirven para tres propósitos prácticos. Primero, hacen que tu transcripción sea más útil para crear notas del programa; una transcripción que captura [laugh] y [pause] le da a tu editor material mucho más rico que un archivo de texto plano. Segundo, permiten navegar más rápido por grabaciones largas: puedes buscar momentos de [sigh] o [emphasis] para encontrar las partes emocionalmente significativas del episodio sin tener que volver a escucharlo todo. Tercero, y más distintivo, estas etiquetas son compatibles con el modelo TTS de Fish Audio, lo que significa que una transcripción puede alimentar directamente un flujo de producción de voz sin necesidad de reformatear.
¿Quieres ver las etiquetas en acción? Sube tu primer archivo de audio →
Formatos de exportación explicados: ¿Cuál necesitas?
Fish Audio STT admite tres formatos de exportación. Cuál usar dependerá de qué planees hacer con la transcripción después.
SRT es la opción ideal para la mayoría de los podcasters que distribuyen contenido de vídeo. Es el formato de subtítulos más compatible, aceptado por YouTube, Premiere Pro, Final Cut Pro y la mayoría de las plataformas de vídeo.
VTT (WebVTT) es el formato nativo para la web; úsalo si vas a insertar vídeo en tu propio sitio y necesitas una sincronización de palabras precisa.
JSON te ofrece el resultado bruto de STT sin transformaciones de subtítulos. Úsalo si vas a introducir la transcripción en otra herramienta o si estás construyendo algo personalizado.
Opciones de exportación
Al exportar a SRT o VTT, tienes cuatro ajustes adicionales:
- Include tags: mantiene los eventos entre corchetes como
[pause]y[sigh]en el archivo de subtítulos. Desactívalo para obtener subtítulos limpios; déjalo activado si quieres conservar los metadatos expresivos. - Include speaker: antepone a cada bloque de subtítulos la etiqueta del interlocutor detectado (SPK_0, SPK_1). Muy útil para episodios con varias personas.
- Punctuation: mantiene la puntuación en el texto exportado. Desactívalo para obtener una cadena de texto más limpia si vas a realizar un procesamiento posterior.
- Split mode: elige entre "Segment" (mantiene los límites existentes de STT) o "Max words" (agrupa los bloques por recuento de palabras, puntuación y cambios de interlocutor). El modo "Max words" con un límite de 7 palabras por bloque suele producir subtítulos más legibles para el habla rápida.
Detección de interlocutores: Diferencia al presentador de su invitado
Para entrevistas de podcasts y debates en panel, la detección de interlocutores es una de las funciones más útiles que puede ofrecer una herramienta de transcripción. Fish Audio separa automáticamente a los interlocutores en grabaciones de varias personas. Cada segmento en el visor de transcripción está etiquetado como SPK_0, SPK_1, etc., correspondiendo a las distintas voces detectadas en el audio.
Al crear una tarea, puedes dejar el number of speakers en "Auto" o configurarlo manualmente. Establecer el número exacto tiende a producir divisiones de interlocutor más limpias, especialmente en grabaciones donde un interlocutor suena significativamente más bajo que el otro.
Al exportar, habilitar Include speaker añade la etiqueta del interlocutor como prefijo en cada bloque de subtítulos. Esto facilita enormemente buscar, editar o reformatear las transcripciones por interlocutor, lo cual es útil si estás extrayendo citas para las notas del programa o editando una transcripción para dejar solo los intercambios clave.
Nota: La detección de interlocutores y las transcripciones etiquetadas están disponibles en la interfaz web de Fish Audio. Las etiquetas de interlocutor se incluyen en las exportaciones en formato SRT, VTT y JSON cuando la opción "Include speaker" está activada.
¿Cuánto cuesta transcribir un podcast?
Fish Audio STT se factura por minuto de audio procesado a razón de 300 créditos por minuto.
Las cuentas gratuitas reciben 8,000 créditos al mes, lo que es suficiente para aproximadamente 26 minutos de audio. Esto cubre un episodio corto o varios segmentos de entrevistas.
La interfaz web te muestra los créditos exactos estimados antes de confirmar una tarea, para que no haya sorpresas.
Para equipos o producciones de alto volumen, los planes de pago incluyen paquetes de créditos más grandes. Consulta el desglose completo de precios en fish.audio/plan/.
Transcribe tu próximo episodio de podcast en minutos. Empieza a transcribir gratis →
Fish Audio frente a otras herramientas de transcripción de podcasts
Muchos podcasters que buscan la mejor herramienta de transcripción descubren que la elección correcta depende de si necesitan transcripciones de texto simple o metadatos más enriquecidos como etiquetas de emoción y exportación multiformato. Así es como se compara Fish Audio con otras opciones populares:
Datos obtenidos de Otter.ai, Happy Scribe y Adobe Podcast a fecha de marzo de 2026.
La mayoría de las herramientas de transcripción de podcasts se centran en ofrecer un resultado de texto plano. Fish Audio es una de las pocas que integra etiquetas de emoción y paralenguaje directamente en la transcripción, y una de las pocas que conecta la transcripción con un flujo de producción de voz a través de la integración con Studio.
Si necesitas texto plano limpio para notas del programa o contenido SEO, cualquiera de estas herramientas funcionará. Si necesitas transcripciones etiquetadas, exportación multiformato o un camino desde la transcripción hasta la producción de voz, Fish Audio es la opción más completa.
¿Qué sigue? De la transcripción a Studio
Una transcripción etiquetada es más que un documento. Es un guion que ya sabe cómo debe sonar.
Las etiquetas que Fish Audio inserta en tu transcripción de podcast ([calm, reflective], [breath], [determined], [pause]) utilizan el mismo formato que el modelo S2 TTS de Fish Audio. Eso significa que una transcripción puede alimentar directamente un proceso de generación de voz sin necesidad de reformatear nada.
Fish Audio Studio lleva esto un paso más allá. En Studio, los guiones etiquetados se convierten en proyectos de voz totalmente editables: puedes editar por capítulos, cambiar modelos de voz, ajustar la entrega a nivel de palabra y producir audio multipista, todo manteniendo intactos los metadatos expresivos de tu grabación original.
La importación directa de STT a Studio es una función que llegará pronto. El formato de la transcripción ya es compatible: las etiquetas en tu resultado de STT son las mismas que lee Studio. La importación será un proceso de un solo paso una vez que la función esté disponible.
Empieza a transcribir tu podcast gratis → — o explora Fish Audio Studio si ya estás listo para producir.
Relacionado:
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Leer más de Sabrina Shu

