Cómo activar el dictado de voz y empezar a dictar en cualquier dispositivo

5 mar 2026

Cómo activar el dictado de voz y empezar a dictar en cualquier dispositivo

La mayoría de las personas escriben a 40 palabras por minuto. La mayoría habla a 130. Esa es una brecha de 3 veces que estás desperdiciando cada vez que escribes un mensaje con los pulgares, buscas teclas una a una en un correo electrónico o transcribes notas de reuniones a mano a posteriori.

La conversión de voz a texto, también llamada dictado o escritura por voz, convierte tus palabras habladas en texto escrito en tiempo real. Todos los dispositivos principales la tienen integrada. Activarla es sencillo. Obtener resultados precisos requiere saber algunas cosas que la pantalla de configuración no te dice.

Windows 10 y 11

Windows tiene dos herramientas de voz a texto. La Escritura por voz es la herramienta de dictado ligera. El Reconocimiento de voz de Windows es el sistema más antiguo y completo.

Cómo activar la Escritura por voz

La Escritura por voz es la opción más rápida y la que Microsoft mantiene activamente. Funciona en cualquier campo de texto de todo el sistema.

Presiona Win + H para abrir la barra de herramientas de Escritura por voz. Aparecerá un pequeño panel con un micrófono en la parte superior de tu pantalla.
Haz clic en el icono del micrófono o presiona Win + H de nuevo para empezar a dictar.
Habla con naturalidad. Windows transcribe en tiempo real e inserta el texto donde esté el cursor.

Notas sobre la configuración inicial:

Permiso del micrófono: Windows puede pedirte que concedas acceso al micrófono. Acéptalo. Sin esto, la Escritura por voz fallará silenciosamente.
Reconocimiento de voz en línea: Para una mejor precisión, asegúrate de que el reconocimiento de voz en línea esté activado en Configuración > Privacidad y seguridad > Voz. El modelo basado en la nube es significativamente más preciso que la alternativa sin conexión.
Puntuación automática: La Escritura por voz puede insertar puntos, comas y signos de interrogación automáticamente. Actívalo mediante el icono del engranaje en la barra de herramientas de Escritura por voz.

Comandos de voz que puedes decir mientras dictas:

"Punto", "coma", "signo de interrogación", "signo de exclamación" para insertar puntuación.
"Nueva línea" o "nuevo párrafo" para crear saltos de línea.
"Borra eso" para eliminar la última frase.
"Detener dictado" para apagar el micrófono.

Reconocimiento de voz de Windows

La herramienta de Reconocimiento de voz más antigua ofrece un control más amplio, incluyendo comandos de voz para navegar por Windows, abrir aplicaciones y hacer clic en botones. Es más potente pero más complejo.

Abre Configuración > Accesibilidad > Voz (Windows 11) o busca "Reconocimiento de voz de Windows" en el menú Inicio.
Sigue el asistente de configuración, que incluye un paso de calibración del micrófono y un breve ejercicio de entrenamiento de voz.

Para un dictado puro, la Escritura por voz es la mejor opción. Vale la pena explorar el Reconocimiento de voz de Windows si quieres un control manos libres total de tu ordenador.

macOS

macOS ofrece el Dictado como una función de voz a texto en todo el sistema y el Dictado mejorado para uso sin conexión.

Cómo activar el Dictado

Abre Ajustes del Sistema > Teclado.
Desplázate hasta la sección Dictado y actívalo.
macOS te pedirá confirmación y es posible que descargue un modelo de idioma.

Una vez activado, presiona la tecla del micrófono en tu teclado (en los Mac más nuevos) o presiona Fn dos veces (o el atajo que configures) para empezar a dictar en cualquier campo de texto.

Configuraciones que vale la pena revisar:

Idioma: Haz clic en el menú desplegable de idiomas para añadir idiomas de dictado adicionales. macOS admite varios idiomas simultáneos y el motor detecta automáticamente cuál estás hablando.
Puntuación automática: Actívalo para que macOS inserte puntos, comas y signos de interrogación basándose en tu ritmo y entonación.
Atajo: Personaliza el atajo de activación en los ajustes de Dictado si presionar dos veces Fn te resulta incómodo.

El Dictado de macOS envía el audio a los servidores de Apple para su procesamiento de forma predeterminada. En los Macs con Apple Silicon con macOS Ventura o posterior, el procesamiento en el dispositivo está disponible para los idiomas compatibles, manteniendo tu audio local.

Control por voz

El Control por voz es el sistema completo de comandos de voz de macOS. Va más allá del dictado para permitirte navegar, hacer clic, desplazarte y editar mediante comandos hablados.

Abre Ajustes del Sistema > Accesibilidad > Control por voz y actívalo.

El Control por voz utiliza exclusivamente el procesamiento en el dispositivo y funciona sin conexión. Está diseñado principalmente para usuarios con necesidades de accesibilidad que requieren una operación manos libres completa, pero los escritores y usuarios avanzados a veces lo adoptan por sus precisos comandos de edición como "seleccionar la frase anterior" o "poner eso en mayúsculas".

iPhone y iPad

iOS ha tenido el dictado integrado desde 2011. La precisión ha mejorado drásticamente, especialmente en dispositivos con el Neural Engine de Apple.

Cómo activar el Dictado

Ve a Ajustes > General > Teclado.
Activa Dictado.
Confirma cuando se te solicite.

Para usarlo, abre cualquier aplicación con un campo de texto y toca el icono del micrófono en el teclado. Empieza a hablar. Toca el micrófono de nuevo o el icono del teclado para detenerte.

En iPhone y iPad con iOS 16 o posterior, el dictado y la entrada por teclado funcionan simultáneamente. Puedes decir una frase, corregir manualmente una palabra con el teclado y luego seguir hablando, todo sin cambiar de modo. Esta entrada híbrida es una de las funciones de productividad más infravaloradas de iOS.

Detalles útiles:

Emojis por voz: Di "emoji de corazón" o "emoji de pulgar hacia arriba" e iOS insertará el emoji correspondiente.
Puntuación: Di "punto", "coma", "signo de interrogación", "signo de exclamación" o "nuevo párrafo" con naturalidad dentro de tu frase.
Cambio de idioma: Si tienes varios teclados instalados, el dictado detecta automáticamente el idioma en el que estás hablando en la mayoría de los casos.
Procesamiento en el dispositivo: Los modelos de iPhone con A12 Bionic o posterior gestionan el dictado en el dispositivo para los idiomas compatibles, lo que significa que tu audio no sale del teléfono.

Android

La función de voz a texto de Android funciona con el motor de reconocimiento de voz de Google y está disponible en todo el sistema a través de Gboard o la mayoría de las otras aplicaciones de teclado.

Cómo activar la Escritura por voz en Gboard

Gboard es el teclado predeterminado en la mayoría de los teléfonos Android. La escritura por voz suele estar activada por defecto, pero aquí te explicamos cómo verificarlo y configurarlo:

Abre Ajustes > Sistema > Idiomas e introducción de texto > Teclado en pantalla > Gboard.
Toca Escritura por voz y asegúrate de que esté activada.
Alternativamente, abre cualquier campo de texto y busca el icono del micrófono en la barra de herramientas de Gboard. Tócalo para empezar a dictar.

En dispositivos Samsung que usan el Teclado Samsung:

Abre Ajustes > Administración general > Ajustes del Teclado Samsung.
Toca Entrada de voz y selecciona tu motor de voz preferido.

Ajustes clave a considerar:

Reconocimiento de voz sin conexión: En los ajustes de Gboard, ve a Escritura por voz > Reconocimiento de voz sin conexión para descargar paquetes de idiomas y usarlos sin internet. La precisión sin conexión es menor, pero elimina la latencia.
Puntuación automática: Normalmente está activada por defecto en Gboard. El motor añade puntos en las pausas naturales y ocasionalmente inserta comas.
Voice Match: Si la precisión parece baja, vuelve a entrenar tu modelo de voz en Ajustes > Google > Ajustes de aplicaciones de Google > Buscador, Asistente y voz > Voz > Voice Match.

Dictado del Asistente de Google

Para una entrada de texto rápida, también puedes decir "Hey Google, escribe..." seguido de tu mensaje en las aplicaciones que admiten la integración con el Asistente. Esto es más rápido para mensajes cortos pero menos práctico para dictados largos.

Chromebook

ChromeOS admite el dictado a través de sus funciones de accesibilidad integradas y mediante el motor de voz de Google en las aplicaciones web.

Cómo activar el Dictado

Ve a Ajustes > Accesibilidad > Teclado y entrada de texto.
Activa Dictado.
Aparecerá un pequeño icono de micrófono en la bandeja del sistema. Haz clic en él para empezar a dictar en cualquier campo de texto.

El dictado de ChromeOS utiliza el mismo motor de voz de Google que Android. La precisión, los idiomas admitidos y los comandos de voz son casi idénticos.

Cómo usar la Escritura por voz en Google Docs

Si trabajas principalmente en Google Docs, hay una herramienta de dictado por voz independiente integrada en la aplicación:

Abre un documento de Google.
Ve a Herramientas > Dictado por voz o presiona Ctrl + Shift + S.
Haz clic en el icono del micrófono que aparece en el margen izquierdo y empieza a hablar.

El dictado por voz de Google Docs admite más de 100 idiomas e incluye comandos de voz para formatear: "negrita", "cursiva", "crear lista con viñetas", "título 2" y más. Para trabajos con mucha carga de documentos en un Chromebook, esto suele ser más capaz que el dictado a nivel de sistema.

Por qué la precisión cae después de la primera frase

Activaste la función de voz a texto, dijiste una frase y funcionó. Luego intentaste dictar un párrafo completo y el resultado fue un desastre. Palabras omitidas, homófonos incorrectos, puntuación en lugares equivocados.

Esta es la experiencia más común, y la causa no suele ser el motor de voz. Es la forma en que las personas hablan cuando dictan por primera vez.

La conversación natural incluye palabras de relleno, inicios falsos, correcciones a mitad de frase y pensamientos inconclusos. Tu cerebro corrige todo esto automáticamente cuando escucha a otro humano. Un motor de voz a texto transcribe todo literalmente, incluyendo cada "eh", "mmm", "bueno, espera" y pensamiento a medias.

Tres ajustes que mejoran la precisión de inmediato:

Termina tu pensamiento antes de decirlo. Haz una pausa, forma la frase completa en tu cabeza y luego dila. Este único hábito elimina la mayoría de los errores de transcripción.
Di la puntuación explícitamente hasta que la puntuación automática se adapte. Di "coma" y "punto" en voz alta. Se siente raro durante unos cinco minutos, luego se vuelve automático.
Dicta en ráfagas cortas, no en flujos continuos. Di 2 o 3 frases, haz una pausa, revisa y luego continúa. Los flujos largos ininterrumpidos saturan el búfer del motor y aumentan las tasas de error.

Los motores de voz a texto integrados gestionan bien estos ajustes para mensajes cortos y notas rápidas. Para contenidos más largos como transcripciones de reuniones, entrevistas, grabaciones de conferencias o guiones de podcasts, las exigencias de precisión aumentan y las herramientas integradas empiezan a mostrar sus límites.

Cuando el dictado integrado toca techo

La función de voz a texto a nivel de dispositivo está diseñada para entradas en tiempo real y de formato corto. Tú hablas, el sistema transcribe, corriges los errores manualmente y sigues adelante. Para un mensaje de texto o una consulta de búsqueda, eso es suficiente.

El flujo de trabajo se rompe en algunos escenarios específicos:

Transcripción de larga duración: Dictar un artículo de 2.000 palabras implica corregir errores cada pocas frases. Las interrupciones eliminan la ventaja de velocidad que hacía atractivo el dictado en primer lugar.
Audio pregrabado: El dictado integrado requiere una entrada de micrófono en vivo. No puede transcribir un archivo de audio, la grabación de una reunión o un episodio de podcast.
Múltiples hablantes: El dictado del dispositivo no distingue entre voces. En una reunión o entrevista, todo se mezcla en un único flujo de texto indiferenciado.
Vocabulario especializado: Los términos médicos, la jerga legal, los nombres técnicos de productos y las palabras que no están en español provocan frecuentes errores de reconocimiento que la autocorrección empeora.

Estos no son casos aislados. Son los escenarios donde la conversión de voz a texto aporta más valor, y es precisamente donde las herramientas integradas se quedan cortas.

AI Speech to Text para archivos de audio, reuniones y transcripciones extensas

Speech to Text de Fish Audio adopta un enfoque diferente. En lugar de limitarse al dictado por micrófono en tiempo real, procesa archivos de audio y genera transcripciones de alta precisión utilizando modelos neuronales entrenados en diversos patrones de habla. Lo que eso significa en la práctica:

Sube cualquier archivo de audio: MP3, WAV, M4A y otros formatos estándar. Graba una reunión, una conferencia, una entrevista o un episodio de podcast y obtén una transcripción de texto sin escribir una palabra.
Soporte multi-idioma: El motor gestiona una amplia gama de idiomas y puede procesar audio donde los hablantes cambian de idioma a mitad de la conversación.
Mayor precisión en contenido extenso: Mientras que el dictado integrado se degrada en pasajes largos, el modelo STT de Fish Audio mantiene la consistencia a lo largo de minutos u horas de audio. La arquitectura neuronal está diseñada para transcripciones sostenidas, no solo ráfagas cortas.
No requiere micrófono: No necesitas hablar a tu dispositivo en tiempo real. Sube una grabación de cualquier fuente y recibe la transcripción.

Para creadores de contenido, periodistas, investigadores y cualquier persona que convierta regularmente palabras habladas en texto escrito, el flujo de trabajo cambia de "dictar y corregir errores constantemente" a "grabar con naturalidad y luego transcribirlo todo de una vez".

Acceso a la API para desarrolladores

Si estás creando una aplicación que necesita capacidad de voz a texto, la API de Fish Audio proporciona acceso programático al mismo motor de transcripción. Los casos de uso incluyen:

Herramientas de reuniones: Transcripción automática de conferencias telefónicas.
Funciones de accesibilidad: Subtitulado en tiempo real para plataformas de vídeo.
Flujos de contenido: Transcripción por lotes de episodios de podcast o narración de vídeo.
Interfaces de voz: Conversión del habla del usuario en texto ejecutable dentro de las aplicaciones.

La API admite streaming para aplicaciones en tiempo real y procesamiento por lotes para archivos pregrabados. Detalles y precios en fish.audio/plan.

Conclusión

La función de voz a texto está disponible en todas las plataformas principales. Win + H en Windows, Fn Fn en Mac, el icono del micrófono en iPhone y Android, y el micrófono de la bandeja del sistema en Chromebook. Activarla lleva segundos y, para mensajes rápidos y notas cortas, el dictado integrado funciona suficientemente bien.

Para cualquier cosa más larga, las herramientas integradas introducen una carga de corrección que anula la ventaja de la velocidad. Si vas a transcribir grabaciones, procesar reuniones o convertir audio extenso en texto, el Speech to Text de Fish Audio se encarga de la carga de trabajo para la que el dictado a nivel de dispositivo no fue diseñado. Sube, transcribe y listo.","article_tag":"Guía","image_alt":"logotipo de Fish Audio"}

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

Regístrate gratis

¿Ya tienes una cuenta? Iniciar sesión

Compartir este artículo

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Leer más de Kyle Cui >