Guía completa de dictado por voz en Mac: Configuración y uso de la entrada de voz en macOS

28 feb 2026

Guía completa de dictado por voz en Mac: Configuración y uso de la entrada de voz en macOS

Ocho horas escribiendo, 4.000 palabras, y tus muñecas te recuerdan que tienen límites. Activas el dictado por voz de Mac (Dictado de Mac), comienzas a hablar y ves cómo las dos primeras frases aparecen perfectamente. Luego te detienes a pensar durante 30 segundos y el Dictado de Mac se apaga solo. Lo reinicias, hablas más rápido esta vez y notas que pone mayúsculas en palabras al azar e ignora todas las comas. Al tercer reinicio, habrás pasado más tiempo luchando con la herramienta que el que habrías pasado escribiendo.

La función de dictado por voz integrada de Mac es más capaz de lo que la mayoría de los usuarios creen, pero su comportamiento predeterminado es poco intuitivo, sus ajustes están divididos en varios paneles del sistema y no promociona sus funciones más útiles. La persona promedio escribe 40 palabras por minuto. El dictado por voz de Mac captura entre 130 y 160 ppm. Esa ganancia de velocidad de 3 a 4 veces es real una vez que la configuración es correcta, y no vale de nada si el dictado se detiene automáticamente tras unos 30 segundos de silencio.

Dictado de Mac en 2026: Dos motores, un interruptor confuso

Apple ofrece actualmente dos sistemas de dictado en macOS, y las diferencias entre ellos afectan la precisión, la privacidad y cuánto tiempo puedes dictar sin interrupciones.

Característica	Dictado mejorado (en el dispositivo)	Dictado estándar (basado en servidor)
Procesamiento	En tu Mac, sin necesidad de internet	Servidores de Apple, requiere internet
Dictado continuo	Sí, sin límite de tiempo	Se detiene automáticamente tras las pausas
Privacidad	El audio nunca sale de tu dispositivo	El audio se envía a Apple para su procesamiento
Precisión	Muy buena para los idiomas compatibles	Ligeramente mejor para casos atípicos
Almacenamiento	Descarga de 1-2 GB por idioma	No requiere almacenamiento local
Disponibilidad	macOS Ventura 13+ con Apple Silicon	Todas las versiones de macOS

En los Mac con Apple Silicon que ejecutan macOS Ventura o posterior, el dictado en el dispositivo es el predeterminado. Procesa el habla localmente utilizando el Neural Engine, por lo que no se agota el tiempo, no requiere Wi-Fi y no envía tu audio a los servidores de Apple.

En los Mac con Intel más antiguos, estás limitado al dictado basado en servidor, que requiere una conexión a internet y tiende a detenerse automáticamente tras pausas breves. Ese comportamiento de parada automática es lo que frustra a la mayoría de los usuarios que prueban el dictado una vez y se rinden.

Si no estás seguro de qué versión estás ejecutando, consulta Ajustes del Sistema > Teclado > Dictado. Si ves la mención "Dictado en el dispositivo", estás utilizando el motor local.

Configuración del dictado: La forma correcta (no la obvia)

La mayoría de las personas encuentran el Dictado por accidente al pulsar la tecla del micrófono en su teclado. La configuración es sencilla, pero hay dos ajustes no tan obvios que afectan drásticamente la experiencia.

Configuración básica

Abre Ajustes del Sistema (Menú Apple > Ajustes del Sistema)
Haz clic en Teclado en la barra lateral
Desplázate hasta Dictado y actívalo
Elige tu Idioma (puedes añadir varios)
Configura tu Función rápida (por defecto es pulsar la tecla Fn dos veces, pero "Pulsar Fn" o una función personalizada también son opciones)
Si se te solicita, descarga el modelo de reconocimiento de voz en el dispositivo para tu idioma

Los dos ajustes que la mayoría pasa por alto

Puntuación automática. A partir de macOS Sonoma, Apple habilitó la puntuación automática por defecto. El dictado inserta puntos, comas y signos de interrogación según tus patrones de habla sin que tengas que decir "punto" o "coma" en voz alta. Si esto no te funciona, asegúrate de tener macOS 14 o posterior y que tu idioma de dictado sea inglés, español, francés, alemán, italiano, portugués, chino, coreano o japonés (la puntuación automática aún no admite todos los idiomas).

Fuente del micrófono. Por defecto, macOS utiliza cualquier micrófono que el sistema tenga configurado. Si obtienes una precisión deficiente, la solución suele ser el hardware, no el software. Ve a Ajustes del Sistema > Sonido > Entrada y asegúrate de que apunte a tu mejor micrófono. Incluso un micrófono USB económico, colocado cerca de tu boca, suele mejorar la precisión del dictado en comparación con el micrófono integrado.

Cómo dictar realmente en Mac (aplicación por aplicación)

Una vez activado el Dictado de Mac, la activación funciona igual en todas partes: pulsa tu función rápida (por defecto: Fn dos veces), empieza a hablar, vuelve a pulsar la función rápida para detenerte. Pero el comportamiento varía ligeramente según la aplicación.

Pages y TextEdit

La experiencia de dictado más fluida en Mac. Coloca el cursor, activa el dictado de voz de Mac y habla. El texto aparece en tiempo real. Puedes dictar de forma continua mientras alternas entre escribir y hablar. En macOS Sonoma y versiones posteriores, no necesitas detener el Dictado de Mac para realizar una edición rápida con el teclado.

Notas

Funciona bien para lluvias de ideas y notas de reuniones. Un truco útil: crea una nota nueva, inicia el Dictado y úsalo como un bloc de notas de voz. Notas se sincroniza con iCloud, por lo que tu texto dictado estará disponible inmediatamente en tu iPhone y iPad.

Mail

El Dictado de Mac funciona en la ventana de redacción. Útil para respuestas de correo electrónico largas donde escribir resulta tedioso. Una peculiaridad: si dictas una URL o una dirección de correo electrónico, la precisión cae significativamente. Deletréalas letra por letra o escríbelas manualmente.

Safari y Chrome (campos de texto)

El dictado funciona en cualquier campo de texto web, incluidos Google Docs, Notion, Slack y cuadros de redacción de redes sociales. Dicho esto, los editores de texto basados en la web a veces gestionan la inserción en tiempo real de forma diferente, lo que puede causar saltos en el cursor. Si notas que el texto aparece en el lugar equivocado, haz clic para reposicionar el cursor y reinicia el Dictado.

Terminal

Técnicamente el dictado funciona en Terminal, pero no es práctico. La sintaxis de comandos, los indicadores (flags) y las rutas de archivos no se traducen bien al reconocimiento de voz. Es mejor seguir escribiendo en Terminal.

Comandos de voz que convierten el dictado en una edición real

La mayoría de los usuarios de Mac dictan texto y luego cambian al teclado y al ratón para arreglarlo todo. Eso es perder la mitad del valor. macOS admite comandos de voz para puntuación, formato y edición básica, eliminando la mayor parte de la limpieza posterior al dictado.

Puntuación (dilos mientras dictas):

"Punto"
"Coma"
"Signo de interrogación"
"Signo de exclamación"
"Dos puntos" / "Punto y coma"
"Abrir comillas" ... "Cerrar comillas"
"Abrir paréntesis" ... "Cerrar paréntesis"
"Guion"
"Puntos suspensivos"

Control de líneas y párrafos:

"Nueva línea" (pasa a la siguiente línea)
"Nuevo párrafo" (inserta un salto de párrafo)
"Tecla tabuladora"

Comandos de edición:

"Seleccionar palabra anterior" / "Seleccionar palabra siguiente"
"Seleccionar todo"
"Elimina eso" (elimina la última frase dictada)
"Deshacer"
"Mayúsculas activadas" ... "Mayúsculas desactivadas" (para secciones en MAYÚSCULAS)
"Numeral [número]" (fuerza el formato numérico, ej. "numeral 5" → 5 en lugar de "cinco")

Hay algo que la mayoría no sabe: puedes mezclar la escritura y el dictado en tiempo real en macOS Sonoma y versiones posteriores. Dicta un párrafo, usa el ratón para hacer clic en otro lugar, escribe una corrección y luego reanuda el dictado. El antiguo comportamiento de "o dictado o escritura, pero no ambos" ya no está presente en los sistemas nuevos.

Los 5 enemigos de la precisión (y cómo solucionar cada uno)

Si sientes que la precisión de tu Dictado de Mac es peor de lo que debería, uno de estos cinco factores suele ser el responsable.

1. El micrófono integrado del portátil en una habitación ruidosa. El mayor enemigo de la precisión. Los micrófonos de los MacBook están diseñados para llamadas de FaceTime, no para un dictado continuo. Un micrófono de condensador USB ($15-30), colocado a 15-20 cm de tu boca, aumentará la precisión de aproximadamente el 85% a más del 95% en un entorno tranquilo.

2. Hablar demasiado rápido y sin pausas. El dictado procesa el habla en bloques. Si unes las frases sin pausas naturales, el modelo pierde los límites del contexto y atribuye mal las palabras. Habla a un ritmo de conversación con pausas de 0,5 segundos entre frases. Más lento que tu ritmo natural, pero más rápido que una enunciación exagerada.

3. Acentos o dialectos no estándar. El modelo de Apple maneja bien los principales acentos del inglés y el español, pero tiene dificultades con dialectos regionales fuertes y acentos extranjeros marcados. El procesamiento en el dispositivo tiende a ser un poco más flexible que el basado en servidor porque el modelo ejecuta un contexto continuo, pero la brecha sigue siendo notable para hablantes con patrones de acento menos comunes.

4. Filtración de audio de fondo. Música, televisión, otras personas hablando. Incluso a bajo volumen, el audio externo confunde al modelo. Usa auriculares para escuchar tu audio y deja el canal del micrófono limpio solo para tu voz.

5. No entrenar al sistema. macOS aprende de tus patrones de dictado con el tiempo, pero solo si corriges los errores con el teclado (no volviendo a dictar sobre ellos). Cuando el Dictado se equivoque en una palabra, haz clic en ella, escribe la corrección y continúa. Con los días y las semanas, la precisión mejorará para tu vocabulario y patrones de habla específicos.

Lo que el Dictado de Mac no puede hacer (y qué usar en su lugar)

El Dictado de Mac es realmente bueno para su propósito previsto: convertir el habla en vivo en texto en tiempo real, con un solo hablante, un micrófono y un idioma a la vez. Pero tiene límites estrictos que ninguna actualización de micrófono o entrenamiento puede solucionar.

No hay transcripción de archivos de audio. No puedes introducir en el Dictado un MP3, una grabación de Zoom o una nota de voz. Solo procesa la entrada del micrófono en vivo. Si tienes una entrevista grabada, una conferencia, un podcast o una reunión que necesita una transcripción, el Dictado no puede ayudarte.

No hay identificación de hablantes. El Dictado no tiene concepto de quién está hablando. Si transcribes una entrevista de dos personas reproduciéndola a través de tus altavoces (el truco del bucle de audio), obtendrás un bloque de texto indiferenciado sin etiquetas de hablantes.

Un solo idioma por sesión. Puedes dictar en inglés o español, pero no en ambos en la misma sesión. Cambiar de idioma requiere detener el Dictado de Mac, cambiar el ajuste de idioma y reiniciar el Dictado. Para hablantes bilingües o contenido multilingüe, esto rompe el flujo de trabajo.

Sin marcas de tiempo. El Dictado produce texto plano. No hay forma de obtener marcas de tiempo para referencia de audio, algo fundamental para periodistas, investigadores y cualquier persona que necesite rastrear una transcripción hasta un momento específico de una grabación.

Límite de precisión con audio imperfecto. El dictado asume un habla limpia y directa al micrófono. En el momento en que la calidad del audio se degrada, aunque sea ligeramente (grabaciones de teléfono, eco de la habitación, ruido de la calle), la precisión cae por debajo del punto en el que editar la transcripción lleva más tiempo que escribir desde cero.

Del dictado en vivo a la transcripción completa de audio con Fish Audio

Cuando tus necesidades pasan de "dictar mis propios pensamientos" a "transcribir audio grabado", una herramienta dedicada de voz a texto toma el relevo justo donde se detiene el Dictado de Mac.

Speech to Text de Fish Audio está diseñado para los escenarios que macOS no puede manejar. Esto es lo que cambia:

Sube cualquier archivo de audio. MP3, WAV, M4A, entrevistas grabadas, exportaciones de Zoom, Notas de voz, episodios de podcast. Suelta el archivo y obtén una transcripción. Sin trucos de reproducción en vivo ni esperas en tiempo real. En el modo por lotes, la velocidad de procesamiento suele ser de 0,3 a 0,5 veces la duración del audio (por ejemplo, un archivo de 10 minutos puede terminarse en unos 3-5 minutos), por lo que los archivos más largos tardan proporcionalmente más.

Precisión que sobrevive al audio del mundo real. El modelo de Fish Audio está entrenado en diversas condiciones de grabación, incluyendo audio de calidad telefónica, eco, ruido de fondo y habla superpuesta. La diferencia de precisión entre una grabación de estudio y una entrevista en una cafetería es menor que la que obtendrías con el truco del bucle de audio del Dictado de Mac.

Transcripción multilingüe sin cambiar de sesión. Fish Audio ofrece un sistema de voz a texto que admite más de 100 idiomas y dialectos; su sección de preguntas frecuentes menciona explícitamente inglés, mandarín, cantonés, japonés y coreano, y afirma que el cambio de código multilingüe se gestiona automáticamente. Si tu grabación contiene cambios entre inglés y mandarín, o español y portugués, el modelo gestiona las transiciones de idioma dentro del mismo archivo sin requerir sesiones separadas.

El flujo de trabajo práctico para usuarios de Mac:

Primeros borradores en vivo y lluvia de ideas: Usa el Dictado de Mac. Es gratuito, está integrado y es excelente para dictado en solitario en una habitación tranquila. Pulsa Fn dos veces, habla y listo.
Transcripción de audio grabado: Usa Fish Audio STT. Sube el archivo, obtén una transcripción limpia y pégala en tu editor de texto de Mac.
Producción de audio a partir de texto terminado: Usa Fish Audio TTS con más de 2.000.000 de voces, clonación de voz en 15 segundos y 8 idiomas.

Esta combinación cubre el ciclo completo de voz a texto y de texto a voz. El Dictado de Mac se encarga de la entrada en vivo de forma gratuita. Fish Audio se encarga de todo lo que requiere procesamiento de archivos de audio, soporte multilingüe o una salida de calidad profesional. Las dos herramientas se complementan en lugar de competir.

¿Cuánto cuesta?

El nivel gratuito de Fish Audio es lo suficientemente generoso como para probarlo con grabaciones reales, no solo con clips de muestra. Los planes de pago comienzan en $11 al mes por 600.000 caracteres de salida de TTS, con el uso de STT incluido. Para ponerlo en contexto: un servicio de transcripción humana profesional cobra entre $1 y $3 por minuto de audio. Una transcripción de una entrevista de 60 minutos costaría entre $60 y $180 y tardaría entre 24 y 48 horas. Fish Audio procesa el mismo archivo en menos de 2 minutos. El cuadro de precios completo está aquí.

Conclusión

El Dictado de Mac es la función de productividad más infrautilizada de macOS. Configúralo correctamente (micrófono adecuado, motor en el dispositivo, puntuación automática activada), aprende diez comandos de voz y redactarás contenido de 3 a 4 veces más rápido que escribiendo, sin que tus muñecas sufran las consecuencias. Es realmente bueno en lo que hace.

Lo que no hace es transcribir grabaciones, gestionar varios idiomas en una sesión o procesar audio que no se haya hablado directamente al micrófono de tu Mac hace unos instantes. Para esos flujos de trabajo, el camino más sencillo es mantener el Dictado de Mac para la entrada en vivo y añadir Fish Audio para todo lo demás: transcripción de archivos en la entrada y generación de voz profesional en la salida. Comienza con el nivel gratuito y pruébalo con esa grabación que ha estado esperando en tu aplicación Notas de Voz para ser transcrita.

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

Regístrate gratis

¿Ya tienes una cuenta? Iniciar sesión

Compartir este artículo

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Leer más de Kyle Cui >