Guia Completo de Voz para Texto no Mac: Configurações e Uso do Ditado no macOS

28 de fev. de 2026

Guia Completo de Voz para Texto no Mac: Configurações e Uso do Ditado no macOS

Oito horas de digitação, 4.000 palavras, e seus pulsos estão lembrando você de que eles têm limites. Você ativa a voz para texto do Mac (Ditado do Mac), começa a falar e observa as duas primeiras frases aparecerem perfeitamente. Então, você para para pensar por 30 segundos, e o Ditado do Mac desliga sozinho. Você o reinicia, fala mais rápido desta vez e percebe que ele está colocando letras maiúsculas em palavras aleatórias e ignorando cada vírgula. Na terceira reinicialização, você gastou mais tempo lutando com a ferramenta do que gastaria digitando.

O recurso de voz para texto integrado do Mac é mais capaz do que a maioria dos usuários imagina, mas seu comportamento padrão é contra-intuitivo, suas configurações estão divididas em vários painéis do sistema e ele não anuncia seus recursos mais úteis. A pessoa média digita 40 palavras por minuto. A digitação por voz no Mac captura de 130 a 160 ppm. Esse ganho de velocidade de 3 a 4 vezes é real uma vez que a configuração esteja correta, e não vale nada se o Ditado continuar parando automaticamente após cerca de 30 segundos de silêncio.

Ditado do Mac em 2026: Dois Motores, Um Botão Confuso

A Apple atualmente oferece dois sistemas de ditado no macOS, e as diferenças entre eles afetam a precisão, a privacidade e por quanto tempo você pode ditar sem interrupção.

RecursoDitado Aprimorado (No Dispositivo)Ditado Padrão (Baseado em Servidor)
ProcessamentoNo seu Mac, sem necessidade de internetServidores da Apple requerem internet
Ditado contínuoSim, sem limite de tempoPara automaticamente após pausas
PrivacidadeO áudio nunca sai do seu dispositivoÁudio enviado à Apple para processamento
PrecisãoMuito boa para idiomas suportadosUm pouco melhor para casos específicos
ArmazenamentoDownload de 1-2 GB por idiomaNão requer armazenamento local
DisponibilidademacOS Ventura 13+ com Apple SiliconTodas as versões do macOS

Em Macs com Apple Silicon rodando macOS Ventura ou posterior, o ditado no dispositivo é o padrão. Ele processa a fala localmente usando o Neural Engine, portanto não expira, não requer Wi-Fi e não envia seu áudio para os servidores da Apple.

Em Macs Intel mais antigos, você fica limitado ao ditado baseado em servidor, que requer uma conexão com a internet e tende a parar automaticamente após pausas breves. Esse comportamento de parada automática é o que frustra a maioria dos usuários que tentam o ditado uma vez e desistem.

Se você não tiver certeza de qual versão está executando, verifique em Ajustes do Sistema > Teclado > Ditado. Se vir a menção "Ditado no Dispositivo", você está usando o motor local.

Configurando o Ditado: A Maneira Correta (Não a Óbvia)

A maioria das pessoas encontra o Ditado por acidente ao pressionar a tecla do microfone em seu teclado. A configuração é simples, mas existem dois ajustes não óbvios que afetam drasticamente a experiência.

Configuração básica

  1. Abra os Ajustes do Sistema (Menu Apple > Ajustes do Sistema)
  2. Clique em Teclado na barra lateral
  3. Role para baixo até Ditado e ative-o
  4. Escolha seu Idioma (você pode adicionar vários)
  5. Defina seu Atalho (o padrão é pressionar a tecla Fn duas vezes, mas "Pressionar Fn" ou um atalho personalizado também são opções)
  6. Se solicitado, baixe o modelo de reconhecimento de fala no dispositivo para o seu idioma

As duas configurações que a maioria das pessoas esquece

Pontuação automática. A partir do macOS Sonoma, a Apple ativou a pontuação automática por padrão. O Ditado insere pontos, vírgulas e pontos de interrogação com base nos seus padrões de fala, sem que você precise dizer "ponto" ou "vírgula" em voz alta. Se isso não estiver funcionando para você, certifique-se de estar executando o macOS 14 ou posterior e que seu idioma de ditado seja Inglês, Espanhol, Francês, Alemão, Italiano, Português, Chinês, Coreano ou Japonês (a pontuação automática ainda não suporta todos os idiomas).

Fonte do microfone. Por padrão, o macOS usa qualquer microfone que o sistema esteja configurado para usar. Se você estiver obtendo baixa precisão, a solução geralmente é de hardware, não de software. Vá em Ajustes do Sistema > Som > Entrada e certifique-se de que ele esteja apontando para o seu melhor microfone. Mesmo um microfone USB barato, colocado perto da sua boca, geralmente melhora a precisão do ditado em comparação com o microfone embutido.

Como Realmente Ditar no Mac (Aplicativo por Aplicativo)

Uma vez que o Ditado do Mac está ativado, a ativação funciona da mesma forma em todos os lugares: pressione seu atalho (padrão: Fn duas vezes), comece a falar, pressione o atalho novamente para parar. Mas o comportamento varia ligeiramente entre os aplicativos.

Pages e TextEdit

A experiência de ditado mais limpa no Mac. Posicione o cursor, ative a voz para texto do Mac e fale. O texto aparece em tempo real. Você pode ditar continuamente enquanto alterna entre digitar e falar. No macOS Sonoma e posterior, você não precisa parar o Ditado do Mac para fazer uma edição rápida com o teclado.

Notas

Funciona bem para brainstorming e notas de reuniões. Um truque útil: crie uma nova nota, inicie o Ditado e use-o como um bloco de notas de voz. O Notas sincroniza com o iCloud, então seu texto ditado fica imediatamente disponível no seu iPhone e iPad.

Mail

O Ditado do Mac funciona na janela de composição. Útil para respostas de e-mail longas onde digitar parece tedioso. Uma peculiaridade: se você ditar uma URL ou endereço de e-mail, a precisão cai significativamente. Soletre-os letra por letra ou digite-os manualmente.

Safari e Chrome (campos de texto)

O ditado funciona em qualquer campo de texto da web, incluindo Google Docs, Notion, Slack e caixas de composição de redes sociais. Dito isso, editores de texto baseados na web às vezes lidam com a inserção em tempo real de forma diferente, o que pode causar problemas de pulos do cursor. Se você notar o texto aparecendo no lugar errado, clique para reposicionar seu cursor e reinicie o Ditado.

Terminal

O ditado tecnicamente funciona no Terminal, mas não é prático. Sintaxe de comandos, flags e caminhos de arquivos não se traduzem bem para o reconhecimento de fala. Continue digitando no Terminal.

Comandos de Voz que Transformam o Ditado em Edição Real

A maioria dos usuários de Mac dita o texto e depois muda para o teclado e o mouse para corrigir tudo. Isso é metade do valor perdido. O macOS suporta comandos de voz para pontuação, formatação e edição básica, eliminando a maior parte da limpeza pós-ditado.

Pontuação (diga estes enquanto dita):

  • "Ponto"
  • "Vírgula"
  • "Ponto de interrogação"
  • "Ponto de exclamação"
  • "Dois pontos" / "Ponto e vírgula"
  • "Abrir aspas" ... "Fechar aspas"
  • "Abrir parênteses" ... "Fechar parênteses"
  • "Travessão" (insere um hífen)
  • "Reticências"

Controle de linha e parágrafo:

  • "Nova linha" (move para a próxima linha)
  • "Novo parágrafo" (insere uma quebra de parágrafo)
  • "Tecla Tab"

Comandos de edição:

  • "Selecionar palavra anterior" / "Selecionar próxima palavra"
  • "Selecionar tudo"
  • "Apagar isso" (remove a última frase ditada)
  • "Desfazer"
  • "Ativar maiúsculas" ... "Desativar maiúsculas" (para seções em TUDO MAIÚSCULO)
  • "Numeral [número]" (força o formato numérico, ex: "numeral 5" → 5 em vez de "cinco")

Aqui está o que a maioria das pessoas não percebe: você pode misturar digitação e ditado em tempo real no macOS Sonoma e posterior. Dite um parágrafo, use o mouse para clicar em outro lugar, digite uma correção e retome o ditado. O comportamento antigo de "Ditado OU digitação, não ambos" não está mais presente nos sistemas mais novos.

Os 5 Assassinos da Precisão (e Como Resolver Cada Um)

Se a precisão do seu Ditado do Mac parece pior do que deveria, um destes cinco fatores quase sempre é o responsável.

1. Microfone embutido do laptop em uma sala barulhenta. O maior assassino de precisão isolado. Os microfones do MacBook são projetados para chamadas FaceTime, não para ditado contínuo. Um microfone condensador USB ($15-30), colocado a 15-20 cm da sua boca, aumentará a precisão de cerca de 85% para mais de 95% em um ambiente silencioso.

2. Falar rápido demais sem pausas. O ditado processa a fala em blocos. Se você emendar as frases sem pausas naturais, o modelo perde as fronteiras de contexto e atribui palavras erradas. Fale em um ritmo de conversa com pausas de 0,5 segundo entre as frases. Mais devagar que o seu ritmo natural de fala, mais rápido do que uma enunciação cuidadosa.

3. Sotaque ou dialeto não padrão. O modelo da Apple lida bem com os principais sotaques do inglês, mas pode ter dificuldade com dialetos regionais fortes e sotaques estrangeiros carregados. O processamento no dispositivo tende a ser um pouco mais tolerante que o baseado em servidor porque o modelo executa contexto contínuo, mas a lacuna ainda é perceptível para falantes com padrões de sotaque menos comuns.

4. Áudio de fundo interferindo. Música, TV, outras pessoas falando. Mesmo em volume baixo, o áudio concorrente confunde o modelo. Use fones de ouvido para o seu áudio e deixe o canal do microfone limpo apenas para a sua voz.

5. Não treinar o sistema. O macOS aprende com seus padrões de ditado ao longo do tempo, mas apenas se você corrigir os erros usando o teclado (não reditando por cima deles). Quando o Ditado errar uma palavra, clique nela, digite a correção e siga em frente. Com o passar dos dias e semanas, a precisão melhora para o seu vocabulário e padrões de fala específicos.

Onde o Ditado do Mac Não Chega (e o Que Usar em Vez Disso)

O Ditado do Mac é genuinamente bom para o propósito pretendido: transformar fala ao vivo em texto em tempo real, um falante, um microfone, um idioma de cada vez. Mas ele tem limites rígidos que nenhum upgrade de microfone ou treinamento pode resolver.

Sem transcrição de arquivos de áudio. Você não pode alimentar o Ditado com um MP3, uma gravação do Zoom ou um Memorando de Voz. Ele só processa entrada de microfone ao vivo. Se você tem uma entrevista gravada, palestra, podcast ou reunião que precisa de uma transcrição, o Ditado não pode ajudar com isso.

Sem identificação de falantes. O Ditado não tem conceito de quem está falando. Se você estiver transcrevendo uma entrevista entre duas pessoas reproduzindo-a pelos seus alto-falantes (a gambiarra de loopback de áudio), você terá uma parede de texto indiferenciada sem rótulos de quem fala.

Um único idioma por sessão. Você pode ditar em inglês ou português, mas não em ambos na mesma sessão. Alternar idiomas requer parar o Ditado do Mac, alterar a configuração de idioma e reiniciar o Ditado do Mac. Para falantes bilíngues ou conteúdo multilíngue, isso mata o fluxo de trabalho.

Sem registros de data e hora (timestamps). O Ditado produz texto simples. Não há como obter timestamps para referência de áudio, o que importa para jornalistas, pesquisadores e qualquer pessoa que precise rastrear uma transcrição de volta a um momento específico em uma gravação.

Teto de precisão com áudio imperfeito. O Ditado assume uma fala limpa e direta para o microfone. No momento em que a qualidade do áudio cai, mesmo que ligeiramente (gravações de telefone, eco na sala, ruído de rua), a precisão cai abaixo do ponto em que editar a transcrição leva mais tempo do que digitar do zero.

Do Ditado ao Vivo para a Transcrição Completa de Áudio com Fish Audio

Quando suas necessidades ultrapassam a linha de "ditar meus próprios pensamentos" para "transcrever áudio gravado", uma ferramenta dedicada de fala para texto retoma exatamente onde o Ditado do Mac para.

O Speech to Text da Fish Audio foi construído para os cenários que o macOS não consegue lidar. Aqui está o que muda:

Carregue qualquer arquivo de áudio. MP3, WAV, M4A, entrevistas gravadas, exportações do Zoom, Memorandos de Voz, episódios de podcast. Coloque o arquivo, receba uma transcrição. Sem truques de reprodução ao vivo, sem roteamento de loopback de áudio, sem espera em tempo real. No modo lote, a velocidade de processamento é comumente descrita como cerca de 0,3–0,5x a duração do áudio (por exemplo, um arquivo de 10 minutos pode terminar em ~3–5 minutos), portanto, arquivos mais longos levam proporcionalmente mais tempo.

Precisão que sobrevive ao áudio do mundo real. O modelo da Fish Audio é treinado em diversas condições de gravação, incluindo áudio com qualidade de telefone, eco de sala, ruído de fundo e fala sobreposta. A lacuna de precisão entre uma gravação de estúdio e uma entrevista em uma cafeteria é menor do que a que você obteria com a gambiarra de loopback do Ditado do Mac.

Transcrição multilíngue sem trocar de sessão. A Fish Audio comercializa o speech-to-text como suporte para mais de 100 idiomas e dialetos; seu FAQ de STT menciona explicitamente Inglês, Mandarim, Cantonês, Japonês e Coreano, e afirma que a alternância de código multilíngue é tratada automaticamente. Se sua gravação contiver alternância de código entre Inglês e Mandarim ou Espanhol e Português, o modelo lida com as transições de idioma dentro do mesmo arquivo, em vez de exigir sessões separadas.

O fluxo de trabalho prático para usuários de Mac:

  • Rascunhos ao vivo e brainstorming: Use o Ditado do Mac. É gratuito, integrado e excelente para ditado solo em uma sala silenciosa. Pressione Fn duas vezes, fale, pronto.
  • Transcrevendo áudio gravado: Use o Fish Audio STT. Carregue o arquivo, obtenha uma transcrição limpa e cole-a no seu editor de texto do Mac.
  • Produzindo áudio a partir de texto finalizado: Use o Fish Audio TTS com mais de 2.000.000 de vozes, clonagem de voz de 15 segundos e 8 idiomas.

Essa combinação cobre todo o ciclo de voz para texto para voz. O Ditado do Mac lida com o lado da entrada ao vivo gratuitamente. A Fish Audio lida com tudo o que requer processamento de arquivo de áudio, suporte multilíngue ou saída com qualidade de produção. As duas ferramentas se complementam em vez de competir.

Quanto custa

O nível gratuito da Fish Audio é generoso o suficiente para testar com gravações reais, não apenas clipes de amostra. Os planos pagos começam em $11 por mês para 600.000 caracteres de saída TTS, com o uso de STT incluído. Para contexto: um serviço profissional de transcrição humana cobra de $1 a $3 por minuto de áudio. Uma transcrição de entrevista de 60 minutos custaria de $60 a $180 em um serviço e levaria de 24 a 48 horas. A Fish Audio processa o mesmo arquivo em menos de 2 minutos. O preço completo está aqui. fish-logo

Conclusão

O Ditado do Mac é o recurso de produtividade mais subutilizado no macOS. Configure-o corretamente (microfone certo, motor no dispositivo, pontuação automática ativada), aprenda dez comandos de voz e você escreverá conteúdo a 3-4x a sua velocidade de digitação sem que seus pulsos paguem por isso. Ele é genuinamente bom no que faz.

O que ele não faz é transcrever gravações, lidar com vários idiomas em uma sessão ou processar áudio que não foi falado diretamente no microfone do seu Mac instantes atrás. Para esses fluxos de trabalho, o caminho mais limpo é manter o Ditado do Mac para entrada ao vivo e adicionar a Fish Audio para todo o resto: transcrição de arquivos na entrada e geração de voz profissional na saída. Comece com o nível gratuito e teste-o em qualquer gravação que esteja no seu aplicativo de Memorandos de Voz esperando por uma transcrição.","article_tag":"Guia"}

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar

Compartilhar este artigo


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Leia mais de Kyle Cui >

Artigos Recentes

Ver tudo >