كيفية تشغيل ميزة تحويل الكلام إلى نص وبدء الإملاء على أي جهاز

5 مارس 2026

دليل

كيفية تشغيل ميزة تحويل الكلام إلى نص وبدء الإملاء على أي جهاز

يكتب معظم الأشخاص بمعدل 40 كلمة في الدقيقة، بينما يتحدث معظمهم بمعدل 130 كلمة. هذه فجوة تبلغ 3 أضعاف تضيعها في كل مرة تكتب فيها رسالة بإبهامك، أو تبحث فيها عن الحروف لكتابة بريد إلكتروني، أو تنسخ ملاحظات الاجتماع يدوياً بعد انتهائه.

تقوم ميزة تحويل الكلام إلى نص (Speech to text)، والتي تسمى أيضاً الإملاء أو الكتابة بالصوت، بتحويل كلماتك المنطوقة إلى نص مكتوب في الوقت الفعلي. تتوفر هذه الميزة بشكل مدمج في كل الأجهزة الرئيسية. تشغيلها بسيط، لكن الحصول على نتائج دقيقة يتطلب معرفة بضعة أمور لا تخبرك بها شاشة الإعداد.

Windows 10 و 11

يحتوي نظام Windows على أداتين لتحويل الكلام إلى نص. ميزة الكتابة بالصوت (Voice Typing) هي أداة الإملاء الخفيفة، بينما ميزة التعرف على الكلام في Windows (Windows Speech Recognition) هي النظام الأقدم والأكثر شمولاً.

تمكين الكتابة بالصوت (Voice Typing)

تعد الكتابة بالصوت الخيار الأسرع وهي الميزة التي تطورها Microsoft بنشاط. وهي تعمل في أي حقل نصي عبر النظام.

اضغط على Win + H لفتح شريط أدوات الكتابة بالصوت. ستظهر لوحة ميكروفون صغيرة في أعلى شاشتك.
انقر على أيقونة الميكروفون أو اضغط على Win + H مرة أخرى لبدء الإملاء.
تحدث بشكل طبيعي. سيقوم Windows بنسخ الكلام في الوقت الفعلي وإدراج النص عند موضع المؤشر.

ملاحظات الإعداد لأول مرة:

إذن الميكروفون: قد يطلب منك Windows منح حق الوصول إلى الميكروفون. وافق على ذلك، فبدونه ستفشل عملية الكتابة بالصوت بصمت.
التعرف على الكلام عبر الإنترنت: للحصول على دقة أفضل، تأكد من تمكين التعرف على الكلام عبر الإنترنت تحت الإعدادات > الخصوصية والأمان > الكلام (Settings > Privacy & Security > Speech). النموذج القائم على السحابة أكثر دقة بكثير من البديل الذي يعمل دون اتصال.
الترقيم التلقائي: يمكن للكتابة بالصوت إدراج النقاط والفواصل وعلامات الاستفهام تلقائياً. قم بتفعيل هذا الخيار عبر أيقونة الترس في شريط أدوات الكتابة بالصوت.

أوامر صوتية يمكنك نطقها أثناء الإملاء:

"نقطة" (Period)، "فاصلة" (Comma)، "علامة استفهام" (Question mark)، "علامة تعجب" (Exclamation point) لإدراج علامات الترقيم.
"سطر جديد" (New line) أو "فقرة جديدة" (New paragraph) لإنشاء فواصل أسطر.
"احذف ذلك" (Delete that) لإزالة العبارة الأخيرة.
"إيقاف الإملاء" (Stop dictation) لإغلاق الميكروفون.

التعرف على الكلام في Windows (Windows Speech Recognition)

توفر أداة التعرف على الكلام القديمة تحكماً أوسع، بما في ذلك الأوامر الصوتية للتنقل في Windows، وفتح التطبيقات، والنقر على الأزرار. إنها أكثر قوة ولكنها أكثر تعقيداً.

افتح الإعدادات > إمكانية الوصول > الكلام (Settings > Accessibility > Speech) في (Windows 11) أو ابحث عن "Windows Speech Recognition" في قائمة ابدأ.
اتبع معالج الإعداد، والذي يتضمن خطوة معايرة الميكروفون وتمرين تدريب صوتي قصير.

بالنسبة للإملاء البحت، تعد ميزة الكتابة بالصوت الخيار الأفضل. أما Windows Speech Recognition فيستحق الاستكشاف إذا كنت تريد التحكم في جهاز الكمبيوتر بالكامل دون استخدام اليدين.

macOS

يوفر نظام macOS ميزة الإملاء (Dictation) كميزة على مستوى النظام، وميزة الإملاء المحسن (Enhanced Dictation) للاستخدام دون اتصال بالإنترنت.

تمكين الإملاء

افتح إعدادات النظام > لوحة المفاتيح (System Settings > Keyboard).
انتقل إلى قسم الإملاء (Dictation) وقم بتفعيله.
سيطلب منك macOS التأكيد وقد يقوم بتنزيل نموذج لغة.

بمجرد التمكين، اضغط على مفتاح الميكروفون على لوحة المفاتيح (في أجهزة Mac الحديثة) أو اضغط على Fn مرتين (أو أي اختصار تقوم بتكوينه) لبدء الإملاء في أي حقل نصي.

إعدادات تستحق التحقق منها:

اللغة: انقر على قائمة اللغات المنسدلة لإضافة لغات إملاء إضافية. يدعم macOS لغات متعددة في وقت واحد، ويقوم المحرك باكتشاف اللغة التي تتحدث بها تلقائياً.
الترقيم التلقائي: قم بتفعيله للسماح لنظام macOS بإدراج النقاط والفواصل وعلامات الاستفهام بناءً على وتيرتك ونبرة صوتك.
الاختصار: قم بتخصيص اختصار التنشيط ضمن إعدادات الإملاء إذا كان الضغط المزدوج على Fn يبدو غير مريح.

يقوم إملاء macOS بإرسال الصوت إلى خوادم Apple للمعالجة بشكل افتراضي. في أجهزة Mac التي تعمل بمعالجات Apple Silicon ونظام macOS Ventura أو أحدث، تتوفر المعالجة على الجهاز للغات المدعومة، مما يحافظ على خصوصية صوتك محلياً.

التحكم الصوتي (Voice Control)

ميزة التحكم الصوتي (Voice Control) هي نظام الأوامر الصوتية الكامل في macOS. وهي تتجاوز الإملاء لتسمح لك بالتنقل والنقر والتمرير والتحرير باستخدام الأوامر الصوتية.

افتح إعدادات النظام > إمكانية الوصول > التحكم الصوتي (System Settings > Accessibility > Voice Control) وقم بتفعيلها.

تستخدم ميزة التحكم الصوتي المعالجة على الجهاز حصرياً وتعمل دون اتصال بالإنترنت. وهي مصممة أساساً لمستخدمي ميزات إمكانية الوصول الذين يحتاجون إلى تشغيل كامل دون استخدام اليدين، ولكن الكتاب والمستخدمين المتقدمين يتبنونها أحياناً لأوامر التحرير الدقيقة مثل "تحديد الجملة السابقة" أو "اجعل ذلك حرفاً كبيراً".

iPhone و iPad

يحتوي نظام iOS على ميزة إملاء مدمجة منذ عام 2011. وقد تحسنت الدقة بشكل كبير، خاصة في الأجهزة المزودة بمحرك Apple العصبي (Apple's Neural Engine).

تمكين الإملاء

اذهب إلى الإعدادات > عام > لوحة المفاتيح (Settings > General > Keyboard).
قم بتفعيل تمكين الإملاء (Enable Dictation).
أكد الاختيار عند المطالبة بذلك.

لاستخدامها، افتح أي تطبيق يحتوي على حقل نصي واضغط على أيقونة الميكروفون على لوحة المفاتيح. ابدأ التحدث، ثم اضغط على الميكروفون مرة أخرى أو أيقونة لوحة المفاتيح للتوقف.

في أجهزة iPhone و iPad التي تعمل بنظام iOS 16 أو أحدث، يعمل الإملاء وإدخال لوحة المفاتيح في وقت واحد. يمكنك نطق جملة، ثم تصحيح كلمة يدوياً بلوحة المفاتيح، ثم مواصلة التحدث، كل ذلك دون تبديل الأوضاع. يعد هذا الإدخال الهجين أحد أكثر ميزات الإنتاجية المظلومة في نظام iOS.

تفاصيل مفيدة:

الرموز التعبيرية بالصوت: قل "إيموجي قلب" أو "إيموجي إبهام لأعلى" وسيقوم iOS بإدراج الرمز التعبيري المقابل.
علامات الترقيم: انطق "نقطة"، "فاصلة"، "علامة استفهام"، "علامة تعجب"، أو "فقرة جديدة" بشكل طبيعي ضمن جملتك.
تبديل اللغة: إذا كان لديك لوحات مفاتيح متعددة مثبتة، فإن الإملاء يكتشف تلقائياً اللغة التي تتحدث بها في معظم الحالات.
المعالجة على الجهاز: تعالج طرز iPhone المزودة بمعالج A12 Bionic أو أحدث الإملاء على الجهاز للغات المدعومة، مما يعني أن صوتك لا يغادر الهاتف.

Android

تعتمد ميزة تحويل الكلام إلى نص في Android على محرك التعرف على الصوت من Google وتعمل على مستوى النظام من خلال Gboard أو معظم تطبيقات لوحة المفاتيح الأخرى.

تمكين الكتابة بالصوت في Gboard

تعد Gboard لوحة المفاتيح الافتراضية في معظم هواتف Android. عادة ما تكون الكتابة بالصوت مفعلة افتراضياً، ولكن إليك كيفية التحقق منها وتكوينها:

افتح الإعدادات > النظام > اللغات والإدخال > لوحة المفاتيح على الشاشة > Gboard (Settings > System > Languages & Input > On-Screen Keyboard > Gboard).
اضغط على الكتابة بالصوت (Voice Typing) وتأكد من تفعيلها.
بدلاً من ذلك، افتح أي حقل نصي وابحث عن أيقونة الميكروفون في شريط أدوات Gboard. اضغط عليها لبدء الإملاء.

في أجهزة Samsung التي تستخدم لوحة مفاتيح Samsung:

افتح الإعدادات > الإدارة العامة > إعدادات لوحة مفاتيح Samsung.
اضغط على الإدخال الصوتي واختر محرك الكلام المفضل لديك.

إعدادات رئيسية للتعديل:

التعرف على الكلام دون اتصال: ضمن إعدادات Gboard، انتقل إلى الكتابة بالصوت > التعرف على الكلام دون اتصال لتنزيل حزم اللغات للاستخدام بدون إنترنت. الدقة دون اتصال بالإنترنت أقل ولكنها تقضي على زمن التأخير.
الترقيم التلقائي: عادة ما يكون مفعلاً افتراضياً في Gboard. يضيف المحرك نقاطاً عند التوقفات الطبيعية ويدرج الفواصل أحياناً.
مطابقة الصوت: إذا بدت الدقة ضعيفة، أعد تدريب نموذج صوتك تحت الإعدادات > Google > إعدادات تطبيقات Google > البحث والمساعد والصوت > الصوت > Voice Match.

الإملاء عبر Google Assistant

لإدخال النص السريع، يمكنك أيضاً قول "Hey Google, type..." متبوعاً برسالتك في التطبيقات التي تدعم تكامل المساعد. هذا أسرع للرسائل القصيرة ولكنه أقل عملية للإملاء الطويل.

Chromebook

يدعم نظام ChromeOS الإملاء من خلال ميزات إمكانية الوصول المدمجة ومن خلال محرك الكلام من Google في تطبيقات الويب.

تمكين الإملاء

اذهب إلى الإعدادات > إمكانية الوصول > لوحة المفاتيح وإدخال النص (Settings > Accessibility > Keyboard and Text Input).
قم بتفعيل تمكين الإملاء (Enable Dictation).
ستظهر أيقونة ميكروفون صغيرة في شريط النظام. انقر عليها لبدء الإملاء في أي حقل نصي.

يستخدم إملاء ChromeOS نفس محرك الكلام من Google المستخدم في Android. لذا فإن الدقة، ودعم اللغات، والأوامر الصوتية متطابقة تقريباً.

استخدام الكتابة بالصوت في Google Docs

إذا كنت تعمل بشكل أساسي في Google Docs، فهناك أداة كتابة بالصوت منفصلة مدمجة في التطبيق:

افتح مستند Google Docs.
اذهب إلى أدوات > الكتابة بالصوت (Tools > Voice Typing) أو اضغط على Ctrl + Shift + S.
انقر على أيقونة الميكروفون التي تظهر في الهامش الأيسر وابدأ التحدث.

تدعم الكتابة بالصوت في Google Docs أكثر من 100 لغة وتتضمن أوامر صوتية للتنسيق: "خط عريض" (bold)، "خط مائل" (italics)، "إنشاء قائمة نقطية"، "العنوان 2"، والمزيد. بالنسبة للعمل الكثيف على المستندات في Chromebook، غالباً ما تكون هذه الأداة أكثر قدرة من الإملاء على مستوى النظام.

لماذا تنخفض الدقة بعد الجملة الأولى؟

لقد قمت بتشغيل ميزة تحويل الكلام إلى نص، ونطقت جملة، ونجحت. ثم حاولت إملاء فقرة كاملة فكانت النتيجة فوضوية: كلمات مفقودة، كلمات متشابهة خاطئة، وعلامات ترقيم في غير مكانها.

هذه هي التجربة الأكثر شيوعاً، والسبب عادة ليس محرك الكلام، بل الطريقة التي يتحدث بها الناس عند الإملاء لأول مرة.

تتضمن المحادثة الطبيعية كلمات حشو، وبدايات خاطئة، وتصحيحات في منتصف الجملة، وأفكاراً متلاشية. يقوم دماغك بتصحيح كل هذا تلقائياً عندما يستمع إليك شخص آخر. أما محرك تحويل الكلام إلى نص فينسخ كل شيء حرفياً، بما في ذلك كل "آآآه" و "إممم" و "في الواقع انتظر" وكل فكرة لم تكتمل.

ثلاثة تعديلات تحسن الدقة على الفور:

أنهِ فكرتك قبل أن تنطقها. توقف للحظة، صُغ الجملة كاملة في رأسك، ثم قلها. هذه العادة وحدها تقضي على معظم أخطاء النسخ.
انطق علامات الترقيم صراحة حتى تدركها ميزة الترقيم التلقائي. قل "فاصلة" و "نقطة" بصوت عالٍ. سيبدو الأمر غريباً لمدة خمس دقائق، ثم سيصبح تلقائياً.
أملِ في دفعات قصيرة، وليس بتدفق مستمر. انطق جملتين أو ثلاث جمل، ثم توقف، وراجع، ثم تابع. التدفقات الطويلة غير المنقطعة ترهق ذاكرة المحرك وتزيد من معدلات الخطأ.

تتعامل محركات تحويل الكلام إلى نص المدمجة مع هذه التعديلات جيداً للرسائل القصيرة والملاحظات السريعة. أما بالنسبة للمحتوى الأطول مثل نسخ الاجتماعات، أو المقابلات، أو تسجيلات المحاضرات، أو نصوص البودكاست، فإن متطلبات الدقة ترتفع وتبدأ الأدوات المدمجة في إظهار حدودها.

متى يصل الإملاء المدمج إلى حدوده القصوى؟

تم تصميم ميزة تحويل الكلام إلى نص على مستوى الجهاز للإدخال القصير في الوقت الفعلي. أنت تتحدث، والمحرك ينسخ، وأنت تصحح الأخطاء يدوياً، ثم تمضي قدماً. بالنسبة لرسالة نصية أو استعلام بحث، هذا كافٍ.

لكن سير العمل ينهار في سيناريوهات محددة:

النسخ الطويل: إملاء مقال من 2000 كلمة يعني تصحيح الأخطاء كل بضع جمل. هذه الانقطاعات تقتل ميزة السرعة التي جعلت الإملاء جذاباً في المقام الأول.
الصوت المسجل مسبقاً: يتطلب الإملاء المدمج إدخالاً مباشراً من الميكروفون. لا يمكنه نسخ ملف صوتي، أو تسجيل اجتماع، أو حلقة بودكاست.
متحدثون متعددون: لا يفرق إملاء الجهاز بين الأصوات. في اجتماع أو مقابلة، يتم دمج كل شيء في تدفق نصي واحد غير متمايز.
المفردات المتخصصة: المصطلحات الطبية، والمصطلحات القانونية، والأسماء التقنية للمنتجات، والكلمات غير الإنجليزية تؤدي إلى أخطاء متكررة في التعرف، مما يزيد التصحيح التلقائي الأمر سوءاً.

هذه ليست حالات نادرة، بل هي السيناريوهات التي يقدم فيها تحويل الكلام إلى نص أكبر قيمة، وهي بالضبط المجالات التي تقصر فيها الأدوات المدمجة.

تحويل الكلام إلى نص بالذكاء الاصطناعي للملفات الصوتية والاجتماعات والنسخ الطويل

تتبع ميزة تحويل الكلام إلى نص في Fish Audio نهجاً مختلفاً. فبدلاً من الإملاء عبر الميكروفون فقط وفي الوقت الفعلي، تقوم بمعالجة الملفات الصوتية وإنشاء نسخ عالية الدقة باستخدام نماذج عصبية مدربة على أنماط كلام متنوعة. ما يعنيه ذلك عملياً:

رفع أي ملف صوتي: بصيغ MP3 و WAV و M4A وغيرها من الصيغ القياسية. سجل اجتماعاً، أو محاضرة، أو مقابلة، أو حلقة بودكاست واحصل على نسخة نصية دون كتابة كلمة واحدة.
دعم لغات متعددة: يتعامل المحرك مع مجموعة واسعة من اللغات ويمكنه معالجة الصوت الذي يتنقل فيه المتحدثون بين اللغات في منتصف المحادثة.
دقة أعلى في المحتوى الطويل: بينما تتدهور دقة الإملاء المدمج في الفقرات الطويلة، يحافظ نموذج STT في Fish Audio على الاتساق عبر دقائق أو ساعات من الصوت. تم تصميم البنية العصبية للنسخ المستمر، وليس فقط للدفعات القصيرة.
لا حاجة للميكروفون: لست بحاجة للتحدث إلى جهازك في الوقت الفعلي. ارفع تسجيلاً من أي مصدر واحصل على النص.

بالنسبة لصناع المحتوى، والصحفيين، والباحثين، وأي شخص يحول الكلمات المنطوقة بانتظام إلى نص مكتوب، يتحول سير العمل من "الإملاء وإصلاح الأخطاء باستمرار" إلى "التسجيل بشكل طبيعي، ثم نسخ كل شيء دفعة واحدة".

الوصول إلى API للمطورين

إذا كنت تبني تطبيقاً يحتاج إلى ميزة تحويل الكلام إلى نص، فإن Fish Audio API يوفر وصولاً برمجياً إلى نفس محرك النسخ. تشمل حالات الاستخدام:

أدوات الاجتماعات: النسخ التلقائي للمكالمات الجماعية.
ميزات إمكانية الوصول: التعليق المباشر لمنصات الفيديو.
مسارات المحتوى: النسخ الجماعي لحلقات البودكاست أو التعليق الصوتي للفيديو.
واجهات صوتية: تحويل كلام المستخدم إلى نص قابل للتنفيذ داخل التطبيقات.

يدعم API البث للتطبيقات في الوقت الفعلي والمعالجة الجماعية للملفات المسجلة مسبقاً. التفاصيل والأسعار متوفرة في fish.audio/plan.

الخاتمة

ميزة تحويل الكلام إلى نص متاحة في كل المنصات الرئيسية. Win + H في Windows، و Fn Fn في Mac، وأيقونة الميكروفون في iPhone و Android، وميكروفون شريط النظام في Chromebook. يستغرق تشغيلها ثوانٍ، وبالنسبة للرسائل السريعة والملاحظات القصيرة، يعمل الإملاء المدمج بشكل جيد بما يكفي.

أما بالنسبة لأي شيء أطول، فإن الأدوات المدمجة تفرض عبء تصحيح يمحو ميزة السرعة. إذا كنت تنسخ تسجيلات، أو تعالج اجتماعات، أو تحول صوتاً طويلاً إلى نص، فإن ميزة تحويل الكلام إلى نص في Fish Audio تتعامل مع عبء العمل الذي لم يُصمم الإملاء على مستوى الجهاز من أجله. ارفع الملف، انسخ، وانتهى الأمر.

أنشئ أصواتًا تبدو حقيقية

ابدأ في إنشاء أعلى جودة صوت اليوم

سجل مجانًا

هل لديك حساب بالفعل؟ تسجيل الدخول

شارك هذه المقالة

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

اقرأ المزيد من Kyle Cui >