الدليل الشامل لتحويل الصوت إلى نص في مستندات Google: كيفية استخدام الإدخال الصوتي وتحويل الكلام إلى نص

28 فبراير 2026

الدليل الشامل لتحويل الصوت إلى نص في مستندات Google: كيفية استخدام الإدخال الصوتي وتحويل الكلام إلى نص

لقد قمت بتسجيل مقابلة مع عميل لمدة 45 دقيقة على هاتفك. عند عودتك إلى مكتبك، تفتح مستندات Google، وتبحث عن "تفريغ" (transcribe)، ولا تجد شيئاً. تحاول استخدام "الكتابة بالصوت" في مستندات Google، وترفع هاتفك إلى ميكروفون الكمبيوتر المحمول، وتضغط على زر التشغيل. يقوم Google بتفريغ حوالي 40% من الكلمات بشكل صحيح قبل أن يتوقف تماماً عندما تنخفض جودة الصوت.

هذه هي الفجوة التي يكتشفها معظم الناس بالطريقة الصعبة. تحتوي مستندات Google على أداة مدمجة لتحويل الصوت إلى نص تعمل بشكل جيد في الإملاء المباشر، عندما تتحدث مباشرة في الميكروفون في غرفة هادئة. ولكن في اللحظة التي تحتاج فيها إلى تفريغ تسجيل، أو التعامل مع متحدثين متعددين، أو الإملاء في بيئة صاخبة، ستصطدم ميزة الكتابة بالصوت في مستندات Google بحائط مسدود. يكتب الشخص العادي بسرعة 40 كلمة في الدقيقة، بينما يمكن للإملاء أن يصل إلى 150 كلمة في الدقيقة. هذا الفرق في السرعة الذي يصل إلى 3.7 مرة حقيقي، ولكن فقط إذا كانت أداة تحويل الكلام إلى نص تلتقط بالفعل ما تقوله.

الكتابة بالصوت في مستندات Google تعمل بشكل أفضل مما تعتقد (مع الإعداد الصحيح)

يحاول معظم الناس استخدام الكتابة بالصوت مرة واحدة، ويشعرون بالإحباط بسبب الأخطاء، ثم يتركونها. في معظم الحالات، لا تكمن المشكلة في الأداة، بل في الإعداد. ميكروفون USB بقيمة 15 دولاراً وغرفة هادئة سيضاعفان دقة عملك مقارنة بميكروفون الكمبيوتر المحمول المدمج في مقهى.

إليك ما يمكن وما لا يمكن للكتابة بالصوت فعله قبل أن تبدأ:

القدرة	مدعومة	ملاحظات
الإملاء المباشر	نعم	تحدث مباشرة في الميكروفون
تفريغ ملفات الصوت	لا	تعالج فقط مدخلات الميكروفون المباشرة
علامات الترقيم بالصوت	نعم	قل "period" (نقطة)، "comma" (فاصلة)، "new paragraph" (فقرة جديدة)
لغات متعددة	نعم	تدعم أكثر من 100 لغة
تحديد هوية المتحدث	لا	لا يمكنها التمييز بين المتحدثين
الاستخدام بدون إنترنت	لا	تتطلب اتصالاً بالإنترنت
دعم الهاتف المحمول	نعم	تطبيق مستندات Google على Android و iOS

كلمة "لا" بجانب تفريغ الملفات الصوتية هي العائق الذي يدفع معظم المستخدمين للبحث عن بدائل. سنصل إلى ذلك لاحقاً.

خطوة بخطوة: إعداد الكتابة بالصوت في مستندات Google

على سطح المكتب (يتطلب متصفح Chrome)

تعمل ميزة الكتابة بالصوت فقط في متصفح Google Chrome. ولن تظهر في Firefox أو Safari أو Edge.

افتح مستند Google في Chrome
اذهب إلى الأدوات > الكتابة بالصوت (أو اضغط على Ctrl + Shift + S في Windows، أو Cmd + Shift + S في Mac)
ستظهر أيقونة ميكروفون على الجانب الأيسر من المستند
انقر على القائمة المنسدلة فوق الميكروفون لاختيار لغتك
انقر على أيقونة الميكروفون. سيتحول لونه إلى الأحمر عندما يبدأ الاستماع.
ابدأ التحدث بوضوح وبوتيرة طبيعية
انقر على الميكروفون مرة أخرى للتوقف، أو توقف عن الكلام لمدة 30 ثانية تقريباً، وسيتوقف تلقائياً

على الهاتف المحمول (Android و iOS)

تجربة الهاتف المحمول مختلفة قليلاً لأنها تستخدم ميزة التعرف على الصوت الأصلية لجهازك:

افتح تطبيق مستندات Google
اضغط لوضع المؤشر حيث تريد النص
اضغط على أيقونة الميكروفون في لوحة المفاتيح (هذا هو الإملاء المدمج في جهازك، وليس ميزة الكتابة بالصوت الخاصة بـ Google تحديداً)
تحدث بشكل طبيعي. سيظهر النص في الوقت الفعلي.
اضغط على الميكروفون مرة أخرى للتوقف

في Android، تميل ميزة التعرف على الكلام من Google إلى تقديم دقة أعلى لأنها مدمجة بإحكام مع نظام التشغيل. أما في iOS، فأنت تستخدم محرك الإملاء الخاص بـ Apple، والذي يتعامل مع اللغة الإنجليزية بشكل جيد ولكنه قد يتأخر عن دقة تحويل الصوت إلى نص من Google في اللغات الأخرى.

الأوامر الصوتية التي توفر لك 10 دقائق في كل جلسة

لا يدرك معظم المستخدمين أن ميزة الكتابة بالصوت في مستندات Google تدعم الأوامر المنطوقة للتنسيق والتنقل. تعلم خمسة فقط من هذه الأوامر سيغنيك عن التبديل المستمر بين التحدث والكتابة.

أوامر علامات الترقيم الأساسية:

"Period" ← .
"Comma" ← ,
"Question mark" ← ؟
"Exclamation point" ← !
"New line" ← ينتقل إلى السطر التالي
"New paragraph" ← يدرج فاصل فقرة

أوامر التنسيق (باللغة الإنجليزية فقط):

"Bold" / "Unbold"
"Italics" / "Remove italics."
"Underline" / "Remove underline."
"Create a bulleted list."
"Create numbered list."

التنقل والتحرير:

"Select [word]" ← يحدد كلمة معينة
"Select all" ← يحدد كل شيء
"Delete" / "Backspace" ← يحذف الكلمة الأخيرة
"Go to end of line" ← يحرك المؤشر
"Undo" ← يتراجع عن الإجراء الأخير

ملاحظة هامة: هذه الأوامر الصوتية تعمل فقط عندما تكون لغة الواجهة مضبوطة على الإنجليزية. إذا كنت تملي باللغة الإسبانية أو اليابانية، يمكنك إملاء المحتوى بهذه اللغات، ولكن يجب إصدار أوامر التنسيق باللغة الإنجليزية. وهذا عائق مربك لمستخدمي الكتابة بالصوت في مستندات Google الذين يتحدثون لغات متعددة.

متى تخفق الكتابة بالصوت (ومتى يجب التبديل إلى أدوات أخرى)

تعد ميزة الكتابة بالصوت جيدة بشكل مدهش للغرض المخصص لها: إملاء المسودة الأولى في بيئة هادئة. ولكن لديها خمسة قيود قوية لا يمكن لأي إعداد إصلاحها.

لا يوجد تفريغ للملفات الصوتية. هذه هي أكبر فجوة. لا يمكنك رفع ملف MP3 أو سحب ملف WAV أو توجيه ميزة الكتابة بالصوت نحو تسجيل Zoom. فهي تعالج فقط مدخلات الميكروفون المباشرة. إذا كان لديك مقابلة مسجلة أو محاضرة أو حلقة بودكاست تحتاج إلى تفريغ، فإن مستندات Google لا يمكنها مساعدتك.

متحدث واحد فقط. لا تملك ميزة الكتابة بالصوت مفهوم تمييز المتحدثين. إذا كان شخصان يتحدثان في اجتماع، سيصبح التفريغ جداراً واحداً من النص دون أي إشارة إلى من قال ماذا. بالنسبة للمقابلات أو مجموعات التركيز، فإن هذا يجعل المخرج الخام غير قابل للاستخدام تقريباً دون تحرير يدوي ثقيل.

انخفاض الدقة مع اللهجات والضوضاء. تم تدريب نموذج تحويل الكلام إلى نص من Google بشكل أساسي على اللهجات القياسية الواضحة. المتحدثون غير الأصليين، واللهجات الإقليمية، وأي قدر من ضوضاء الخلفية يمكن أن يدفع الدقة إلى ما دون 80%. عند هذا المعدل من الخطأ، ستقضي وقتاً في إصلاح النص أكثر مما وفرته من خلال الإملاء.

غياب الذكاء في التحرير اللاحق. تمنحك ميزة الكتابة بالصوت نصاً خاماً. لا يوجد تكبير تلقائي للحروف (في اللغات التي تدعم ذلك) خارج بدايات الجمل، ولا يوجد تنسيق ذكي للأرقام أو التواريخ، ولا يوجد تصحيح سياقي.

العمل في الوقت الفعلي فقط. إذا انقطع اتصالك بالإنترنت في منتصف الجملة، ستتوقف الكتابة بالصوت. لا يوجد نظام احتياطي محلي، ولا تخزين مؤقت. الاعتماد على الاتصال يجعلها غير موثوقة لجلسات الإملاء الطويلة في المناطق التي يكون فيها شبكة Wi-Fi غير مستقرة.

الحل البديل لتفريغ الملفات الصوتية عبر مستندات Google

هناك حيلة تعمل تقنياً، لكنها معقدة بقدر ما تبدو.

افتح إعدادات الصوت على جهاز الكمبيوتر الخاص بك
اضبط مخرج صوت النظام ليعود كمدخل ميكروفون (في Windows استخدم "Stereo Mix"؛ في Mac ستحتاج إلى تطبيق خارجي مثل Soundflower أو BlackHole)
افتح مستند Google وابدأ الكتابة بالصوت
قم بتشغيل ملف الصوت الخاص بك. سيقوم النظام بتوجيه الصوت عبر الميكروفون الافتراضي، وستقوم مستندات Google بتفريغه في الوقت الفعلي.

من الناحية العملية، تواجه هذه الطريقة ثلاث مشاكل:

تنخفض الدقة بشكل كبير لأن الصوت يمر عبر طبقة معالجة إضافية
يجب عليك تشغيل الملف بالكامل في الوقت الفعلي. تسجيل مدته 60 دقيقة يستغرق 60 دقيقة لتفريغه.
أي صوت تنبيه للنظام أو صوت تطبيق في الخلفية سيتم تفريغه ككلام غير مفهوم

إنها تعمل في حالات الطوارئ لمقاطع صوتية قصيرة وواضحة. أما بالنسبة لأي شيء أطول من 5 دقائق أو ذو جودة صوت غير مثالية، فهي ليست حلاً حقيقياً.

عندما لا تكفي مستندات Google: تحويل احترافي للكلام إلى نص مع Fish Audio

إذا كان سير عملك يتضمن أي سيناريو لا تستطيع ميزة الكتابة بالصوت التعامل معه، فإن أدوات تحويل الكلام إلى نص المتخصصة تسد هذه الفجوة تماماً. تم تصميم Fish Audio Speech-to-Text خصيصاً لهذه الحالات: الملفات الصوتية المرفوعة، واللغات المتعددة، والتسجيلات المليئة بالضوضاء، والتفريغ بجودة الإنتاج.

ما الذي تعالجه ولا تستطيعه الكتابة بالصوت

رفع ملفات الصوت: ارفع ملفات MP3 أو WAV أو M4A أو غيرها. لا حاجة لحيل التشغيل في الوقت الفعلي. ارفع الملف، واحصل على النص.
دقة عالية عبر اللهجات: تم تدريب نموذج Fish Audio على أنماط كلام متنوعة، وليس فقط الإنجليزية القياسية. اللهجات الإقليمية، والمتحدثون غير الأصليين، والكلام العفوي (مع التلعثم والمقاطعات) يتم التعامل معها بسلاسة أكبر.
تفريغ متعدد اللغات: يدعم الإنجليزية، والماندارين، والكانتونية، واليابانية، والكورية.
تحمل الضوضاء: ضوضاء الخلفية، وصدى الغرفة، وتسجيلات الهاتف. تم بناء النموذج للتعامل مع الصوت الواقعي، وليس فقط ظروف الاستوديو.

سير العمل: من ملف صوتي مسجل إلى مستند Google في دقائق

انتقل إلى fish.audio/speech-to-text
ارفع ملفك الصوتي (مقابلة، محاضرة، تسجيل اجتماع، مذكرة صوتية)
اختر اللغة (أو دع الأداة تكتشفها تلقائياً)
انقر على تفريغ وانتظر. يتم دعم ملفات تصل مدتها إلى 60 دقيقة. يختلف وقت المعالجة حسب طول الملف، لكنه لا يتطلب التشغيل في الوقت الفعلي.
انسخ النص والصقه في مستند Google الخاص بك

هذا كل شيء. النص سيكون نظيفاً ومنسقاً وجاهزاً للتحرير. لا توجد توجيهات صوتية افتراضية، ولا تشغيل في الوقت الفعلي، ولا قلق بشأن انقطاع Wi-Fi.

أين يناسب هذا سير عمل المحتوى الحقيقي

الإعداد الأكثر عملية للكتاب والمنشئين الذين يعملون على مستندات Google:

الإملاء المباشر (المسودات الأولى، العصف الذهني، الكتابة الحرة): استخدم ميزة الكتابة بالصوت في مستندات Google. فهي مجانية ومدمجة وجيدة بما يكفي للإملاء الفردي في غرفة هادئة.
تفريغ الصوت (المقابلات، الاجتماعات، المحاضرات، البودكاست): استخدم Fish Audio STT. ارفع الملف، واحصل على النص، ثم الصقه في مستندات Google.
إنتاج الصوت من النص المنتهي (تحويل مستند Google الخاص بك إلى تعليق صوتي): استخدم Fish Audio TTS مع أكثر من 2,000,000 صوت، وميزة استنساخ الصوت في 15 ثانية، ودعم لـ 8 لغات.

هذا المزيج يغطي الحلقة كاملة: من الصوت إلى نص (لالتقاط الأفكار) ومن النص إلى صوت (لإنتاج محتوى صوتي). وتظل مستندات Google في المنتصف كبيئة عمل للكتابة، بينما تتولى Fish Audio كلا اتجاهي تحويل الصوت.

5 عادات إملاء تضاعف دقة عملك في مستندات Google

سواء كنت تستخدم الكتابة بالصوت أو أداة متخصصة، فإن طريقة تحدثك تهم بقدر أهمية الأداة التي تختارها:

تحدث بجمل كاملة وليس شظايا. تستخدم نماذج التعرف على الكلام السياق للتنبؤ بالكلمات. عبارة "جدولة اجتماع الثلاثاء 3 مساءً" أقل وضوحاً من "دعونا نجدول الاجتماع يوم الثلاثاء في الساعة 3 مساءً" لأن النموذج لديه سياق أكبر للعمل معه.
انطق علامات الترقيم بصوت عالٍ. قل "period" و "comma" و "new paragraph" أثناء تقدمك. قد تشعر بالغرابة في الدقائق العشر الأولى، لكن بعدها سيصبح الأمر تلقائياً، وسيخرج النص الخام أنظف بنسبة 80%.
توقف قليلاً بين الأفكار. التوقف الواضح لمدة ثانية واحدة يمنح النموذج حدوداً واضحة للجملة. أما التلعثم بـ "ممم، حسناً، إذن..." فيخلق نصاً غير ضروري يستغرق وقتاً أطول في التنظيف.
استخدم ميكروفون USB، وليس ميكروفون الكمبيوتر المحمول. ميكروفون USB مكثف (condenser) يوضع على بعد 6-8 بوصات من فمك سيتفوق على ميكروفون كمبيوتر محمول باهظ الثمن. فرق الدقة عادة ما يكون بين 10-15 نقطة مئوية.
أملِ بلغة واحدة في كل جلسة. إذا قمت بالتبديل بين الإنجليزية ولغة أخرى في منتصف الجملة، ستنخفض الدقة لكلتا اللغتين. أنهِ فقرة بلغة واحدة، ثم أوقف الكتابة بالصوت، وغير إعداد اللغة، ثم استمر.

الخاتمة

تعد ميزة الكتابة بالصوت في مستندات Google أداة مجانية قديرة للإملاء المباشر. قم بإعدادها بشكل صحيح، وتعلم خمسة أوامر صوتية، واستخدم ميكروفوناً جيداً، وسوف تلتقط مسوداتك الأولى بسرعة تفوق كتابتك بـ 3-4 مرات. هذا مفيد حقاً للكتاب المستقلين الذين يفكرون بشكل أسرع مما يكتبون.

لكن مستندات Google صُممت كمحرر نصوص، وليس كمنصة لمعالجة الصوت. في اللحظة التي تحتاج فيها إلى تفريغ تسجيل، أو التعامل مع متحدثين متعددين، أو معالجة صوت في ظروف صعبة، ستكون قد تجاوزت ما يمكن أن يقدمه تحويل الصوت إلى نص في مستندات Google. المسار الأفضل للترقية هو الحفاظ على مستندات Google كبيئة عمل للكتابة واستخدام Fish Audio لكل ما يتعلق بالصوت: التفريغ في جانب الإدخال، وتوليد الصوت في جانب الإخراج. ابدأ بالفئة المجانية واختبرها على أصعب تسجيل لديك.

الأسئلة المتكررة

يمكنك تفعيلها من خلال الذهاب إلى الأدوات > الكتابة بالصوت، أو بالضغط على Ctrl + Shift + S في نظام Windows أو Cmd + Shift + S في نظام Mac، وذلك باستخدام متصفح Chrome فقط.

لا، مستندات Google تدعم الإملاء المباشر فقط. لتفريغ ملفات MP3 أو WAV، يمكنك استخدام منصة Fish Audio التي تدعم رفع الملفات الصوتية وتفريغها بدقة عالية.

نعم، تدعم مستندات Google الكتابة بالصوت بأكثر من 100 لغة، بما في ذلك اللغة العربية بمختلف لهجاتها.

أنشئ أصواتًا تبدو حقيقية

ابدأ في إنشاء أعلى جودة صوت اليوم

سجل مجانًا

هل لديك حساب بالفعل؟ تسجيل الدخول

شارك هذه المقالة

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

اقرأ المزيد من Kyle Cui >