تقوم أداة تفريغ البودكاست من Fish Audio بتحويل الصوت إلى نص مع علامات عاطفية تلقائية، وتسميات للمتحدثين، وطوابع زمنية — ثم تصديرها إلى تنسيقات SRT أو VTT أو JSON. تتوفر باقة مجانية. لا تتطلب مهارات برمجية.
مارس 2026 | خدمة Fish Audio STT متاحة الآن على fish.audio/app/speech-to-text
كل حلقة بودكاست تنشرها بدون نص مرافق تضيع عليك فرصة جذب زيارات إضافية. فالتفريغ النصي يجعل حلقتك قابلة للبحث على Google، ويوفر لك ملاحظات الحلقة بنقرة واحدة، ويسمح لك بإنشاء ترجمات تلقائية — لـ YouTube، أو موقعك الإلكتروني، أو أي منصة أخرى. كما يجعل المحتوى متاحاً لضعاف السمع. يعتمد محررو البودكاست، والفرق الإعلامية، ومنشئو المحتوى على YouTube على التفريغ النصي لإنشاء محتوى محسّن لمحركات البحث (SEO)، وأرشيفات قابلة للبحث، وصفحات حلقات سهلة الوصول. تقدم معظم أدوات تفريغ البودكاست جداراً من النص العادي فقط. لكن أداة Fish Audio تذهب لأبعد من ذلك: فكل نص يتضمن علامات تلقائية للمشاعر ولغة الجسد الصوتية، وتسميات للمتحدثين، وطوابع زمنية، وثلاثة تنسيقات للتصدير. يرافقك هذا الدليل في دورة العمل الكاملة، من الرفع إلى التصدير، في حوالي ثلاث دقائق.
ما الذي يجعل أداة تفريغ البودكاست جيدة؟
قبل اختيار أي أداة تفريغ، من المفيد معرفة المعايير التي تقيمها بناءً عليها. يجب أن توفر أداة تفريغ البودكاست الجيدة أربعة أشياء:
- دقة تفريغ عالية عبر مختلف اللهجات، وجودة الصوت، وبيئات التسجيل.
- تحديد المتحدث لتتمكن من التمييز بين المضيف والضيف في النص.
- تنسيقات تصدير متعددة — بحد أدنى SRT لترجمة الفيديو، وبشكل مثالي VTT و JSON أيضاً.
- تسعير شفاف وبأسعار معقولة مع باقة مجانية قابلة للاستخدام الفعلي لحلقة كاملة.
تدعم أداة تفريغ البودكاست من Fish Audio أكثر من 100 لغة، وتقبل 24 تنسيقاً للصوت والفيديو، وتضيف تلقائياً علامات للمشاعر وأحداث لغة الجسد الصوتية ضمن النص — دون أي تعليق يدوي. تم تحسين نموذج تحويل الكلام إلى نص (Speech-to-text) للمحادثات الصوتية والتسجيلات متعددة المتحدثين مثل البودكاست، والمقابلات، والمناقشات الحية. إليك كيف يعمل الأمر في الممارسة العملية.
كيفية تفريغ البودكاست الخاص بك مع Fish Audio — خطوة بخطوة
الوقت المطلوب: ~3 دقائق الأدوات المطلوبة: ملف صوته (MP3, MP4, WAV, M4A والمزيد) النتيجة: نص مفرغ مع علامات + ملف ترجمة جاهز للتصدير
الخطوة 1 — افتح Fish Audio STT
انتقل إلى fish.audio/app/speech-to-text. سترى سجل مهامك — جميع عمليات التفريغ السابقة مدرجة مع اسم الملف، التاريخ، الحالة، الرصيد المستخدم، وعدد المتحدثين. انقر على Create task لبدء تفريغ جديد.
الخطوة 2 — ارفع حلقتك وحدد المتحدثين
في نافذة "Create transcription task"، ارفع ملف الصوت أو الفيديو الخاص بك. تقبل Fish Audio جميع التنسيقات الرئيسية — MP3, MP4, WAV, FLAC, M4A, OGG, MOV, AVI, WEBM والمزيد.
تحت قسم number of speakers، اتركه على الخيار "Auto" إذا لم تكن متأكداً من عدد الأشخاص في التسجيل. ستقوم Fish Audio باكتشاف المتحدثين تلقائياً. إذا كنت تعرف العدد بدقة — مثلاً، اثنان لتنسيق المضيف والضيف القياسي — يمكنك ضبطه يدوياً للحصول على تسميات متحدثين أكثر دقة.
قبل التأكيد، تعرض لك الواجهة المدة المقدرة، الدقائق القابلة للفوترة، والرصيد المقدر لهذه المهمة. لن يتم خصم الرصيد حتى تنقر على Create task.
الخطوة 3 — مراجعة النص المفرغ
بمجرد اكتمال المهمة، انقر على Open viewer. يتم عرض النص المفرغ في ثلاثة أعمدة: SPK/TAGS (تسمية المتحدث)، TIME (نطاق الطابع الزمني)، و TEXT (النص مع العلامات المضمنة).
كل جزء يحمل طابعاً زمنياً بدقة الثانية. تظهر أحداث المشاعر ولغة الجسد الصوتية كعلامات أرجوانية داخل النص مباشرة — سترى أشياء مثل [pause] (توقف)، [sigh] (تنهد)، [emphasis] (تشديد)، و [breath] (نفس) في النقطة الدقيقة التي حدثت فيها في التسجيل.
انقر على أي جزء لتشغيل هذا المقطع من الصوت مباشرة في المتصفح. هذا يجعل من السهل التحقق من الدقة أو مراجعة لحظات محددة دون الحاجة للاستماع للملف بالكامل.
تظهر لوحة التحكم (Controller) على الجانب الأيمن ملخصاً: المدة الإجمالية، عدد المتحدثين المكتشفين، عدد الأجزاء، وتأكيد أن ميزتي فصل الصوت (voice separation) وتوسيم أحداث الصوت (Tag audio events) قيد التشغيل.
الخطوة 4 — التصدير بالتنسيق الذي تفضله
انقر على Export في أسفل يمين لوحة التحكم. اختر التنسيق وقم بتكوين خيارات التصدير قبل التنزيل.
جاهز لتفريغ حلقتك الأولى؟ ابدأ مهمة تفريغ مجانية ←
العلامات التلقائية — ما الذي تلتقطه Fish Audio وتفتقده الأدوات الأخرى
هنا تبرز أداة تفريغ البودكاست من Fish Audio بوضوح عن البدائل الأخرى.
عندما يتنهد شخص ما قبل الإجابة على سؤال، أو يضحك في منتصف الجملة، أو يتوقف للتشديد، أو يأخذ نفساً مسموعاً — تتجاهل أدوات التفريغ القياسية كل ذلك. تحصل فقط على الكلمات، مجردة من كل شيء آخر.
تقوم Fish Audio بتضمين هذه الأحداث كعلامات في النقطة الدقيقة التي تحدث فيها في النص. يتم إنشاء هذه العلامات تلقائياً — دون تعليق يدوي أو خطوة معالجة لاحقة. تظهر لوحة التحكم خيار Tag audio events: On بشكل افتراضي.
ما الذي يتم توسيمه؟
لغة الجسد الصوتية (Paralanguage) — الأصوات غير اللفظية التي تحدث جنباً إلى جنب مع الكلام.
المشاعر (Emotion) — النبرة العاطفية للإلقاء، المأخوذة من السياق وعلم العروض الصوتية.
لماذا يهم هذا لمقدمي البودكاست؟
بالنسبة لمعظم سير عمل البودكاست، تخدم العلامات ثلاثة أغراض عملية. أولاً، تجعل النص أكثر فائدة كمصدر لملاحظات الحلقة — النص الذي يلتقط [laugh] و [pause] يمنح المحرر مادة أغنى للعمل عليها مقارنة بملف نصي جامد. ثانياً، تجعل التنقل في التسجيلات الطويلة أسرع — يمكنك البحث عن لحظات [sigh] أو [emphasis] للعثور على الأجزاء ذات الأهمية العاطفية في الحلقة دون إعادة الاستماع. ثالثاً، والأكثر تميزاً، هذه العلامات متوافقة مع نموذج تحويل النص إلى كلام (TTS) من Fish Audio — مما يعني أن النص يمكن أن يعود مباشرة إلى سير عمل إنتاج الصوت دون أي إعادة تنسيق.
هل تريد رؤية العلامات أثناء العمل؟ ارفع ملفك الصوتي الأول ←
شرح تنسيقات التصدير — أيها تحتاج؟
يدعم Fish Audio STT ثلاثة تنسيقات للتصدير. يعتمد اختيار التنسيق على ما ستفعله بالنص لاحقاً.
SRT هو الخيار الصحيح لمعظم مقدمي البودكاست الذين ينشرون محتوى فيديو. إنه تنسيق الترجمة الأكثر دعماً على نطاق واسع — متوافق مع YouTube، Premiere Pro، Final Cut Pro، ومعظم منصات الفيديو.
VTT (WebVTT) هو التنسيق المخصص للويب — استخدمه عندما تقوم بتضمين الفيديو في موقعك الخاص وتحتاج إلى توقيت الكلمات ضمن النص.
JSON يمنحك مخرجات STT الخام دون تحويلات الترجمة. استخدم هذا إذا كنت ستدخل النص في أداة أخرى أو تبني شيئاً مخصصاً.
خيارات التصدير
عند تصدير SRT أو VTT، لديك أربعة إعدادات إضافية:
- تضمين العلامات (Include tags) — يبقي على الأحداث بين قوسين مثل
[pause]و[sigh]في ملف الترجمة. قم بإيقاف هذا للحصول على ترجمة نظيفة؛ اتركه إذا كنت تريد الحفاظ على البيانات الوصفية التعبيرية. - تضمين المتحدث (Include speaker) — يضيف بادئة لكل جملة ترجمة مع تسمية المتحدث المكتشف (SPK_0, SPK_1). مفيد للحلقات متعددة المتحدثين.
- علامات الترقيم (Punctuation) — يحافظ على علامات الترقيم في النص المصدر. قم بإيقافه للحصول على تدفق كلمات أنقى إذا كنت ستقوم بمعالجة إضافية.
- وضع التقسيم (Split mode) — اختر بين Segment (يحافظ على حدود STT الحالية) أو Max words (يعيد تجميع الجمل بناءً على عدد الكلمات، علامات الترقيم، وتغير المتحدثين). عادةً ما ينتج خيار Max words مع حد أقصى 7 كلمات لكل جملة ترجمات أكثر سهولة في القراءة للكلام السريع.
اكتشاف المتحدث — التمييز بين المضيف والضيف
بالنسبة لمقابلات البودكاست والمناقشات الجماعية، يعد اكتشاف المتحدث أحد أكثر الميزات فائدة التي يمكن أن توفرها أداة تفريغ البودكاست. تقوم Fish Audio تلقائياً بفصل المتحدثين في التسجيلات متعددة الأشخاص. يتم تسمية كل جزء في عارض النص بـ SPK_0، SPK_1، وهكذا — بما يتوافق مع الأصوات المتميزة المكتشفة في الصوت.
عند إنشاء مهمة، يمكنك إما ترك number of speakers على Auto أو ضبطه يدوياً. عادةً ما ينتج عن ضبط العدد الدقيق حدود أنظف للمتحدثين، خاصة في التسجيلات التي يكون فيها أحد المتحدثين أهدأ بكثير من الآخر.
عند التصدير، يؤدي تمكين Include speaker إلى إضافة تسمية المتحدث كبادئة لكل جملة ترجمة. هذا يجعل من السهل البحث في النصوص أو تحريرها أو إعادة تنسيقها حسب المتحدث — وهو أمر مفيد إذا كنت تقتبس جملاً لملاحظات الحلقة أو تحرر النص للاحتفاظ بالمحادثات الرئيسية فقط.
ملاحظة: تتوفر ميزات اكتشاف المتحدث والنصوص المفرغة المصنفة حسب المتحدث في واجهة ويب Fish Audio. وتنتقل تسميات المتحدثين مع التصدير في تنسيقات SRT و VTT و JSON عند تمكين خيار Include speaker.
كم تكلفة تفريغ البودكاست؟
يتم احتساب تكلفة Fish Audio STT بالدقيقة من الصوت المعالج بمعدل 300 رصيد (credit) لكل دقيقة.
تتلقى الحسابات المجانية 8,000 رصيد شهرياً — وهو ما يكفي لحوالي 26 دقيقة من الصوت. يغطي ذلك حلقة قصيرة أو بضعة أجزاء من مقابلة.
تعرض لك واجهة الويب الرصيد المقدر بدقة قبل تأكيد المهمة، لذلك لا توجد مفاجآت.
بالنسبة للفرق أو الإنتاج ذو الحجم الكبير، تتضمن الخطط المدفوعة مجموعات أكبر من الأرصيد. راجع تفاصيل الأسعار الكاملة على fish.audio/plan/.
قم بتفريغ حلقة البودكاست القادمة في دقائق. ابدأ التفريغ مجاناً ←
Fish Audio مقابل أدوات تفريغ البودكاست الأخرى
يجد العديد من مقدمي البودكاست الذين يبحثون عن أفضل أداة لتفريغ البودكاست أن الخيار الصحيح يعتمد على ما إذا كانوا بحاجة إلى نصوص عادية فقط أو بيانات وصفية أغنى مثل علامات المشاعر والتصدير بتنسيقات متعددة. إليك كيف تقارن Fish Audio بالخيارات الشائعة الأخرى:
البيانات مأخوذة من Otter.ai، Happy Scribe، و Adobe Podcast اعتباراً من مارس 2026.
تركز معظم أدوات تفريغ البودكاست على تقديم مخرجات نصية عادية. Fish Audio هي واحدة من الأدوات القليلة التي تدمج علامات المشاعر ولغة الجسد الصوتية مباشرة داخل النص — وواحدة من الأدوات القليلة التي تربط التفريغ بسير عمل إنتاج الصوت عبر تكامل Studio.
إذا كنت بحاجة إلى نص عادي نظيف لملاحظات الحلقة أو محتوى SEO، فإن أي من هذه الأدوات ستفي بالغرض. أما إذا كنت بحاجة إلى نصوص معلمة، أو تصدير بتنسيقات متعددة، أو مسار ينتقل من النص إلى إنتاج الصوت، فإن Fish Audio هو الخيار الأكثر اكتمالاً.
ماذا بعد — من النص المفرغ إلى Studio
النص المفرغ والمعلّم هو أكثر من مجرد وثيقة. إنه سيناريو يعرف بالفعل كيف يجب أن يكون صوته.
العلامات التي تدرجها Fish Audio في نص البودكاست الخاص بك — مثل [calm, reflective]، [breath]، [determined]، [pause] — تستخدم نفس التنسيق الذي يستخدمه نموذج Fish Audio S2 TTS. وهذا يعني أن النص يمكن أن يغذي مباشرة خط إنتاج الصوت دون أي إعادة تنسيق.
يأخذ Fish Audio Studio هذا الأمر إلى أبعد من ذلك. في Studio، تصبح السيناريوهات المعلّمة مشاريع صوتية قابلة للتحرير بالكامل: يمكنك التحرير حسب الفصل، وتبديل نماذج الصوت، وضبط الإلقاء على مستوى الكلمة، وإنتاج صوت متعدد المسارات — كل ذلك مع الحفاظ على البيانات الوصفية التعبيرية من تسجيلك الأصلي.
ميزة الاستيراد المباشر من STT إلى Studio ستتوفر قريباً. تنسيق النص متوافق بالفعل — فالعلامات الموجودة في مخرجات STT هي نفس العلامات التي يقرأها Studio. سيكون الاستيراد خطوة واحدة بمجرد إطلاق الميزة.
ابدأ بتفريغ البودكاست الخاص بك مجاناً ← — أو استكشف Fish Audio Studio إذا كنت جاهزاً للإنتاج.
مقالات ذات صلة:
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
اقرأ المزيد من Sabrina Shu

