9 مارس 2026أبحاث

Fish Audio تطلق S2 مفتوح المصدر: التحكم الدقيق يلتقي بالبث المخصص للإنتاج

يتوفر S2 Pro على تطبيق Fish Audio وإصداره مفتوح المصدر متاح عبر مستودع GitHub وHuggingFace الخاص بالمشروع.

أطلقت Fish Audio نموذج S2 مفتوح المصدر، وهو نموذج لتحويل النص إلى كلام يدعم التحكم الدقيق المدمج في النبرة والعاطفة باستخدام وسوم اللغة الطبيعية مثل [laugh] و [whispers] و [super happy]. تم تدريب النظام على أكثر من 10 ملايين ساعة من الصوت عبر حوالي 50 لغة، ويجمع النظام بين محاذاة التعلم المعزز وبنية ذاتية الارتباط مزدوجة. يتضمن الإصدار أوزان النموذج، وكود الضبط الدقيق، ومحرك استدلال للبث يعتمد على SGLang.

تحكم مدمج دقيق عبر اللغة الطبيعية

يتيح S2 تحكمًا مدمجًا في توليد الكلام من خلال تضمين تعليمات اللغة الطبيعية مباشرة في مواضع كلمات أو عبارات محددة داخل النص. بدلاً من الاعتماد على مجموعة ثابتة من الوسوم المحددة مسبقًا، يقبل S2 أوصافًا نصية حرة — مثل [whisper in small voice] أو [professional broadcast tone] أو [pitch up] — مما يسمح بالتحكم المفتوح في التعبير على مستوى الكلمة.

في "اختبار تورينج الصوتي" (Audio Turing Test)، حقق S2 متوسطاً بعدياً قدره 0.515 مع إعادة كتابة التعليمات، مقارنة بـ 0.417 لنموذج Seed-TTS و0.387 لنموذج MiniMax-Speech. وفي تقييم EmergentTTS-Eval، وصل إلى معدل فوز إجمالي قدره 81.88% مقابل نموذج gpt-4o-mini-tts المرجعي — وهو الأعلى بين جميع النماذج التي تم تقييمها، بما في ذلك الأنظمة مغلقة المصدر من Google وOpenAI.

Example of S2 input format مثال على تنسيق مدخلات S2 يوضح حوارًا متعدد المتحدثين مع وسوم لغة طبيعية حرة مدمجة للتحكم الدقيق.

وصفة موحدة: تنظيم البيانات ومكافآت RL من نفس النماذج

قرار معماري أساسي في S2 هو أن نفس النماذج المستخدمة لتصفية وتصنيف بيانات التدريب يتم إعادة استخدامها مباشرة كنماذج مكافأة (reward models) أثناء التعلم المعزز:

نموذج جودة الكلام يقوم بتقييم الصوت عبر أبعاد مثل نسبة الإشارة إلى الضوضاء (SNR)، واتساق المتحدث، والوضوح أثناء تصفية البيانات — ثم يعمل كمكافأة للتفضيل الصوتي أثناء التعلم المعزز (RL).
نموذج ASR للنسخ الغني (الذي تمت مواصلة تدريبه مسبقًا من Qwen3-Omni-30B-A3B) يولد نصوصًا معززة بالأوصاف مع تعليقات لغوية مدمجة أثناء تنظيم البيانات — ثم يوفر مكافأة الوضوح واتباع التعليمات من خلال إعادة نسخ الصوت المولد ومقارنته بالمطالبة الأصلية.

هذا التصميم ثنائي الغرض يلغي عدم التطابق في التوزيع بين بيانات ما قبل التدريب وأهداف ما بعد التدريب بشكل هيكلي — وهي مشكلة تظل دون حل في أنظمة تحويل النص إلى كلام (TTS) الأخرى التي تدرب نماذج المكافأة بشكل منفصل عن خطوط أنابيب البيانات الخاصة بها.

داخل النموذج: بنية ذاتية الارتباط مزدوجة (Dual-AR)

يعتمد S2 على محول (transformer) لفك التشفير فقط مدمج مع ترميز صوتي يعتمد على RVQ (10 كتب أكواد، معدل إطارات ~21 هرتز). إن تسطيح جميع كتب الأكواد على طول الجدول الزمني سيؤدي إلى انفجار في طول التسلسل بمقدار 10 أضعاف. يعالج S2 هذا من خلال بنية ذاتية الارتباط مزدوجة (Dual-AR):

AR البطيء (Slow AR) يعمل على طول المحور الزمني ويتنبأ بكتاب الأكواد الدلالي الأساسي.
AR السريع (Fast AR) يولد كتب الأكواد الـ 9 المتبقية في كل خطوة زمنية، معيدًا بناء التفاصيل الصوتية الدقيقة.

هذا التصميم غير المتماثل — 4 مليار بارامتر على طول المحور الزمني، و400 مليون بارامتر على طول محور العمق — يحافظ على كفاءة الاستدلال مع الحفاظ على دقة الصوت.

محاذاة التعلم المعزز للكلام

لما بعد التدريب، يستخدم S2 تحسين السياسة النسبية للمجموعة (GRPO)، الذي تم اختياره لتجنب عبء الذاكرة لنماذج القيمة بأسلوب PPO في سياقات الصوت الطويلة. تجمع إشارة المكافأة بين أبعاد متعددة، تشمل:

الدقة الدلالية والالتزام بالتعليمات
تقييم التفضيل الصوتي
تشابه البصمة الصوتية

نتائج اختبارات الأداء

حقق S2 نتائج رائدة عبر العديد من اختبارات الأداء العامة:

اختبار الأداء	Fish Audio S2
Seed-TTS Eval — WER (الصينية)	0.54% (الأفضل إجمالاً)
Seed-TTS Eval — WER (الإنجليزية)	0.99% (الأفضل إجمالاً)
اختبار تورينج الصوتي (مع التعليمات)	0.515 (المتوسط البعدي)
EmergentTTS-Eval — معدل الفوز	81.88% (الأعلى إجمالاً)
Fish Instruction Benchmark — TAR	93.3%
Fish Instruction Benchmark — الجودة	4.51 / 5.0
متعدد اللغات (MiniMax Testset) — أفضل WER	11 من أصل 24 لغة
متعدد اللغات (MiniMax Testset) — أفضل SIM	17 من أصل 24 لغة

في Seed-TTS Eval، حقق S2 أقل معدل خطأ في الكلمات (WER) بين جميع النماذج التي تم تقييمها بما في ذلك الأنظمة مغلقة المصدر: Qwen3-TTS (0.77/1.24)، وMiniMax Speech-02 (0.99/1.90)، وSeed-TTS (1.12/2.25). في اختبار تورينج الصوتي، تفوق الرقم 0.515 على Seed-TTS (0.417) بنسبة 24% وعلى MiniMax-Speech (0.387) بنسبة 33%. في EmergentTTS-Eval، حقق S2 نتائج قوية بشكل خاص في العناصر فوق اللغوية (معدل فوز 91.61%)، والأسئلة (84.41%)، والتعقيد النحوي (83.39%).

لإلقاء نظرة أوسع على كيفية تقييم الحلول المختلفة عبر التحكم في العاطفة، وزمن الانتقال، والدعم متعدد اللغات، يمكنك الرجوع إلى هذه المقارنة المستقلة لأدوات الصوت والذكاء الاصطناعي.

البث المخصص للإنتاج عبر SGLang

نظرًا لأن بنية Dual-AR في S2 متماثلة بنيويًا مع نماذج اللغة الكبيرة (LLMs) ذاتية الارتباط القياسية، فيمكنها أن ترث مباشرة جميع تحسينات الخدمة الأصلية لـ LLM من SGLang مع الحد الأدنى من التعديل — بما في ذلك التجميع المستمر (continuous batching)، وذاكرة التخزين المؤقت للـ KV المقسمة (paged KV cache)، وإعادة تشغيل مخطط CUDA، والتخزين المؤقت للبادئة القائم على RadixAttention.

لاستنساخ الصوت، يضع S2 رموز الصوت المرجعية في مطالبة النظام (system prompt). تقوم RadixAttention في S2 تلقائيًا بتخزين حالات KV هذه مؤقتًا، مما يحقق متوسط معدل ضربات في ذاكرة التخزين المؤقت للبادئة يبلغ 86.4% (أكثر من 90% في الذروة) عند إعادة استخدام نفس الصوت عبر الطلبات — مما يجعل عبء المعالجة المسبقة للصوت المرجعي مهملاً تقريبًا.

على وحدة معالجة رسومات NVIDIA H200 واحدة:

عامل الوقت الفعلي (RTF): 0.195
الوقت لأول صوت: حوالي 100 مللي ثانية
سعة المعالجة: أكثر من 3000 رمز صوتي/ثانية مع الحفاظ على RTF أقل من 0.5

للحصول على شرح خطوة بخطوة لتشغيل S2 على وحدات معالجة الرسومات السحابية H100/H200، راجع دليل Spheron لنشر TTS مفتوح المصدر على السحابة.

لماذا يمثل هذا الإصدار أهمية كبيرة

يتم إصدار S2 ليس فقط كنقطة فحص للنموذج (checkpoint)، بل كنظام كامل: أوزان النموذج، وكود الضبط الدقيق، ومجموعة استدلال جاهزة للإنتاج.

يبرز خياران في التصميم. أولاً، يلغي خط أنابيب البيانات والمكافأة الموحد مشكلة هيكلية — وهي عدم التطابق في التوزيع بين ما قبل التدريب والتعلم المعزز (RL) — والتي لم تعالجها أنظمة TTS الأخرى على المستوى المعماري. ثانيًا، التماثل البنيوي بين بنية Dual-AR ونماذج اللغة الكبيرة القياسية يعني أن S2 يمكنه الاستفادة من النظام البيئي الكامل لتحسينات خدمة LLM، بدلاً من طلب بنية تحتية مخصصة للاستدلال.

يتوفر S2 عبر مستودع GitHub الخاص بالمشروع، وSGLang-Omni، وHuggingFace، وعرض تجريبي تفاعلي على fish.audio.

الأسئلة المتكررة

كيف يعمل توليد الحوار متعدد المتحدثين؟

يدعم S2 توليد الحوارات متعددة المتحدثين والأدوار بشكل أصلي. من خلال تضمين وسوم المتحدث والتعليمات المدمجة باللغة الطبيعية مباشرة في المدخلات، يقوم S2 بنسج أصوات متعددة معًا مع الحفاظ على بصمة صوتية ثابتة، ومطابقة النبرة، واحترام تلميحات العاطفة لكل متحدث — مما يجعله مناسبًا لتوليد محادثات كاملة، وليس فقط سردًا بصوت واحد.

هل هذا متاح عبر واجهة برمجة التطبيقات (API)؟

نعم. يتوفر S2 عبر واجهة برمجة تطبيقات Fish Audio على fish.audio. كما يتم توفير أوزان النموذج الكاملة، وكود الضبط الدقيق، ومحرك الاستدلال القائم على SGLang كمصدر مفتوح على GitHub (github.com/fishaudio/fish-speech) وHuggingFace (huggingface.co/fishaudio/s2-pro) للاستضافة الذاتية.

ما هي الوسوم الصوتية المدعومة؟

يقبل S2 وسوم اللغة الطبيعية الحرة المدمجة بدلاً من مجموعة ثابتة محددة مسبقًا — لذا فأنت لست مقيدًا بمفردات مغلقة. يمكن إدراج وسوم مثل [laugh] أو [whispers] أو [super happy] أو [professional broadcast tone] أو [pitch up] في أي موضع كلمة أو عبارة. ونظرًا لأن النظام مدرب على أوصاف مفتوحة، فإن الوسوم الجديدة تعمم بشكل جيد بما يتجاوز الأمثلة التي تمت رؤيتها أثناء التدريب.

ما هي اللغات التي يدعمها؟

تم تدريب S2 على أكثر من 10 ملايين ساعة من الصوت تغطي حوالي 80 لغة. في اختبار MiniMax متعدد اللغات — الذي يغطي 24 لغة — حقق S2 أفضل معدل خطأ في الكلمات (WER) في 11 لغة وأفضل تشابه للمتحدث في 17 لغة، متفوقًا على كل من MiniMax وElevenLabs في غالبية الاختبارات المرجعية: العربية، الكانتونية، الصينية، التشيكية، الهولندية، الإنجليزية، الفنلندية، الفرنسية، الألمانية، اليونانية، الهندية، الإندونيسية، الإيطالية، اليابانية، الكورية، البولندية، البرتغالية، الرومانية، الروسية، الإسبانية، التايلاندية، التركية، الأوكرانية، الفيتنامية.