عرض لفترة محدودة- خصم 50% سنوياًاسترداد
9 مارس 2026أبحاث

Fish Audio تطلق S2 مفتوح المصدر: التحكم الدقيق يلتقي بالبث المخصص للإنتاج

Fish Audio تطلق S2 مفتوح المصدر: التحكم الدقيق يلتقي بالبث المخصص للإنتاج

يتوفر S2 Pro على تطبيق Fish Audio وإصداره مفتوح المصدر متاح عبر مستودع GitHub وHuggingFace الخاص بالمشروع.

أطلقت Fish Audio نموذج S2 مفتوح المصدر، وهو نموذج لتحويل النص إلى كلام يدعم التحكم الدقيق المدمج في النبرة والعاطفة باستخدام وسوم اللغة الطبيعية مثل [laugh] و [whispers] و [super happy]. تم تدريب النظام على أكثر من 10 ملايين ساعة من الصوت عبر حوالي 50 لغة، ويجمع النظام بين محاذاة التعلم المعزز وبنية ذاتية الارتباط مزدوجة. يتضمن الإصدار أوزان النموذج، وكود الضبط الدقيق، ومحرك استدلال للبث يعتمد على SGLang.

تحكم مدمج دقيق عبر اللغة الطبيعية

يتيح S2 تحكمًا مدمجًا في توليد الكلام من خلال تضمين تعليمات اللغة الطبيعية مباشرة في مواضع كلمات أو عبارات محددة داخل النص. بدلاً من الاعتماد على مجموعة ثابتة من الوسوم المحددة مسبقًا، يقبل S2 أوصافًا نصية حرة — مثل [whisper in small voice] أو [professional broadcast tone] أو [pitch up] — مما يسمح بالتحكم المفتوح في التعبير على مستوى الكلمة.

في "اختبار تورينج الصوتي" (Audio Turing Test)، حقق S2 متوسطاً بعدياً قدره 0.515 مع إعادة كتابة التعليمات، مقارنة بـ 0.417 لنموذج Seed-TTS و0.387 لنموذج MiniMax-Speech. وفي تقييم EmergentTTS-Eval، وصل إلى معدل فوز إجمالي قدره 81.88% مقابل نموذج gpt-4o-mini-tts المرجعي — وهو الأعلى بين جميع النماذج التي تم تقييمها، بما في ذلك الأنظمة مغلقة المصدر من Google وOpenAI.

Example of S2 input format مثال على تنسيق مدخلات S2 يوضح حوارًا متعدد المتحدثين مع وسوم لغة طبيعية حرة مدمجة للتحكم الدقيق.

وصفة موحدة: تنظيم البيانات ومكافآت RL من نفس النماذج

قرار معماري أساسي في S2 هو أن نفس النماذج المستخدمة لتصفية وتصنيف بيانات التدريب يتم إعادة استخدامها مباشرة كنماذج مكافأة (reward models) أثناء التعلم المعزز:

  • نموذج جودة الكلام يقوم بتقييم الصوت عبر أبعاد مثل نسبة الإشارة إلى الضوضاء (SNR)، واتساق المتحدث، والوضوح أثناء تصفية البيانات — ثم يعمل كمكافأة للتفضيل الصوتي أثناء التعلم المعزز (RL).
  • نموذج ASR للنسخ الغني (الذي تمت مواصلة تدريبه مسبقًا من Qwen3-Omni-30B-A3B) يولد نصوصًا معززة بالأوصاف مع تعليقات لغوية مدمجة أثناء تنظيم البيانات — ثم يوفر مكافأة الوضوح واتباع التعليمات من خلال إعادة نسخ الصوت المولد ومقارنته بالمطالبة الأصلية.

هذا التصميم ثنائي الغرض يلغي عدم التطابق في التوزيع بين بيانات ما قبل التدريب وأهداف ما بعد التدريب بشكل هيكلي — وهي مشكلة تظل دون حل في أنظمة تحويل النص إلى كلام (TTS) الأخرى التي تدرب نماذج المكافأة بشكل منفصل عن خطوط أنابيب البيانات الخاصة بها.

داخل النموذج: بنية ذاتية الارتباط مزدوجة (Dual-AR)

يعتمد S2 على محول (transformer) لفك التشفير فقط مدمج مع ترميز صوتي يعتمد على RVQ (10 كتب أكواد، معدل إطارات ~21 هرتز). إن تسطيح جميع كتب الأكواد على طول الجدول الزمني سيؤدي إلى انفجار في طول التسلسل بمقدار 10 أضعاف. يعالج S2 هذا من خلال بنية ذاتية الارتباط مزدوجة (Dual-AR):

  • AR البطيء (Slow AR) يعمل على طول المحور الزمني ويتنبأ بكتاب الأكواد الدلالي الأساسي.
  • AR السريع (Fast AR) يولد كتب الأكواد الـ 9 المتبقية في كل خطوة زمنية، معيدًا بناء التفاصيل الصوتية الدقيقة.

هذا التصميم غير المتماثل — 4 مليار بارامتر على طول المحور الزمني، و400 مليون بارامتر على طول محور العمق — يحافظ على كفاءة الاستدلال مع الحفاظ على دقة الصوت.

محاذاة التعلم المعزز للكلام

لما بعد التدريب، يستخدم S2 تحسين السياسة النسبية للمجموعة (GRPO)، الذي تم اختياره لتجنب عبء الذاكرة لنماذج القيمة بأسلوب PPO في سياقات الصوت الطويلة. تجمع إشارة المكافأة بين أبعاد متعددة، تشمل:

  • الدقة الدلالية والالتزام بالتعليمات
  • تقييم التفضيل الصوتي
  • تشابه البصمة الصوتية

نتائج اختبارات الأداء

حقق S2 نتائج رائدة عبر العديد من اختبارات الأداء العامة:

اختبار الأداءFish Audio S2
Seed-TTS Eval — WER (الصينية)0.54% (الأفضل إجمالاً)
Seed-TTS Eval — WER (الإنجليزية)0.99% (الأفضل إجمالاً)
اختبار تورينج الصوتي (مع التعليمات)0.515 (المتوسط البعدي)
EmergentTTS-Eval — معدل الفوز81.88% (الأعلى إجمالاً)
Fish Instruction Benchmark — TAR93.3%
Fish Instruction Benchmark — الجودة4.51 / 5.0
متعدد اللغات (MiniMax Testset) — أفضل WER11 من أصل 24 لغة
متعدد اللغات (MiniMax Testset) — أفضل SIM17 من أصل 24 لغة

في Seed-TTS Eval، حقق S2 أقل معدل خطأ في الكلمات (WER) بين جميع النماذج التي تم تقييمها بما في ذلك الأنظمة مغلقة المصدر: Qwen3-TTS (0.77/1.24)، وMiniMax Speech-02 (0.99/1.90)، وSeed-TTS (1.12/2.25). في اختبار تورينج الصوتي، تفوق الرقم 0.515 على Seed-TTS (0.417) بنسبة 24% وعلى MiniMax-Speech (0.387) بنسبة 33%. في EmergentTTS-Eval، حقق S2 نتائج قوية بشكل خاص في العناصر فوق اللغوية (معدل فوز 91.61%)، والأسئلة (84.41%)، والتعقيد النحوي (83.39%).

لإلقاء نظرة أوسع على كيفية تقييم الحلول المختلفة عبر التحكم في العاطفة، وزمن الانتقال، والدعم متعدد اللغات، يمكنك الرجوع إلى هذه المقارنة المستقلة لأدوات الصوت والذكاء الاصطناعي.

البث المخصص للإنتاج عبر SGLang

نظرًا لأن بنية Dual-AR في S2 متماثلة بنيويًا مع نماذج اللغة الكبيرة (LLMs) ذاتية الارتباط القياسية، فيمكنها أن ترث مباشرة جميع تحسينات الخدمة الأصلية لـ LLM من SGLang مع الحد الأدنى من التعديل — بما في ذلك التجميع المستمر (continuous batching)، وذاكرة التخزين المؤقت للـ KV المقسمة (paged KV cache)، وإعادة تشغيل مخطط CUDA، والتخزين المؤقت للبادئة القائم على RadixAttention.

لاستنساخ الصوت، يضع S2 رموز الصوت المرجعية في مطالبة النظام (system prompt). تقوم RadixAttention في S2 تلقائيًا بتخزين حالات KV هذه مؤقتًا، مما يحقق متوسط معدل ضربات في ذاكرة التخزين المؤقت للبادئة يبلغ 86.4% (أكثر من 90% في الذروة) عند إعادة استخدام نفس الصوت عبر الطلبات — مما يجعل عبء المعالجة المسبقة للصوت المرجعي مهملاً تقريبًا.

على وحدة معالجة رسومات NVIDIA H200 واحدة:

  • عامل الوقت الفعلي (RTF): 0.195
  • الوقت لأول صوت: حوالي 100 مللي ثانية
  • سعة المعالجة: أكثر من 3000 رمز صوتي/ثانية مع الحفاظ على RTF أقل من 0.5

للحصول على شرح خطوة بخطوة لتشغيل S2 على وحدات معالجة الرسومات السحابية H100/H200، راجع دليل Spheron لنشر TTS مفتوح المصدر على السحابة.

لماذا يمثل هذا الإصدار أهمية كبيرة

يتم إصدار S2 ليس فقط كنقطة فحص للنموذج (checkpoint)، بل كنظام كامل: أوزان النموذج، وكود الضبط الدقيق، ومجموعة استدلال جاهزة للإنتاج.

يبرز خياران في التصميم. أولاً، يلغي خط أنابيب البيانات والمكافأة الموحد مشكلة هيكلية — وهي عدم التطابق في التوزيع بين ما قبل التدريب والتعلم المعزز (RL) — والتي لم تعالجها أنظمة TTS الأخرى على المستوى المعماري. ثانيًا، التماثل البنيوي بين بنية Dual-AR ونماذج اللغة الكبيرة القياسية يعني أن S2 يمكنه الاستفادة من النظام البيئي الكامل لتحسينات خدمة LLM، بدلاً من طلب بنية تحتية مخصصة للاستدلال.

يتوفر S2 عبر مستودع GitHub الخاص بالمشروع، وSGLang-Omni، وHuggingFace، وعرض تجريبي تفاعلي على fish.audio.

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

اقرأ المزيد من Shijia Liao

أنشئ أصواتًا تبدو حقيقية

ابدأ في إنشاء أعلى جودة صوت اليوم

هل لديك حساب بالفعل؟ تسجيل الدخول