إطلاق Fish Audio S1: نموذج أساسي رائد لتحويل النص إلى كلام

Blog

النقاط الرئيسية

أطلقنا Fish Audio S1، وهو نموذج أساسي رائد لتحويل النص إلى كلام.
تم تدريب Fish Audio S1 على أكثر من مليوني ساعة من الصوت باستخدام RLHF عبر الإنترنت (GRPO).
يحقق Fish Audio S1 معدل خطأ في الكلمات (WER) بنسبة 0.8% ومعدل خطأ في الحروف (CER) بنسبة 0.4% في تقييم Seed TTS Eval.
يدعم S1 علامات العاطفة والنبرة والمؤثرات الخاصة في مجالات مفتوحة.

جرب S1 الآن

جرب النموذج مجانًا على Fish Audio: https://fish.audio/app/text-to-speech/

صفحة النموذج على Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

يتوفر S1 في نسختين:

S1 (4B) – النموذج الرائد كامل الميزات، متاح على منصة Fish Audio Playground
S1-mini (0.5B) – نسخة مخففة للبيئات ذات الموارد المحدودة، متاحة على Hugging Face

تم تدريب كلا النموذجين باستخدام RLHF عبر الإنترنت (GRPO) باستخدام نماذج مكافأة داخلية.

جودة صوت رائدة

تم تدريب OpenAudio S1 على أكثر من مليوني ساعة من الصوت، مع دمج أزواج النصوص والأصوات واسعة النطاق مع إشراف غني. من خلال النمذجة المشتركة للمعلومات الدلالية والصوتية في نموذج واحد، يتجنب S1 فقدان المعلومات المعتاد في الأنظمة "الدلالية فقط" ويقلل من العيوب الصوتية وأخطاء الكلمات.

في تقييم Seed TTS Eval (مع نصوص معتمدة على GPT-4o ومقاييس المتحدثين المعتمدة على pyannote)، يحقق S1:

WER: 0.008
CER: 0.004

ويتبعه S1-mini بنسب متقاربة:

WER: 0.011
CER: 0.005

يصل OpenAudio S1 أيضًا إلى أعلى درجة ELO على منصة HuggingFace TTS-Arena-V2، محتلاً المرتبة الأولى في التقييم البشري الذاتي للطبيعية والوضوح والتشابه.

تحكم بمستوى الممثل الصوتي

يتيح Fish Audio S1 تحكمًا دقيقًا في العاطفة والأداء. لقد قمنا بتدريب نموذجنا الخاص لتحويل الكلام إلى نص (سيتم إصداره قريبًا) لوصف الصوت بالعاطفة والنبرة وعلامات المتحدث والأحداث، ثم استخدمناه لتعليق أكثر من 100 ألف ساعة من الصوت لاتباع التعليمات.

يمكنك توجيه S1 باستخدام علامات العاطفة مثل (angry) و (sad) و (in a hurry) و (chuckling) والمزيد. تحقق من القائمة الكاملة لعلامات العاطفة الموصى بها هنا: https://docs.fish.audio/developer-guide/core-features/emotions

أصوات عالمية ومتعددة اللغات

تم تصميم OpenAudio S1 للوصول العالمي. وهو يدعم مجموعة واسعة من اللغات، بما في ذلك:

الإنجليزية، الصينية، اليابانية، الألمانية، الفرنسية، الإسبانية، الكورية، العربية، الروسية، الهولندية، الإيطالية، البولندية، البرتغالية

يمكنك مزج اللغات في نفس الطلب، وسوف يتكيف النموذج بشكل طبيعي مع النص والسياق.

البنية، السرعة، والتكلفة

من الناحية التقنية، OpenAudio S1:

يستخدم بنية Qwen3 كعمود فقري متعدد الوسائط
يستخدم برنامج ترميز صوتي (audio codec) داخلي مشابه في جوهره لـ Descript Audio Codec، تم تدريبه من الصفر
يستخدم RLHF عبر الإنترنت مع GRPO للتحسين وفقًا للتفضيلات البشرية

مع خاصية torch compile والاستدلال المحسن، يعمل S1 بعامل وقت حقيقي يبلغ حوالي 1:7 على بطاقة NVIDIA RTX 4090، مما يجعله عمليًا للتطبيقات التفاعلية.

أما من حيث التسعير، فقد تم تصميم S1 ليكون متاحًا حقًا:

حوالي 15 دولارًا لكل مليون بايت، أي ما يعادل تقريبًا 0.8 دولار لكل ساعة صوت

وهذا يجعل تحويل النص إلى كلام عالي الجودة ممكنًا حتى لأحمال العمل الكبيرة أو الميزانيات المحدودة.

استنساخ الصوت بتقنية Zero-shot و few-shot من عينات قصيرة
تحويل النص إلى كلام متعدد اللغات وعابر للغات
لا يعتمد على الفونيمات (Phonemes)، حيث يتعامل مع النصوص التعسفية مباشرة من النص

ابدأ مع OpenAudio S1

يمكنك تجربة OpenAudio S1 اليوم:

Fish Audio Playground (S1): https://fish.audio
S1-mini على Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

اقرأ المزيد من Zhizhuo Zhou