Fish Audio S2

أكثر ذكاء اصطناعي صوتي
تعبيرًا على الإطلاق،
الآن مفتوح المصدر.

أنشئ كلامًا واقعيًا بشكل لا يُصدّق

جرّب Fish Audio S2 الآن

ما يميز S2

مبني من الصفر من أجل التعبيرية والسرعة والانفتاح.

زمن استجابة منخفض للغاية

زمن استجابة أقل من 150 مللي ثانية يتيح الذكاء الاصطناعي التحادثي في الوقت الحقيقي والدبلجة المباشرة وتطبيقات الصوت التفاعلية. أداء جاهز للإنتاج دون المساومة على الجودة.

<150ms

تحكم مفتوح المجال ومتعدد المتحدثين

تحكم في المشاعر ولغة الجسد والمزيد باستخدام تعليمات نصية طبيعية. أضف الضحك والهمس والتنهدات وأي عنصر تعبيري. محادثات متعددة المتحدثين سلسة — تبديل طبيعي بين المتحدثين في جيل واحد.

<|speaker:1|> [giggles]

مفتوح المصدر بالكامل

كود الاستدلال وأوزان النموذج مفتوحة المصدر بالكامل. شغّله على بنيتك التحتية الخاصة، وقم بالضبط الدقيق على بياناتك، وادمجه دون تقييد من المورد. مبني من أجل الشفافية والابتكار المدفوع بالمجتمع.

Built with SGLang

ابنِ باستخدام Fish Audio S2 API

أنشئ كلامًا واقعيًا في أكثر من 80 لغة مع التحكم في المشاعر والتوجيه والمتحدثين المتعددين.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

الأسئلة الشائعة

Fish Audio S2 Pro هو نموذج رائد لتحويل النص إلى كلام مع تحكم دقيق مضمّن في الإيقاع والعاطفة. تم تدريبه على أكثر من 10 ملايين ساعة من البيانات الصوتية عبر أكثر من 80 لغة، ويجمع بين محاذاة التعلم المعزز وبنية الانحدار الذاتي المزدوج (Dual-AR) — Slow AR بـ 4 مليارات معلمة للتنبؤ الدلالي و Fast AR بـ 400 مليون معلمة للتفاصيل الصوتية. يتضمن الإصدار أوزان النموذج وكود الضبط الدقيق ومحرك استدلال بث مبني على SGLang.

يتيح S2 Pro التحكم المحلي في توليد الكلام من خلال تضمين تعليمات اللغة الطبيعية مباشرة في النص باستخدام صيغة [tag]. بدلاً من الاعتماد على مجموعة محددة مسبقاً من العلامات، يقبل S2 Pro أوصافاً نصية حرة — مثل [whisper in small voice] و [professional broadcast tone] أو [pitch up] — مما يسمح بالتحكم المفتوح في التعبير على مستوى الكلمة. يتم دعم أكثر من 15,000 علامة فريدة، بما في ذلك [pause] و [emphasis] و [laughing] و [excited] و [whisper] و [singing] وغيرها الكثير.

على وحدة معالجة رسومات NVIDIA H200 واحدة، يحقق S2 Pro عامل الوقت الحقيقي (RTF) بقيمة 0.195، ووقت أول صوت حوالي 100 مللي ثانية، وإنتاجية تزيد عن 3,000 رمز صوتي في الثانية مع الحفاظ على RTF أقل من 0.5. يرث محرك الاستدلال المبني على SGLang جميع تحسينات الخدمة الأصلية لنماذج اللغة الكبيرة — بما في ذلك المعالجة المستمرة والتخزين المؤقت للصفحات وإعادة تشغيل الرسم البياني CUDA والتخزين المؤقت للبادئة المبني على RadixAttention.

يدعم S2 Pro أكثر من 80 لغة. تشمل لغات المستوى الأول (أعلى جودة) اليابانية والإنجليزية والصينية. تشمل لغات المستوى الثاني الكورية والإسبانية والبرتغالية والعربية والروسية والفرنسية والألمانية. كما تُدعم لغات إضافية كالسويدية والإيطالية والتركية والهولندية والهندية والتايلاندية والفيتنامية وغيرها.

S2 Pro مرخص بموجب Fish Audio Research License. الاستخدام البحثي وغير التجاري مسموح به مجاناً. يتطلب الاستخدام التجاري ترخيصاً منفصلاً من Fish Audio — تواصل مع business@fish.audio للتفاصيل.