Fish Audio S2.1 Pro: واجهة برمجة تطبيقات مجانية لتحويل النص إلى كلام للمطورين
ملخص سريع:
S2.1 Pro، أحدث نموذج صوتي متطور من Fish Audio، متاح الآن كواجهة برمجة تطبيقات (API) مجانية لتحويل النص إلى كلام
83 لغة، استخدام غير محدود بموجب سياسة الاستخدام العادل
معرّف النموذج: s2.1-pro-free — استخدمه مباشرة في طلبات Fish API الحالية
جرب S2.1 Pro مجاناً — أول ملف صوتي في 5 دقائق ←
يونيو 2026 | نموذج S2.1 Pro من Fish Audio متاح الآن كواجهة برمجة تطبيقات مجانية لتحويل النص إلى كلام مع وصول غير محدود بموجب سياسة الاستخدام العادل.
لماذا كان الذكاء الاصطناعي الصوتي عالي الجودة مكلفاً دائماً
إذا قضيت أي وقت في تقييم واجهات برمجة تطبيقات تحويل النص إلى كلام (TTS)، فأنت تعرف النمط بالفعل: النماذج التي تبدو جيدة حقاً تكلف مالاً.
تمنحك الخطة المجانية من ElevenLabs حوالي 10,000 رصيد شهرياً (حوالي 6 - 10 دقائق) قبل أن تصطدم بجدار الدفع. أما OpenAI TTS فهي خدمة مدفوعة حسب الاستخدام ولا توجد خطة مجانية على الإطلاق. أحدث نماذج Gemini TTS من Google — وهي الأكثر تقدماً لديهم — ليس لها استخدام مجاني: تدفع منذ الرمز الأول. النمط ثابت في جميع أنحاء الصناعة: جودة الصوت المتطورة كانت ميزة مدفوعة.
هذا يخلق مشكلة حقيقية للمطورين. سوق مولدات الصوت بالذكاء الاصطناعي ينمو بنسبة تقارب 20% سنوياً — لكن الأدوات اللازمة لبناء منتجات تدعم الصوت ظلت خلف جدار دفع. لا يمكنك تقييم نموذج بشكل صحيح بـ 10,000 رصيد فقط. لا يمكنك بناء نموذج أولي لوكيل صوتي، أو اختبار نظام إنتاج كتب صوتية، أو تجربة استنساخ الصوت دون تخصيص ميزانية مسبقة أو قضاء أسابيع في التعامل مع البدائل مفتوحة المصدر التي تتطلب بنية تحتية خاصة بك من وحدات معالجة الرسومات (GPU).
Fish Audio تغير ذلك اليوم.
ما هو S2.1 Pro؟
S2.1 Pro هو أحدث نموذج صوتي متطور من Fish Audio — أفضل نموذج لدينا، متاح الآن لكل مطور مجاناً عبر واجهة برمجة التطبيقات. إنه نموذج توليف عصبي للكلام مصمم لتوليد صوت ذكاء اصطناعي بمستوى احترافي، مع نقاط قوة خاصة في البث منخفض التأخير، وتحويل النص إلى كلام متعدد اللغات، واستنساخ الصوت. يعتمد النموذج على أساس S2، الذي أصدرناه بأوزان مفتوحة في وقت سابق من هذا العام.
الأداء
- معدل فوز 61% مقابل الجيل السابق S2 Pro في تقييمات الاستماع المباشرة — راجع مقارنة مزودي TTS العمياء لمعرفة السياق
- حوالي 70 مللي ثانية للوصول لأول صوت (TTFA) في الطلب الواحد — انخفاضاً من حوالي 100 مللي ثانية في الجيل السابق
- تحسين بنسبة 2x+ في الإنتاجية (throughput) تحت ضغط الطلبات المتزامنة العالية
للاطلاع على الخلفية التقنية الكاملة، راجع ورقتنا البحثية: هنا
اللغات المدعومة
يدعم S2.1 Pro ما مجموعه 83 لغة، بما في ذلك العربية، الإنجليزية، اليابانية، الصينية، الكورية، الإسبانية، الفرنسية، الألمانية، البرتغالية، الروسية، وعشرات اللغات الأخرى. النموذج نفسه يتعامل مع جميع اللغات — لا توجد نقاط نهاية منفصلة، ولا تسعير لكل لغة.
زمن الاستجابة (Latency)
يوفر S2.1-Pro حوالي 90 مللي ثانية TTFA (الزمن حتى أول صوت) على الواجهة البرمجية القياسية، مما يجعله مناسباً لوكلاء الصوت المباشر وأنظمة الحوار التفاعلية. إذا كنت بحاجة إلى تحكم دقيق في نبرة الصوت والأداء، فراجع أيضاً قدرات S2 في التحكم الصوتي على مستوى الكلمة.
لماذا تستطيع Fish Audio تقديم هذا مجاناً الآن
الخلاصة: قمنا بإعادة بناء بنية الاستدلال (inference stack) من الصفر، وانخفضت تكلفة الطلب الواحد بشكل كبير بما يكفي لنتمكن من تحملها.
مكتبات مخصصة لوحدات GPU
قمنا بتطوير fish-scales-ops، وهي مكتبة احترافية لعمليات FP8 GEMM و FlashAttention تستهدف بنيات NVIDIA Hopper (H100/H200) و Blackwell (RTX 6000 PRO). في عمليات فك التشفير الهامة لخدمات الصوت بالذكاء الاصطناعي، يتفوق مسار MXFP8 الخاص بنا على مرجع torch.compile-fused cuBLAS بنسبة 2.1–4.3 ضعفاً. لست بحاجة لفهم أي من هذا لاستخدام الواجهة البرمجية — ولكن هذا هو سبب استدامة الخطة المجانية.
إنتاجية أعلى
على وحدة H200 واحدة مع تكميم FP8، يحافظ النظام على إنتاجية تزيد عن 8,000 رمز/ثانية عند 64 طلباً متزامناً. إنتاجية أكبر لكل وحدة معالجة رسومات تعني معالجة المزيد من الطلبات مقابل كل دولار، وهو ما يجعل الوصول المجاني غير المحدود ممكناً اقتصادياً.
ماذا يعني "مجاني" حقاً
نفضل أن نكون صريحين بشأن القيود بدلاً من إخفائها.
ما ستحصل عليه:
- معرّف النموذج:
s2.1-pro-free - وصول بحجم كبير بدون سقف محدد لعدد الأحرف (يخضع لسياسة الاستخدام العادل)
- نفس نقطة نهاية واجهة البرمجية (API endpoint) كالخطط المدفوعة — لا يحتاج لتكامل منفصل
القيود الحالية:
- المدة: الوصول المجاني متاح حتى 24 يوليو 2026 — سنقوم بإبلاغكم بأي تغييرات بإشعار مسبق
- لا يوجد اتفاقية مستوى خدمة (SLA): لا توجد ضمانات لوقت التشغيل أو سرعة الاستجابة؛ مصمم للتجربة والنماذج الأولية
- لا ضمان لزمن الاستجابة: يعتمد على أفضل جهد، وليس التزاماً تعاقدياً
- الاحتفاظ بالبيانات: قد تُستخدم الطلبات لتحسين جودة النموذج — راجع سياسة الخصوصية
- الاستخدام التجاري: قد تخضع بعض السيناريوهات التجارية لقيود. المنتجات التي تحقق أكثر من مليون دولار من الإيرادات السنوية المتكررة (ARR) يجب أن تتواصل معنا قبل استخدام S2.1 Pro Free. راجع الأسعار وحدود المعدل للتفاصيل
إذا كنت بحاجة إلى ضمانات SLA وزمن استجابة للإنتاج الفعلي، فالخطط المدفوعة متاحة. هذه الفئة هي المكان المناسب للبناء والتقييم واتخاذ القرار.
كيفية استخدام واجهة TTS المجانية: دليل البدء السريع لـ S2.1 Pro
احصل على مفتاح API الخاص بك من fish.audio/app/api-keys، ثم قم بإجراء أول طلب لك. تقبل Fish API الطلبات المشفرة بصيغة msgpack وتعيد الصوت بالتنسيق الذي تختاره. المرجع الكامل متاح في وثائق API.
JavaScript
import { writeFile } from "fs/promises";
const body = {
text: "Hello, world!",
reference_id: "your_model_id",
format: "mp3",
};
const res = await fetch("https://api.fish.audio/v1/tts", {
method: "POST",
headers: {
Authorization: "Bearer <YOUR_API_KEY>",
"Content-Type": "application/json",
model: "s2.1-pro-free",
},
body: JSON.stringify(body),
});
if (!res.ok) {
throw new Error(`TTS request failed: ${res.status} ${await res.text()}`);
}
const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);
Python
import httpx
body = {
"text": "Hello, world!",
"reference_id": "your_model_id",
"format": "mp3",
}
with httpx.Client() as client:
res = client.post(
"https://api.fish.audio/v1/tts",
headers={
"Authorization": "Bearer <YOUR_API_KEY>",
"Content-Type": "application/json",
"model": "s2.1-pro-free",
},
json=body,
)
res.raise_for_status()
with open("output.mp3", "wb") as f:
f.write(res.content)
التغيير الوحيد عن أي طلب Fish Audio API آخر: قم بتعيين model: "s2.1-pro-free" في الترويسات (headers). هذا كل شيء.
احصل على مفتاح API المجاني الخاص بك ←
S2.1 Pro مقابل ElevenLabs وأفضل واجهات TTS في 2026
المعلومات الخاصة بالمنافسين أدناه تعتمد على الوثائق وصفحات التسعير المتاحة علناً اعتبارا من يونيو 2026. قد تتغير الأسعار والميزات — يرجى التحقق مباشرة من كل مزود قبل اتخاذ قرار الإنتاج.
لإجراء تحليل مستقل أعمق، راجع مقارنة مزودي TTS العمياء لعام 2026.
الخلاصة: من بين مزودي واجهات TTS الرئيسيين الذين قمنا بتقييمهم، تقدم Fish Audio حالياً أحد أكثر نماذج الوصول المجاني سخاءً — الوحيد الذي تشغل فيه الخطة المجانية نفس النموذج المتطور كالخطة المدفوعة، وبدون سقف استخدام صارم. الخطة المجانية لـ ElevenLabs هي فعلياً نسخة تجريبية بـ 10,000 رصيد. أما أحدث TTS من Google (Gemini TTS) فليس لها خطة مجانية على الإطلاق.
تبحث عن بديل مجاني لـ ElevenLabs لا يساوم على جودة النموذج؟ S2.1 Pro متاح الآن بدون سقف استخدام.
تبحث عن بديل مجاني لـ OpenAI TTS؟ عرض OpenAI TTS لا يحتوي على فئة مجانية — S2.1 Pro خيار مقنع لتقييمه أولاً.
راجع وثائق API الكاملة وابدأ البناء ←
ما الذي يمكنك بناؤه باستخدامه
الفئة المجانية غير مقيدة عمداً في حالات الاستخدام. إليك السيناريوهات التي يبرز فيها S2.1 Pro بمزيجه من توليد الصوت بزمن تأخير منخفض، ودعم لغات متعددة، واستنساخ الصوت.
وكلاء الصوت
الذكاء الاصطناعي الحواري في الوقت الفعلي يعتمد كلياً على زمن الاستجابة. عند حوالي 90 مللي ثانية TTFA للمكالمات القياسية، يعد S2.1 Pro سريعاً بما يكفي لحوار طبيعي متبادل الأدوار. ادمجه مع طبقة تحويل الكلام إلى نص (STT) ونموذج لغوي كبير (LLM) للحصول على خط إنتاج صوتي كامل بدون فاتورة لكل حرف. يمكنك أيضاً دمج S2.1 Pro في سير عمل الوكلاء عبر دعم مهارات الوكلاء و MCP.
الكتب الصوتية والسرد الطويل
دعم 83 لغة ونبرة الصوت الطبيعية تجعل S2.1 Pro مناسباً تماماً لإنتاج الكتب الصوتية وتوليف الكلام الطويل. الاستخدام غير المحدود يعني أنه يمكنك معالجة مخطوطات كاملة دون مراقبة عداد الأحرف أو الشراء المسبق للأرصدة.
استنساخ الصوت
يدعم S2.1 Pro استنساخ الصوت من مقطع مرجعي عبر واجهة برمجة التطبيقات — مرر عينة صوتية مرجعية وسيقوم النموذج بتوليد الكلام بذلك الصوت. قم ببناء تطبيقات صوتية مخصصة، أو تعريب المحتوى بهوية متحدث متسقة، أو توليد أصوات شخصيات للألعاب والرسوم المتحركة. استنساخ الصوت متاح في الفئة المجانية، ويخضع لنفس سياسة الاستخدام العادل.
تطبيقات متعددة اللغات
إذا كان تطبيقك يخدم مستخدمين بلغات متعددة، فإن تغطية 83 لغة بواجهة برمجة تطبيقات واحدة متسقة هو تبسيط جوهري مقارنة بالبدائل التي تتطلب نقاط نهاية منفصلة لكل لغة أو تفرض أسعاراً مرتفعة لتوليد الكلام بغير الإنجليزية.
حوارات الشخصيات غير اللاعبة في الألعاب (NPC)
تستفيد خطوط إنتاج أصوات الألعاب من الإنتاجية العالية والتكلفة المتوقعة لكل طلب. الاستخدام المجاني غير المحدود يجعل من العملي إنشاء مكتبات حوار ضخمة والتكرار بحرية أثناء التطوير قبل الالتزام بميزانية الإنتاج.
متاح عبر نظام شركائنا
S2.1 Pro متاح أيضاً من خلال عدد متزايد من منصات الشركاء، بما في ذلك Runware و Retell و Sierra وغيرها.
إذا كنت تبني بالفعل على إحدى هذه المنصات، فيمكنك الوصول إلى S2.1 Pro دون الحاجة إلى تكامل أو إعداد إضافي — فقط استخدم ما لديك بالفعل.
نحن نعمل بنشاط على توسيع شبكة الشركاء. إذا كنت مزود منصة أو بنية تحتية مهتماً بدمج S2.1 Pro، تواصل مع فريقنا لاستكشاف الإمكانيات.
الاستخدام العادل وماذا بعد
تعمل الفئة المجانية بموجب سياسة الاستخدام العادل. نحن نحتفظ بالحق في تقييد أو تحديد الوصول لأنماط الاستخدام التي تبدو كإساءة استخدام بدلاً من كونها تطويراً — الهدف هو حماية الوصول لمجتمع المطورين بأكمله، وليس خلق قيود تعسفية لحالات الاستخدام المشروعة. راجع الأسعار وحدود المعدل للتفاصيل.
إليك بعض الأشياء التي يمكنك توقعها:
- الوصول المجاني متاح الآن لفترة أولية. سنقدم إشعاراً مسبقاً قبل حدوث أي تغييرات.
- الخطط المدفوعة مع ضمانات SLA، والتزامات زمن الاستجابة، والتراخيص التجارية متاحة لأحمال عمل الإنتاج.
- الاستثمار في البنية التحتية مستمر — العمل الهندسي الذي جعل هذه الفئة المجانية ممكنة ليس حدثاً لمرة واحدة.
- بنية تحتية مفتوحة المصدر: نخطط لفتح مصدر مكونات البنية التحتية وراء S2.1 Pro — نفس البنية التي تجعل الفئة المجانية مستدامة.
إذا كنت تقيم Fish Audio للنشر في الإنتاج الفعلي، فإن الفئة المجانية هي المكان المناسب للبدء. ابنِ شيئاً حقيقياً، وقس ما يهم لتطبيقك، وتواصل معنا عندما تكون مستعداً لمناقشة متطلبات الإنتاج.
لا حاجة لبطاقة ائتمان. لا توجد قائمة انتظار. لا حدود لما يمكنك تجربته.

