23 يونيو 2026Research

Fish Audio S2.1 Pro: واجهة برمجة تطبيقات مجانية لتحويل النص إلى كلام للمطورين

ملخص سريع:

S2.1 Pro، أحدث نموذج صوتي متطور من Fish Audio، متاح الآن كواجهة برمجة تطبيقات (API) مجانية لتحويل النص إلى كلام

83 لغة، استخدام غير محدود بموجب سياسة الاستخدام العادل

معرّف النموذج: s2.1-pro-free — استخدمه مباشرة في طلبات Fish API الحالية

جرب S2.1 Pro مجاناً — أول ملف صوتي في 5 دقائق ←

يونيو 2026 | نموذج S2.1 Pro من Fish Audio متاح الآن كواجهة برمجة تطبيقات مجانية لتحويل النص إلى كلام مع وصول غير محدود بموجب سياسة الاستخدام العادل.

لماذا كان الذكاء الاصطناعي الصوتي عالي الجودة مكلفاً دائماً

إذا قضيت أي وقت في تقييم واجهات برمجة تطبيقات تحويل النص إلى كلام (TTS)، فأنت تعرف النمط بالفعل: النماذج التي تبدو جيدة حقاً تكلف مالاً.

تمنحك الخطة المجانية من ElevenLabs حوالي 10,000 رصيد شهرياً (حوالي 6 - 10 دقائق) قبل أن تصطدم بجدار الدفع. أما OpenAI TTS فهي خدمة مدفوعة حسب الاستخدام ولا توجد خطة مجانية على الإطلاق. أحدث نماذج Gemini TTS من Google — وهي الأكثر تقدماً لديهم — ليس لها استخدام مجاني: تدفع منذ الرمز الأول. النمط ثابت في جميع أنحاء الصناعة: جودة الصوت المتطورة كانت ميزة مدفوعة.

هذا يخلق مشكلة حقيقية للمطورين. سوق مولدات الصوت بالذكاء الاصطناعي ينمو بنسبة تقارب 20% سنوياً — لكن الأدوات اللازمة لبناء منتجات تدعم الصوت ظلت خلف جدار دفع. لا يمكنك تقييم نموذج بشكل صحيح بـ 10,000 رصيد فقط. لا يمكنك بناء نموذج أولي لوكيل صوتي، أو اختبار نظام إنتاج كتب صوتية، أو تجربة استنساخ الصوت دون تخصيص ميزانية مسبقة أو قضاء أسابيع في التعامل مع البدائل مفتوحة المصدر التي تتطلب بنية تحتية خاصة بك من وحدات معالجة الرسومات (GPU).

Fish Audio تغير ذلك اليوم.

ما هو S2.1 Pro؟

S2.1-Pro benchmark: throughput (tok/s) and TTFB p50 (ms) across concurrency levels from 1 to 512, showing 8,006 tok/s at c=64 and 73.2ms TTFB at c=1

S2.1 Pro هو أحدث نموذج صوتي متطور من Fish Audio — أفضل نموذج لدينا، متاح الآن لكل مطور مجاناً عبر واجهة برمجة التطبيقات. إنه نموذج توليف عصبي للكلام مصمم لتوليد صوت ذكاء اصطناعي بمستوى احترافي، مع نقاط قوة خاصة في البث منخفض التأخير، وتحويل النص إلى كلام متعدد اللغات، واستنساخ الصوت. يعتمد النموذج على أساس S2، الذي أصدرناه بأوزان مفتوحة في وقت سابق من هذا العام.

الأداء

معدل فوز 61% مقابل الجيل السابق S2 Pro في تقييمات الاستماع المباشرة — راجع مقارنة مزودي TTS العمياء لمعرفة السياق
حوالي 70 مللي ثانية للوصول لأول صوت (TTFA) في الطلب الواحد — انخفاضاً من حوالي 100 مللي ثانية في الجيل السابق
تحسين بنسبة 2x+ في الإنتاجية (throughput) تحت ضغط الطلبات المتزامنة العالية

للاطلاع على الخلفية التقنية الكاملة، راجع ورقتنا البحثية: هنا

اللغات المدعومة

يدعم S2.1 Pro ما مجموعه 83 لغة، بما في ذلك العربية، الإنجليزية، اليابانية، الصينية، الكورية، الإسبانية، الفرنسية، الألمانية، البرتغالية، الروسية، وعشرات اللغات الأخرى. النموذج نفسه يتعامل مع جميع اللغات — لا توجد نقاط نهاية منفصلة، ولا تسعير لكل لغة.

زمن الاستجابة (Latency)

يوفر S2.1-Pro حوالي 90 مللي ثانية TTFA (الزمن حتى أول صوت) على الواجهة البرمجية القياسية، مما يجعله مناسباً لوكلاء الصوت المباشر وأنظمة الحوار التفاعلية. إذا كنت بحاجة إلى تحكم دقيق في نبرة الصوت والأداء، فراجع أيضاً قدرات S2 في التحكم الصوتي على مستوى الكلمة.

لماذا تستطيع Fish Audio تقديم هذا مجاناً الآن

Fish Audio S2.1-Pro inference infrastructure: NVIDIA H200 with FP8 GEMM and custom scheduler delivering 125 audio tok/s per request (RTF 0.17) and ~70ms TTFA

الخلاصة: قمنا بإعادة بناء بنية الاستدلال (inference stack) من الصفر، وانخفضت تكلفة الطلب الواحد بشكل كبير بما يكفي لنتمكن من تحملها.

مكتبات مخصصة لوحدات GPU

قمنا بتطوير fish-scales-ops، وهي مكتبة احترافية لعمليات FP8 GEMM و FlashAttention تستهدف بنيات NVIDIA Hopper (H100/H200) و Blackwell (RTX 6000 PRO). في عمليات فك التشفير الهامة لخدمات الصوت بالذكاء الاصطناعي، يتفوق مسار MXFP8 الخاص بنا على مرجع torch.compile-fused cuBLAS بنسبة 2.1–4.3 ضعفاً. لست بحاجة لفهم أي من هذا لاستخدام الواجهة البرمجية — ولكن هذا هو سبب استدامة الخطة المجانية.

إنتاجية أعلى

على وحدة H200 واحدة مع تكميم FP8، يحافظ النظام على إنتاجية تزيد عن 8,000 رمز/ثانية عند 64 طلباً متزامناً. إنتاجية أكبر لكل وحدة معالجة رسومات تعني معالجة المزيد من الطلبات مقابل كل دولار، وهو ما يجعل الوصول المجاني غير المحدود ممكناً اقتصادياً.

ماذا يعني "مجاني" حقاً

نفضل أن نكون صريحين بشأن القيود بدلاً من إخفائها.

ما ستحصل عليه:

معرّف النموذج: s2.1-pro-free
وصول بحجم كبير بدون سقف محدد لعدد الأحرف (يخضع لسياسة الاستخدام العادل)
نفس نقطة نهاية واجهة البرمجية (API endpoint) كالخطط المدفوعة — لا يحتاج لتكامل منفصل

القيود الحالية:

المدة: الوصول المجاني متاح حتى 24 يوليو 2026 — سنقوم بإبلاغكم بأي تغييرات بإشعار مسبق
لا يوجد اتفاقية مستوى خدمة (SLA): لا توجد ضمانات لوقت التشغيل أو سرعة الاستجابة؛ مصمم للتجربة والنماذج الأولية
لا ضمان لزمن الاستجابة: يعتمد على أفضل جهد، وليس التزاماً تعاقدياً
الاحتفاظ بالبيانات: قد تُستخدم الطلبات لتحسين جودة النموذج — راجع سياسة الخصوصية
الاستخدام التجاري: قد تخضع بعض السيناريوهات التجارية لقيود. المنتجات التي تحقق أكثر من مليون دولار من الإيرادات السنوية المتكررة (ARR) يجب أن تتواصل معنا قبل استخدام S2.1 Pro Free. راجع الأسعار وحدود المعدل للتفاصيل

إذا كنت بحاجة إلى ضمانات SLA وزمن استجابة للإنتاج الفعلي، فالخطط المدفوعة متاحة. هذه الفئة هي المكان المناسب للبناء والتقييم واتخاذ القرار.

كيفية استخدام واجهة TTS المجانية: دليل البدء السريع لـ S2.1 Pro

احصل على مفتاح API الخاص بك من fish.audio/app/api-keys، ثم قم بإجراء أول طلب لك. تقبل Fish API الطلبات المشفرة بصيغة msgpack وتعيد الصوت بالتنسيق الذي تختاره. المرجع الكامل متاح في وثائق API.

JavaScript

import { writeFile } from "fs/promises";

const body = {
  text: "Hello, world!",
  reference_id: "your_model_id",
  format: "mp3",
};

const res = await fetch("https://api.fish.audio/v1/tts", {
  method: "POST",
  headers: {
    Authorization: "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json",
    model: "s2.1-pro-free",
  },
  body: JSON.stringify(body),
});

if (!res.ok) {
  throw new Error(`TTS request failed: ${res.status} ${await res.text()}`);
}

const buffer = Buffer.from(await res.arrayBuffer());
await writeFile("output.mp3", buffer);

Python

import httpx

body = {
    "text": "Hello, world!",
    "reference_id": "your_model_id",
    "format": "mp3",
}

with httpx.Client() as client:
    res = client.post(
        "https://api.fish.audio/v1/tts",
        headers={
            "Authorization": "Bearer <YOUR_API_KEY>",
            "Content-Type": "application/json",
            "model": "s2.1-pro-free",
        },
        json=body,
    )

res.raise_for_status()

with open("output.mp3", "wb") as f:
    f.write(res.content)

التغيير الوحيد عن أي طلب Fish Audio API آخر: قم بتعيين model: "s2.1-pro-free" في الترويسات (headers). هذا كل شيء.

احصل على مفتاح API المجاني الخاص بك ←

S2.1 Pro مقابل ElevenLabs وأفضل واجهات TTS في 2026

المعلومات الخاصة بالمنافسين أدناه تعتمد على الوثائق وصفحات التسعير المتاحة علناً اعتبارا من يونيو 2026. قد تتغير الأسعار والميزات — يرجى التحقق مباشرة من كل مزود قبل اتخاذ قرار الإنتاج.

Comparison of free TTS APIs in 2026: Fish Audio S2.1-Pro vs ElevenLabs vs OpenAI TTS vs Google Cloud TTS

لإجراء تحليل مستقل أعمق، راجع مقارنة مزودي TTS العمياء لعام 2026.

الخلاصة: من بين مزودي واجهات TTS الرئيسيين الذين قمنا بتقييمهم، تقدم Fish Audio حالياً أحد أكثر نماذج الوصول المجاني سخاءً — الوحيد الذي تشغل فيه الخطة المجانية نفس النموذج المتطور كالخطة المدفوعة، وبدون سقف استخدام صارم. الخطة المجانية لـ ElevenLabs هي فعلياً نسخة تجريبية بـ 10,000 رصيد. أما أحدث TTS من Google (Gemini TTS) فليس لها خطة مجانية على الإطلاق.

تبحث عن بديل مجاني لـ ElevenLabs لا يساوم على جودة النموذج؟ S2.1 Pro متاح الآن بدون سقف استخدام.

تبحث عن بديل مجاني لـ OpenAI TTS؟ عرض OpenAI TTS لا يحتوي على فئة مجانية — S2.1 Pro خيار مقنع لتقييمه أولاً.

راجع وثائق API الكاملة وابدأ البناء ←

ما الذي يمكنك بناؤه باستخدامه

الفئة المجانية غير مقيدة عمداً في حالات الاستخدام. إليك السيناريوهات التي يبرز فيها S2.1 Pro بمزيجه من توليد الصوت بزمن تأخير منخفض، ودعم لغات متعددة، واستنساخ الصوت.

وكلاء الصوت

الذكاء الاصطناعي الحواري في الوقت الفعلي يعتمد كلياً على زمن الاستجابة. عند حوالي 90 مللي ثانية TTFA للمكالمات القياسية، يعد S2.1 Pro سريعاً بما يكفي لحوار طبيعي متبادل الأدوار. ادمجه مع طبقة تحويل الكلام إلى نص (STT) ونموذج لغوي كبير (LLM) للحصول على خط إنتاج صوتي كامل بدون فاتورة لكل حرف. يمكنك أيضاً دمج S2.1 Pro في سير عمل الوكلاء عبر دعم مهارات الوكلاء و MCP.

الكتب الصوتية والسرد الطويل

دعم 83 لغة ونبرة الصوت الطبيعية تجعل S2.1 Pro مناسباً تماماً لإنتاج الكتب الصوتية وتوليف الكلام الطويل. الاستخدام غير المحدود يعني أنه يمكنك معالجة مخطوطات كاملة دون مراقبة عداد الأحرف أو الشراء المسبق للأرصدة.

استنساخ الصوت

يدعم S2.1 Pro استنساخ الصوت من مقطع مرجعي عبر واجهة برمجة التطبيقات — مرر عينة صوتية مرجعية وسيقوم النموذج بتوليد الكلام بذلك الصوت. قم ببناء تطبيقات صوتية مخصصة، أو تعريب المحتوى بهوية متحدث متسقة، أو توليد أصوات شخصيات للألعاب والرسوم المتحركة. استنساخ الصوت متاح في الفئة المجانية، ويخضع لنفس سياسة الاستخدام العادل.

تطبيقات متعددة اللغات

إذا كان تطبيقك يخدم مستخدمين بلغات متعددة، فإن تغطية 83 لغة بواجهة برمجة تطبيقات واحدة متسقة هو تبسيط جوهري مقارنة بالبدائل التي تتطلب نقاط نهاية منفصلة لكل لغة أو تفرض أسعاراً مرتفعة لتوليد الكلام بغير الإنجليزية.

حوارات الشخصيات غير اللاعبة في الألعاب (NPC)

تستفيد خطوط إنتاج أصوات الألعاب من الإنتاجية العالية والتكلفة المتوقعة لكل طلب. الاستخدام المجاني غير المحدود يجعل من العملي إنشاء مكتبات حوار ضخمة والتكرار بحرية أثناء التطوير قبل الالتزام بميزانية الإنتاج.

متاح عبر نظام شركائنا

S2.1 Pro متاح أيضاً من خلال عدد متزايد من منصات الشركاء، بما في ذلك Runware و Retell و Sierra وغيرها.

إذا كنت تبني بالفعل على إحدى هذه المنصات، فيمكنك الوصول إلى S2.1 Pro دون الحاجة إلى تكامل أو إعداد إضافي — فقط استخدم ما لديك بالفعل.

نحن نعمل بنشاط على توسيع شبكة الشركاء. إذا كنت مزود منصة أو بنية تحتية مهتماً بدمج S2.1 Pro، تواصل مع فريقنا لاستكشاف الإمكانيات.

الاستخدام العادل وماذا بعد

تعمل الفئة المجانية بموجب سياسة الاستخدام العادل. نحن نحتفظ بالحق في تقييد أو تحديد الوصول لأنماط الاستخدام التي تبدو كإساءة استخدام بدلاً من كونها تطويراً — الهدف هو حماية الوصول لمجتمع المطورين بأكمله، وليس خلق قيود تعسفية لحالات الاستخدام المشروعة. راجع الأسعار وحدود المعدل للتفاصيل.

إليك بعض الأشياء التي يمكنك توقعها:

الوصول المجاني متاح الآن لفترة أولية. سنقدم إشعاراً مسبقاً قبل حدوث أي تغييرات.
الخطط المدفوعة مع ضمانات SLA، والتزامات زمن الاستجابة، والتراخيص التجارية متاحة لأحمال عمل الإنتاج.
الاستثمار في البنية التحتية مستمر — العمل الهندسي الذي جعل هذه الفئة المجانية ممكنة ليس حدثاً لمرة واحدة.
بنية تحتية مفتوحة المصدر: نخطط لفتح مصدر مكونات البنية التحتية وراء S2.1 Pro — نفس البنية التي تجعل الفئة المجانية مستدامة.

إذا كنت تقيم Fish Audio للنشر في الإنتاج الفعلي، فإن الفئة المجانية هي المكان المناسب للبدء. ابنِ شيئاً حقيقياً، وقس ما يهم لتطبيقك، وتواصل معنا عندما تكون مستعداً لمناقشة متطلبات الإنتاج.

لا حاجة لبطاقة ائتمان. لا توجد قائمة انتظار. لا حدود لما يمكنك تجربته.

احصل على مفتاح API المجاني الخاص بك ←

الأسئلة المتكررة

ما هي واجهة برمجة تطبيقات تحويل النص إلى كلام (TTS API)؟

واجهة برمجة تطبيقات تحويل النص إلى كلام (TTS API) هي خدمة ويب تقوم بتحويل النص المكتوب إلى صوت منطوق. يرسل المطورون نصاً إلى نقطة نهاية API ويتلقون ملفاً صوتياً — عادةً بصيغة MP3 أو WAV أو Opus — يمكن تشغيله في التطبيقات أو تخزينه أو بثه في الوقت الفعلي. تستخدم واجهات صوت الذكاء الاصطناعي الحديثة مثل S2.1 Pro نماذج توليف كلام عصبية لإنتاج صوت طبيعي يصعب تمييزه عن الكلام البشري.

هل Fish Audio S2.1 Pro مجاني حقاً؟

نعم. S2.1 Pro متاح بدون تكلفة عبر Fish API باستخدام معرّف النموذج `s2.1-pro-free`. لا يوجد سقف محدد لعدد الأحرف — يخضع الاستخدام لسياسة الاستخدام العادل لمنع إساءة الاستخدام. الفئة المجانية لا تحتوي على اتفاقية مستوى خدمة (SLA) أو ضمانات لزمن الاستجابة، وقد يتم الاحتفاظ بالطلبات لتحسين النموذج. وهي مصممة للتطوير والنماذج الأولية والتقييم. راجع [الأسعار وحدود المعدل](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) للتفاصيل الكاملة.

ما هي أفضل واجهة برمجة تطبيقات TTS مجانية في عام 2026؟

تعتمد أفضل واجهة TTS مجانية على حالة استخدامك. من بين المزودين الرئيسيين: تقدم Fish Audio S2.1 Pro وصولاً مجانياً سخياً لنموذج من الجيل الحالي، بدون سقف استخدام صارم ودعم لـ 83 لغة. تقدم ElevenLabs 10,000 رصيد مجاني شهرياً مع إمكانية الوصول إلى مكتبة أصواتها. أصوات WaveNet القديمة من Google مجانية حتى 4 ملايين حرف شهرياً. أما OpenAI TTS و Gemini TTS من Google فليس لديهما فئة مجانية. للمطورين الذين يرغبون في تقييم واجهة صوت ذكاء اصطناعي متطورة دون قيود الميزانية، يعد S2.1 Pro نقطة بداية قوية.

كيف تقارن Fish Audio مع ElevenLabs؟

تقدم كل من Fish Audio و ElevenLabs توليداً صوتياً عصبياً عالي الجودة واستنساخاً للصوت. الاختلافات العملية الرئيسية في الفئة المجانية: تشغل الفئة المجانية من Fish Audio نفس نموذج S2.1 Pro كالخطة المدفوعة بدون سقف استخدام صارم؛ بينما الفئة المجانية من ElevenLabs محدودة بـ 10,000 رصيد شهرياً. فيما يتعلق بتغطية اللغات، تدعم Fish Audio أكثر من 83 لغة مقابل 70+ في ElevenLabs. تمتلك ElevenLabs مكتبة أكبر من الأصوات الجاهزة ونظاماً بيئياً أكثر رسوخاً للمحتوى الإبداعي. تميل Fish Audio لتكون أقوى في حالات الاستخدام الموجهة للمطورين التي تتطلب زمن استجابة منخفضاً، أو تزامناً عالياً، أو دعماً لعدة لغات. راجع [مقارنة TTS العمياء](https://fish.audio/blog/blind-tts-provider-comparison-2026/) للحصول على معيار مستقل.

هل تدعم Fish Audio استنساخ الصوت؟

نعم. يدعم S2.1 Pro [استنساخ الصوت من مقطع مرجعي](https://docs.fish.audio/features/voice-cloning). يمكنك تمرير عينة صوتية مرجعية وسيقوم النموذج بتوليف الكلام بذلك الصوت. يعمل هذا عبر جميع اللغات الـ 83 المدعومة، مما يجعله مفيداً بشكل خاص لتعريب المحتوى حيث يكون الحفاظ على هوية المتحدث أمراً بالغ الأهمية. يعد نظام استنساخ الصوت لدينا واحداً من الأقوى في فئته، حيث يوفر اتساقاً عالياً في المتحدث، ونبرة طبيعية، وأداءً مستقراً عبر اللغات واللكنات المختلفة. استنساخ الصوت متاح في الفئة المجانية، ويخضع لنفس سياسة الاستخدام العادل مثل باقي استخدامات s2.1-pro-free.

هل يمكنني استخدام Fish Audio تجارياً؟

قد تخضع الفئة المجانية (`s2.1-pro-free`) لقيود في بعض السيناريوهات التجارية. للاستخدام التجاري في الإنتاج مع ترخيص كامل، واتفاقية مستوى خدمة (SLA)، وعدم الاحتفاظ بالبيانات، يرجى الرجوع إلى خطط Fish Audio المدفوعة. راجع [الأسعار وحدود المعدل](https://docs.fish.audio/developer-guide/models-pricing/pricing-and-rate-limits) و [شروط الخدمة](https://fish.audio/terms/) لمعرفة السياسة الحالية.

ما هي اللغات التي تدعمها Fish Audio؟

يدعم S2.1 Pro حوالي 83 لغة، بما في ذلك العربية، الإنجليزية، اليابانية، الكورية، الصينية، الإسبانية، البرتغالية، الفرنسية، الألمانية، الروسية، الإيطالية، التركية، الهولندية، البولندية، الفيتنامية، التايلاندية، الإندونيسية، وغيرها الكثير. يتم خدمة جميع اللغات بواسطة نفس النموذج — لا توجد نقاط نهاية منفصلة أو فئات تسعير خاصة بكل لغة.