مقارنة محركات استنتاج النماذج اللغوية الكبيرة (LLM) مفتوحة المصدر: SGLang وvLLM وMAX وBentoML لعام 2026
مع انتقال نماذج الذكاء الاصطناعي من مرحلة البحث إلى الإنتاج، يحدد محرك الاستنتاج الذي تختاره زمن الاستجابة (latency)، والإنتاجية (throughput)، وتكلفة البنية التحتية. لقد تبلور النظام البيئي مفتوح المصدر حول ثلاثة منافسين جديين — لكل منهم فلسفة معمارية متميزة ومجموعة من المفايضات.
تستعرض هذه المقالة محركات SGLang و vLLM و MAX (Modular) — وهي المحركات الثلاثة الأكثر أهمية مع اقتراب نهاية عام 2026. سنغطي ما يفعله كل منها، ونقاط قوته، ونقاط ضعفه، وكيفية مقارنتها وجهاً لوجه.
SGLang
GitHub: sgl-project/sglang (~25K stars) · الترخيص: Apache 2.0 · أحدث نسخة: v0.5.9 (فبراير 2026)
الوصف
SGLang (Structured Generation Language) هو إطار عمل عالي الأداء لخدمة النماذج اللغوية الكبيرة والنماذج متعددة الوسائط، تم تطويره في الأصل في Sky Computing Lab بجامعة كاليفورنيا في بيركلي بواسطة فريق LMSYS.org. في يناير 2026، انفصل مشروع SGLang ليصبح شركة RadixArk، وهي شركة ناشئة تجارية بلغت قيمتها حوالي 400 مليون دولار في جولة تمويل بقيادة Accel — وبدعم من المستثمر الملاك Lip-Bu Tan، الرئيس التنفيذي لشركة Intel. عمل المؤسس المشارك والرئيس التنفيذي Ying Sheng سابقاً كعالم أبحاث في xAI.
الابتكار الجوهري في SGLang هو RadixAttention، الذي يستخدم بنية بيانات radix tree لإعادة استخدام ذاكرة التخزين المؤقت KV (KV cache) بشكل تلقائي ودقيق. وهذا يجعلها سريعة بشكل استثنائي في المحادثات متعددة الأدوار، وسلاسل RAG، وأي عبء عمل يحتوي على بادئات (prefixes) مشتركة. محرك المخرجات الهيكلية الخاص بها (xgrammar backend) هو الأسرع متاح حالياً في المصادر المفتوحة، حيث يوفر فك تشفير JSON أسرع بما يصل إلى 10 مرات من البدائل.
يعمل SGLang الآن على أكثر من 400,000 وحدة معالجة رسومية (GPU) حول العالم ويولد تريليونات الرموز (tokens) يومياً، ومن بين مستخدمي الإنتاج البارزين xAI (كمحرك LLM افتراضي)، و AMD، و NVIDIA، و LinkedIn، و Cursor.
Fish Audio S2 و SGLang: نموذج S2 من Fish Audio — وهو بنية TTS مزدوجة ذاتية التراجع (Dual-Autoregressive) بمعاملات تصل إلى 4 مليارات (4B) ومدربة على أكثر من 10 ملايين ساعة من الصوت متعدد اللغات — يتشابه هيكلياً مع النماذج اللغوية الكبيرة القياسية. هذا يعني أنه يرث بشكل أصيل جميع تحسينات SGLang: الدفعات المتصلة (continuous batching)، وذاكرة KV المقسمة (paged KV cache)، وإعادة تشغيل CUDA graph، و RadixAttention. بالنسبة لأعباء عمل استنساخ الصوت، يقوم RadixAttention بتخزين حالات KV للصوت المرجعي، محققاً متوسط 86.4% من معدل إصابة ذاكرة التخزين المؤقت للبادئات — وهي مكاسب كفاءة هائلة لخدمة الإنتاج في TTS. قامت Fish Audio بفتح مصدر S2 مع دعم من الدرجة الأولى لـ SGLang.
الإيجابيات
- أفضل إنتاجية في فئتها — أسرع بنسبة ~29% من vLLM في اختبارات الإنتاجية المجمعة (H100, Llama 3.1 8B, ShareGPT 1K prompts: ~16,200 tok/s مقابل ~12,500 tok/s).
- RadixAttention يوفر سرعة إضافية بنسبة 10-20% في الدردشة متعددة الأدوار وتصل إلى 6.4 مرات في أعباء عمل RAG كثيفة البادئات.
- أسرع مخرجات هيكلية — واجهة xgrammar أسرع بـ 3-10 مرات من البدائل لفك تشفير JSON/القواعد المقيدة.
- دعم واسع للوسائط — أكثر من 60 عائلة LLM، وأكثر من 30 نموذجاً متعدد الوسائط، ونماذج التضمين/المكافأة، ونماذج الانتشار (الصور والفيديو، أسرع بـ 5 مرات)، و TTS (Fish Audio S2).
- تكامل قوي مع التعلم المعزز (RL) — إطار عمل Miles (من RadixArk) لحلقات تدريب التعلم المعزز.
- دعم واسع للأجهزة — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (عبر SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX).
- وتيرة إصدارات نشطة — دورة إصدار كل 3 أسابيع تقريباً، ودعم سريع للنماذج الجديدة (الأول في تشغيل DeepSeek R1 على نطاق واسع).
السلبيات
- مجتمع أصغر — حوالي 25 ألف نجمة على GitHub مقارنة بـ 75 ألفاً لـ vLLM؛ تكاملات ودروس تعليمية أقل من جهات خارجية.
- يدعم Linux فقط — يتطلب WSL على Windows؛ لا توجد خدمة GPU أصلية على macOS.
- عنق زجاجة Python GIL — يواجه موجه الطلبات حدود التوسع فوق 150 طلباً متزامناً تقريباً.
- دعم محدود لـ GGUF — ليس مثالياً للنشر على الأجهزة الطرفية (edge) مقارنة بـ llama.cpp.
- الاستقرار — مشاكل عرضية في تبعيات الإصدارات التجريبية؛ أقل اختباراً في حالات الاستخدام المؤسسي المتطرفة.
vLLM
GitHub: vllm-project/vllm (~75K stars) · الترخيص: Apache 2.0 · أحدث نسخة: v0.19.0 (أبريل 2026)
الوصف
vLLM هو محرك خدمة LLM مفتوح المصدر الأكثر اعتماداً والمعيار الفعلي في الصناعة. يدعم أنظمة الإنتاج في Amazon (Rufus، الذي يخدم 250 مليون عميل)، و LinkedIn، و Roblox (4 مليار رمز في الأسبوع)، و Meta، و Mistral AI، و IBM، و Stripe (التي أبلغت عن انخفاض بنسبة 73% في تكاليف الاستنتاج). شكل الفريق وراء vLLM شركة Inferact، حيث جمعت 150 مليون دولار في يناير 2026 لخدمة المشروع تجارياً.
الابتكار التأسيسي في vLLM هو PagedAttention، الذي يستعير من إدارة الذاكرة الافتراضية لأنظمة التشغيل لتقسيم ذاكرة KV إلى كتل غير متجاورة، مما يقلل من هدر ذاكرة GPU بنسبة تصل إلى 80%. أعادت بنية V1 (الافتراضية منذ v0.8.0) هيكلة المحرك إلى بنية متعددة العمليات مع جدولة معزولة، ونواة المحرك، وعمال GPU يتواصلون عبر ZeroMQ — مما يوفر إنتاجية أعلى بنسبة تصل إلى 1.7 مرة من التصميم الأصلي.
يمتلك vLLM أوسع دعم للنماذج والأجهزة: نماذج النصوص (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4)، نماذج الرؤية واللغة، والنماذج الصوتية. يمتد دعم الأجهزة ليشمل NVIDIA، و AMD ROCm، و Intel XPU، و Google TPU، و AWS Trainium، ومعالجات ARM، وحواسيب IBM Z المركزية.
الإيجابيات
- المعيار الصناعي — حوالي 75 ألف نجمة على GitHub، وأكثر من 200 مساهم في كل إصدار، وأكبر نظام بيئي للدروس والأدلة.
- أوسع توافق — دعم لمزيد من بنيات النماذج والأجهزة أكثر من أي محرك آخر.
- مثبت في الإنتاج — تم اختباره على نطاق واسع في (Amazon, Roblox, Stripe, Meta).
- بنية V1 — تحسينات بدون تكوين، تخزين مؤقت تلقائي للبادئات، وجدولة غير متزامنة أدت إلى تحسين الإنتاجية بنسبة 30.8%.
- واجهة برمجة تطبيقات متوافقة مع OpenAI — بديل جاهز لنقاط نهاية OpenAI.
- دعم قوي لـ Kubernetes — يتوفر Production Stack الرسمي لمشاريع الخدمة المفككة.
- يتوسع في التزامن الشديد — التوجيه بلغة C++ يعالج أكثر من 150 طلباً متزامناً بشكل أفضل من البدائل القائمة على Python.
السلبيات
- إنتاجية أبطأ بنسبة ~29% من SGLang في اختبارات الدفعات مع أعباء العمل ذات البادئات المشتركة.
- تخزين مؤقت أقل كفاءة للبادئات — يفتقر PagedAttention إلى إعادة استخدام البادئات القائمة على radix-tree كما في SGLang.
- وتيرة تطوير سريعة — أحياناً تتجاوز الاستقرار؛ أدت الهجرة إلى V1 إلى إزالة بعض الميزات مؤقتاً.
- يركز على GPU — أداء محدود عند العودة إلى CPU.
- مخرجات هيكلية — أبطأ من واجهة xgrammar في SGLang لفك التشفير المقيد.
MAX (Modular)
GitHub: modular/modular (~25.6K stars) · الترخيص: Apache 2.0 + LLVM Exceptions (النواة، المكتبة القياسية، البنيات)؛ Modular Community License (المترجم) · أحدث نسخة: v26.2 (مارس 2026) · الموقع: Modular
الوصف
يتخذ MAX نهجاً مختلفاً تماماً عن vLLM و SGLang. بينما تعتمد المحركات الأخرى على مكتبات CUDA، فإن MAX هو مكدس الاستنتاج الوحيد المتكامل عمودياً والمبني بدون الاعتماد على CUDA — من نواة GPU (Mojo) إلى خدمة النماذج (MAX Serve) إلى تنسيق المجموعات (BentoML + Modular Cloud)، تم بناء خط أنابيب الاستنتاج بالكامل من الصفر على MLIR.
ملاحظة: MAX كمنصة هو أوسع من مجرد محرك خدمة — فهو يتضمن واجهة تطوير نماذج تشبه PyTorch. MAX Serve هو مكون خدمة الاستنتاج الذي ينافس vLLM و SGLang.
تم بناء MAX بواسطة Modular AI — التي أسسها في عام 2022 Chris Lattner (مبتكر LLVM و Swift) و Tim Davis (المشارك في ابتكار TensorFlow Lite) — مع جمع 380 مليون دولار وتقييم 1.6 مليار دولار. لغة Mojo تتيح إنشاء أنوية مستقلة عن الأجهزة تستهدف NVIDIA و AMD و Apple Silicon و CPU من قاعدة كود واحدة.
في فبراير 2026، استحوذت Modular على BentoML، مما وسع المكدس ليشمل نشر الإنتاج وتنسيق السحابة. يدعم MAX أكثر من 500 نموذج من Hugging Face، بما في ذلك النصوص والرؤية وتوليد الصور (FLUX).
الإيجابيات
- المكدس الوحيد المبني بالكامل بدون CUDA — أنوية Mojo تحل محل cuBLAS و cuDNN بقاعدة كود واحدة محمولة.
- إنتاجية تنافسية أو متفوقة — في اختبارات NVIDIA L40، كان MAX أسرع بنسبة 16% من vLLM مع زمن وصول أقل بكثير للرمز الأول (TTFT).
- أقل زمن وصول للذيل (Tail Latency) — p99 TTFT يبلغ 13.1ms مقابل 23.6ms لـ vLLM.
- قابل للنقل عبر الأجهزة — تُترجم أنوية Mojo إلى NVIDIA و AMD و Apple Silicon و CPU من كود واحد.
- أصغر حجم للحاويات — صور Docker أقل من 700 ميجابايت، أخف بكثير من vLLM أو SGLang.
- توليد صور متطور — يخدم MAX نماذج الانتشار (FLUX.2, SDXL) أصلياً بجانب LLMs مع استنتاج أسرع بـ 4.1 مرة.
- جذور مفتوحة المصدر عميقة — بقيادة Chris Lattner؛ نفس النهج المجتمعي الذي جعل LLVM معياراً يتم تطبيقه الآن على MAX و Mojo.
السلبيات
- أداء يعتمد على الأجهزة — يتفوق على NVIDIA B200 ولكنه يختلف عبر أجيال GPUs الأخرى.
- مترجم Mojo ليس مفتوح المصدر بعد — ملتزمون بفتح مصدره في عام 2026 مع إطلاق Mojo 1.0.
- نظام بيئي أصغر — اختبارات أقل في الإنتاج مقارنة بـ vLLM؛ بنيات نماذج مدعومة أقل.
- منحنى تعلم Mojo — على الرغم من تشابهه مع Python، إلا أن تطوير أنوية GPU المتقدمة يتطلب تعلم مفاهيم جديدة.
- ميزات محجوزة للسحابة — ميزات مثل التوجيه القائم على ذاكرة KV والقياس التلقائي متوفرة فقط عبر Modular Cloud.
مقارنة مباشرة
| الميزة | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| نجوم GitHub | ~25,000 | ~75,000 | ~25,600 |
| الترخيص | Apache 2.0 | Apache 2.0 | Apache 2.0 (النواة/الخدمة)؛ Community (المترجم) |
| الكيان التجاري | RadixArk | Inferact | Modular AI |
| الابتكار الأساسي | RadixAttention | PagedAttention | مترجم MLIR متكامل، لا يعتمد على CUDA |
| الإنتاجية (H100) | ~16,200 tok/s | ~12,500 tok/s | تنافسية (حسب الجهاز) |
| إعادة استخدام البادئات | الأفضل (زيادة 10–20%) | جيد | جيد |
| سرعة المخرجات الهيكلية | الأسرع (3–10 مرات) | قياسي | قياسي |
| p99 TTFT | ~18ms | ~23.6ms | ~13.1ms (الأفضل) |
| توسع الطلبات المتزامنة | محدود بـ GIL فوق 150 | الأفضل (توجيه C++) | جيد |
| دعم الأجهزة | NVIDIA, AMD, TPU, Intel, Apple | NVIDIA, AMD, Intel, TPU, ARM | NVIDIA, AMD, Apple, CPU |
| حجم الحاوية | ~5–8 GB | ~5–8 GB | <700 MB |
| دعم TTS / الصوت | نعم (Fish Audio S2) | نعم (vLLM-Omni) | محدود |
متى تستخدم كل منها
اختر SGLang إذا كنت تقوم بالتحسين لروبوتات الدردشة متعددة الأدوار، أو سلاسل RAG، أو مخرجات JSON الهيكلية، أو خدمة TTS (خاصة مع Fish Audio S2). توفر RadixAttention ميزات أداء ملموسة في هذه الأعباء.
اختر vLLM إذا كنت بحاجة إلى الخيار الأكثر أماناً واختباراً في الإنتاج مع أوسع توافق مع النماذج والأجهزة. إنه الخيار الأقل مخاطرة لخدمة LLM العامة على نطاق واسع.
اختر MAX إذا كنت تدير بيئات متعددة الأجهزة (NVIDIA + AMD + CPU)، أو تهتم بحجم الحاوية والبساطة التشغيلية، أو ترغب في تطوير أنوية مخصصة باستخدام Mojo.
ما الذي يشكل الاستنتاج في عام 2026
هناك ثلاثة اتجاهات تعيد تشكيل المشهد التنافسي:
تفكيك مرحلتي التجهيز وفك التشفير (Disaggregated prefill/decode) انتقل من مرحلة التجريب إلى المعيار الأساسي، مما يسمح بتوسيع كل مرحلة بشكل مستقل لتحسين الكفاءة.
الخدمة متعددة الوسائط تتوسع بسرعة، حيث تدعم المحركات الآن نماذج توليد الصور و TTS بجانب النصوص، مما يزيل الفوارق بين "محرك LLM" و "خادم النماذج العام".
التوحيد التجاري يتسارع، حيث تؤكد التقييمات المليارية لشركات مثل Modular و RadixArk أن الاستنتاج مفتوح المصدر قد دخل مرحلة النضج المؤسسي. تظل SGLang و vLLM و MAX المحركات الثلاثة الأساسية التي تقود الطريق نحو نهاية عام 2026.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
اقرأ المزيد من Sabrina Shu
