مقارنة بين محركات استدلال LLM مفتوحة المصدر: SGLang و vLLM و MAX و BentoML لعام 2026
مع انتقال نماذج الذكاء الاصطناعي من مرحلة البحث إلى الإنتاج، يحدد محرك الاستدلال الذي تختاره مستويات زمن الاستجابة (latency)، والإنتاجية (throughput)، وتكلفة البنية التحتية. لقد تبلور النظام البيئي مفتوح المصدر حول ثلاثة منافسين جديين - لكل منهم فلسفة معمارية متميزة ومجموعة من المفايضات (trade-offs).
يستعرض هذا المنشور محركات SGLang و vLLM و MAX (Modular) - وهي المحركات الثلاثة الأكثر أهمية مع اقتراب نهاية عام 2026. سنغطي وظيفة كل منها، ومواطن قوتها، وعيوبها، وكيفية مقارنتها وجهاً لوجه.
SGLang
GitHub: sgl-project/sglang (~25 ألف نجمة) · الترخيص: Apache 2.0 · أحدث إصدار: v0.5.9 (فبراير 2026)
الوصف
SGLang (Structured Generation Language) هو إطار عمل عالي الأداء لخدمة نماذج اللغة الكبيرة (LLMs) والنماذج متعددة الوسائط، تم تطويره في الأصل في مختبر Sky Computing بجامعة كاليفورنيا في بيركلي بواسطة فريق LMSYS.org. في يناير 2026، انفصل مشروع SGLang ليصبح RadixArk، وهي شركة ناشئة تجارية تقدر قيمتها بنحو 400 مليون دولار في جولة بقيادة Accel - مع استثمار ملائكي من الرئيس التنفيذي لشركة Intel، ليب-بو تان. وقد شغل المؤسس المشارك والرئيس التنفيذي يينغ شنغ سابقاً منصب عالم أبحاث في xAI.
الابتكار الأساسي في SGLang هو RadixAttention، الذي يستخدم بنية بيانات شجرة الجذر (radix tree) لإعادة استخدام ذاكرة التخزين المؤقت KV بشكل تلقائي ودقيق. وهذا يجعلها سريعة بشكل استثنائي في المحادثات متعددة الأدوار، وخطوط أنابيب RAG، وأي عبء عمل يحتوي على بادئات مشتركة. ويعد محرك المخرجات المهيكلة (xgrammar backend) الأسرع في المصادر المفتوحة، حيث يوفر فك تشفير JSON أسرع بـ 10 مرات من البدائل.
يعمل SGLang الآن على أكثر من 400,000 وحدة معالجة رسومات (GPU) حول العالم ويولد تريليونات الرموز يومياً، مع مستخدمين بارزين في مرحلة الإنتاج بما في ذلك xAI (كمحرك LLM الافتراضي لديها)، و AMD، و NVIDIA، و LinkedIn، و Cursor.
Fish Audio S2 و SGLang: نموذج S2 من Fish Audio - وهو معمارية TTS مزدوجة الانحدار الذاتي (Dual-Autoregressive) بسعة 4 مليار معلمة ومدرب على أكثر من 10 ملايين ساعة من الصوت متعدد اللغات - متماثل هيكلياً مع نماذج LLM القياسية للانحدار الذاتي. وهذا يعني أنه يرث تلقائياً جميع تحسينات SGLang: الدفعات المستمرة (continuous batching)، وذاكرة KV المقسمة (paged KV cache)، وإعادة تشغيل CUDA graph، و RadixAttention. بالنسبة لأعباء عمل استنساخ الصوت، يقوم RadixAttention بتخزين حالات KV للصوت المرجعي مؤقتاً، محققاً متوسط معدل إصابة لذاكرة التخزين المؤقت للبادئة بنسبة 86.4% - وهو مكسب هائل في الكفاءة لخدمة TTS في مرحلة الإنتاج. أطلقت Fish Audio نموذج S2 مفتوح المصدر مع دعم من الدرجة الأولى لـ SGLang.
المميزات
- أفضل إنتاجية في فئتها — أسرع بنسبة ~29% من vLLM في معايير إنتاجية الدفعات (H100، Llama 3.1 8B، 1000 مطالبة ShareGPT: ~16,200 رمز/ثانية مقابل ~12,500 رمز/ثانية).
- RadixAttention يوفر تسريعاً بنسبة 10-20% في الدردشة متعددة الأدوار وما يصل إلى 6.4 ضعف في أعباء عمل RAG الكثيفة بالبادئات.
- أسرع مخرجات مهيكلة — محرك xgrammar أسرع بـ 3-10 مرات من البدائل لفك تشفير JSON/القواعد المقيدة.
- دعم واسع للأنماط — أكثر من 60 عائلة LLM، وأكثر من 30 نموذجاً متعدد الوسائط، ونماذج التضمين/المكافأة، ونماذج الانتشار (الصور والفيديو، أسرع بـ 5 مرات)، و TTS (Fish Audio S2).
- تكامل قوي مع RL — إطار عمل Miles (من RadixArk) لحلقات تدريب التعلم المعزز.
- دعم واسع للأجهزة — NVIDIA (GB200 ← RTX 4090)، و AMD MI300X/MI355، و Google TPU (عبر SGLang-Jax)، و Intel Xeon، و Ascend NPU، و Apple Silicon (MLX).
- وتيرة إصدارات نشطة — دورة إصدار كل 3 أسابيع تقريباً، وسرعة في دعم النماذج الجديدة (الأول في تشغيل DeepSeek R1 على نطاق واسع مع فصل P/D على 96 وحدة H100).
العيوب
- مجتمع أصغر — ~25 ألف نجمة على GitHub مقابل ~75 ألف لـ vLLM؛ تكاملات وبرامج تعليمية أقل من أطراف ثالثة.
- يدعم Linux فقط — يتطلب WSL على Windows؛ لا توجد خدمة GPU أصلية لنظام macOS.
- عنق زجاجة Python GIL — يواجه موجه الطلبات حدود التوسع فوق ~150 طلباً متزامناً.
- دعم محدود لـ GGUF — ليس مثالياً لنشر النماذج المكممة على الأجهزة الطرفية مقارنة بـ llama.cpp.
- الاستقرار — مشكلات عرضية في تبعيات إصدارات المرشحة؛ أقل اختباراً في حالات الاستخدام المؤسسية المعقدة والنادرة.
vLLM
GitHub: vllm-project/vllm (~75 ألف نجمة) · الترخيص: Apache 2.0 · أحدث إصدار: v0.19.0 (أبريل 2026)
الوصف
يُعد vLLM محرك خدمة LLM مفتوح المصدر الأكثر اعتماداً والمعيار الواقعي في الصناعة. يدعم أنظمة الإنتاج في Amazon (Rufus، الذي يخدم 250 مليون عميل)، و LinkedIn، و Roblox (4 مليارات رمز أسبوعياً)، و Meta، و Mistral AI، و IBM، و Stripe (التي أبلغت عن خفض تكاليف الاستدلال بنسبة 73%). شكل الفريق الذي يقف وراء vLLM شركة Inferact، حيث جمع 150 مليون دولار في يناير 2026 لتسويق المشروع.
الابتكار الأساسي في vLLM هو PagedAttention، الذي يستعير من إدارة الذاكرة الافتراضية لنظام التشغيل لتقسيم مخازن KV المؤقتة إلى كتل غير متجاورة، مما يقلل من هدر ذاكرة وحدة معالجة الرسومات (GPU) بنسبة تصل إلى 80%. أدت إعادة كتابة المعمارية V1 (الافتراضية منذ v0.8.0، لتحل محل V0 بالكامل بحلول الربع الثالث من عام 2025) إلى تحويل المحرك إلى معمارية متعددة العمليات مع جدولة معزولة، ونواة محرك، وعمال GPU يتواصلون عبر ZeroMQ - مما يوفر إنتاجية أعلى بـ 1.7 مرة من التصميم الأصلي.
يمتلك vLLM أوسع دعم للنماذج والأجهزة بين جميع المحركات: نماذج النصوص (Llama 3/4، Qwen 3، DeepSeek V3، Gemma 4، GPT-OSS)، ونماذج الرؤية واللغة (InternVL، Qwen2.5-VL، Pixtral)، ونماذج الصوت (Qwen3-ASR/Omni)، ونماذج التضمين. يوسع مشروع vLLM-Omni المنفصل الدعم ليشمل نماذج الانتشار و TTS. تشمل الأجهزة NVIDIA، و AMD ROCm، و Intel XPU/Gaudi، و Google TPU، و AWS Trainium، ومعالجات ARM، وحواسيب IBM Z المركزية.
المميزات
- المعيار الصناعي — ~75 ألف نجمة على GitHub، أكثر من 200 مساهم في كل إصدار، وأكبر نظام بيئي من البرامج التعليمية والأدلة والتكاملات.
- أوسع توافق — يدعم معماريات نماذج وواجهات أجهزة أكثر من أي محرك آخر.
- مثبت في الإنتاج — تم اختباره على نطاق واسع في أنظمة ضخمة (Amazon، Roblox، Stripe، Meta).
- معمارية V1 — تحسينات بدون تكوين، تخزين مؤقت تلقائي للبادئات، وملء مسبق موحد؛ أضاف الإصدار v0.16.0 جدولة غير متزامنة مع تحسن بنسبة 30.8% في الإنتاجية.
- واجهة برمجة تطبيقات متوافقة مع OpenAI — بديل جاهز لنقاط نهاية OpenAI.
- دعم قوي لـ Kubernetes — حزمة الإنتاج الرسمية + مشروع llm-d (Red Hat، Google Cloud، IBM، NVIDIA) للخدمة المنفصلة.
- يتوسع عند التزامن الشديد — يتعامل توجيه C++ مع أكثر من 150 طلباً متزامناً بشكل أفضل من البدائل القائمة على Python.
العيوب
- إنتاجية أبطأ بنسبة ~29% من SGLang في معايير الدفعات مع أعباء العمل ذات البادئات المشتركة.
- تخزين مؤقت أقل كفاءة للبادئات — يفتقر PagedAttention إلى إعادة استخدام البادئات التلقائية القائمة على شجرة الجذر الموجودة في SGLang.
- سرعة التطوير الكبيرة — قد تتجاوز أحياناً مستوى الاستقرار؛ أزالت الهجرة إلى V1 بعض الميزات (best_of، ومعالجات logits لكل طلب).
- يركز على GPU — أداء محدود عند التراجع إلى المعالجة المركزية (CPU).
- المخرجات المهيكلة — أبطأ من xgrammar الخاص بـ SGLang لفك التشفير المقيد.
MAX (Modular)
GitHub: modular/modular (~25.6 ألف نجمة) · الترخيص: Apache 2.0 + LLVM Exceptions · أحدث إصدار: v26.2 (مارس 2026) · الموقع الإلكتروني: Modular
الوصف
يتخذ MAX نهجاً مختلفاً جوهرياً عن vLLM و SGLang. تم بناؤه بواسطة Modular AI - الشركة التي أسسها كريس لاتنر (مبتكر LLVM و Swift) والتي جمعت 380 مليون دولار بتقييم 1.6 مليار دولار - ويستخدم MAX مجموعة مترجمات مخصصة حيث تتم كتابة جميع نوى (kernels) وحدة معالجة الرسومات بلغة Mojo، وهي لغة برمجة الأنظمة من Modular المبنية على MLIR. يتيح ذلك نوى مستقلة عن الأجهزة تستهدف NVIDIA و AMD و CPU من قاعدة كود واحدة، مع صور Docker يقل حجمها عن 1 جيجابايت.
فتحت Modular المصدر لأكثر من 450,000 سطر من كود نوى Mojo طوال عام 2025 بموجب ترخيص Apache 2.0 مع استثناءات LLVM. في فبراير 2026، استحوذت Modular على BentoML (إطار عمل نشر النماذج مفتوح المصدر المستخدم من قبل أكثر من 10,000 منظمة)، وقامت بدمج قدراتها في التغليف، والدفعات التكيفية، وتنسيق Kubernetes في منصة MAX. يغطي العرض المشترك الاستدلال (MAX)، والنشر (BentoML)، والتنسيق المؤسسي (منصة Mammoth).
يدعم MAX أكثر من 500 نموذج من Hugging Face، بما في ذلك النصوص، والرؤية واللغة (Qwen2.5-VL، Kimi VL، Gemma 3/4)، وتوليد الصور (FLUX). تعمل مجموعة معايير InferenceMAX، التي تم تطويرها بالتعاون مع SemiAnalysis، ليلياً عبر مئات وحدات معالجة الرسومات لتوفير بيانات أداء محدثة ومحايدة في inferencemax.ai.
المميزات
- إنتاجية تنافسية أو متفوقة — على NVIDIA L40 مع Qwen3-8B: أكمل MAX معالجة 500 مطالبة في 50.6 ثانية مقابل 54.2 ثانية لـ SGLang و 58.9 ثانية لـ vLLM (أسرع بنسبة 16% من vLLM)؛ وعلى Vast.ai مع Llama 3.1 8B: حقق 89.9 رمز/ثانية مقابل 75.9 لـ vLLM (أسرع بنسبة 18%) مع نصف زمن وصول أول رمز (TTFT) تقريباً.
- أقل زمن استجابة للذيل (tail latency) — زمن وصول أول رمز p99 يبلغ 13.1 مللي ثانية مقابل 23.6 مللي ثانية لـ vLLM في معايير L40.
- قابلية النقل بين الأجهزة — يتم تجميع نوى Mojo لتعمل على NVIDIA و AMD و CPU من كود واحد؛ لا حاجة لصيانة تطبيقات CUDA/ROCm منفصلة.
- أصغر بصمة للحاويات — صور Docker يقل حجمها عن 1 جيجابايت، وهي أخف بكثير من vLLM أو SGLang.
- منصة متكاملة — يضيف الاستحواذ على BentoML الدفعات التكيفية، وتغليف OCI، و BentoCloud بدون خادم، ونشر BYOC.
- تطوير نوى مخصصة — وضع مشابه لـ PyTorch مع
model.compile()لكتابة نوى Mojo مخصصة؛ حققت نوى matmul أداء 1,772 TFLOPS على B200. - تمويل بقيمة 380 مليون دولار — رأس مال جيد مع فريق هندسي قوي (337 موظفاً).
العيوب
- أداء يعتمد على الجهاز — يتفوق على A100/L40S ولكنه يؤدي بشكل أقل من vLLM على وحدات معالجة الرسومات H20 و L20؛ ليس الأسرع عالمياً.
- مترجم Mojo لا يزال مغلق المصدر — الالتزام بفتح المصدر بنهاية عام 2026، ولكنه غير متاح بعد؛ مما يحد من التخصيص العميق ومساهمة المجتمع في المترجم نفسه.
- نظام بيئي أحدث — اختبارات أقل في بيئات الإنتاج مقارنة بـ vLLM؛ تطبيقات نماذج أقل صيانة من قبل المجتمع.
- عدد أقل من المعماريات المدعومة — دعم أكثر من 500 نموذج أمر مثير للإعجاب ولكنه لا يزال أضيق من vLLM/SGLang للنماذج المتطورة أو المتخصصة.
- منحنى تعلم أكثر حدة — Mojo لغة جديدة؛ تحتاج الفرق إلى الاستثمار في تعلمها لتطوير نوى مخصصة.
مقارنة مباشرة
| الميزة | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| نجوم GitHub | ~25,000 | ~75,000 | ~25,600 |
| الترخيص | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. |
| الكيان التجاري | RadixArk (تقييم 400 مليون دولار) | Inferact (تمويل 150 مليون دولار) | Modular AI (تقييم 1.6 مليار دولار) |
| الابتكار الأساسي | RadixAttention (ذاكرة KV بنظام شجرة الجذر) | PagedAttention (ذاكرة KV افتراضية) | نوى مترجم Mojo (MLIR) |
| إنتاجية الدفعات (H100, Llama 3.1 8B) | ~16,200 رمز/ثانية | ~12,500 رمز/ثانية | تنافسي (يعتمد على الأجهزة) |
| إعادة استخدام البادئة / الأدوار المتعددة | الأفضل (زيادة 10-20%، حتى 6.4 ضعف) | جيد (تلقائي منذ V1) | جيد |
| سرعة المخرجات المهيكلة | الأسرع (xgrammar، 3-10 أضعاف) | قياسي | قياسي |
| p99 TTFT (L40, Qwen3-8B) | ~18 مللي ثانية | ~23.6 مللي ثانية | ~13.1 مللي ثانية (الأفضل) |
| توسع الطلبات المتزامنة | محدود بـ GIL فوق ~150 | الأفضل (توجيه C++) | جيد |
| دعم النماذج | أكثر من 60 عائلة LLM، 30+ متعدد الوسائط، انتشار، TTS | الأوسع (نص، رؤية، صوت، تضمين، Omni) | 500+ نموذج HuggingFace |
| دعم الأجهزة | NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, CPU |
| Kubernetes / النشر | مدفوع بالمجتمع | Production Stack + llm-d | Mammoth + BentoML |
| حجم الحاوية | ~5–8 جيجابايت | ~5–8 جيجابايت | أقل من 1 جيجابايت |
| تطوير النوى المخصصة | امتدادات FlashInfer | امتدادات C++/CUDA | Mojo (سهولة تشبه PyTorch) |
| دعم نماذج الانتشار | نعم (SGLang-Diffusion، نوفمبر 2025) | نعم (vLLM-Omni، نوفمبر 2025) | نعم (FLUX) |
| خدمة TTS / الصوت | نعم (Fish Audio S2) | نعم (vLLM-Omni, Fish Speech) | محدود |
| تكامل تدريب RL | نعم (Miles بواسطة RadixArk) | لا | لا |
| فك التشفير التخميني | نعم | نعم (Roblox: خفض زمن الاستجابة 50%) | نعم |
| فصل الملء المسبق/فك التشفير | نعم (في الإنتاج على 96 وحدة H100) | نعم (مشروع llm-d) | محدود |
متى تستخدم كل منها
اختر SGLang إذا كنت تعمل على تحسين روبوتات الدردشة متعددة الأدوار، أو خطوط أنابيب RAG، أو مخرجات JSON المهيكلة، أو خدمة TTS (خاصة مع Fish Audio S2). توفر ميزتا RadixAttention و xgrammar في SGLang مزايا أداء ملموسة في أعباء العمل هذه، ويضمن الدعم التجاري من RadixArk استقراراً طويل الأمد.
اختر vLLM إذا كنت بحاجة إلى الخيار الأكثر أماناً واختباراً في بيئات الإنتاج مع أوسع توافق للنماذج والأجهزة. إن مجتمع vLLM الذي يضم 75 ألف نجمة، واعتماد المؤسسات له (Amazon، Roblox، Stripe)، ودعمه الشامل لـ Kubernetes يجعله الخيار الأقل مخاطرة لخدمة LLM للأغراض العامة على نطاق واسع.
اختر MAX إذا كنت تدير بيئات متعددة الأجهزة (NVIDIA + AMD + CPU)، أو تهتم بحجم الحاوية وبساطة العمليات، أو ترغب في الاستثمار في تطوير نوى مخصصة باستخدام Mojo. يوفر نهج MAX المعتمد على المترجم مرونة فريدة، والاستحواذ على BentoML يمنحه منصة النشر الأكثر اكتمالاً بين الثلاثة.
ما الذي يشكل ملامح الاستدلال في عام 2026
هناك ثلاثة اتجاهات تعيد تشكيل المشهد التنافسي:
لقد انتقل فصل عمليات الملء المسبق وفك التشفير (Disaggregated prefill/decode) من المرحلة التجريبية إلى المعيار القياسي. أظهر SGLang فصلاً (P/D) على نطاق الإنتاج باستخدام 96 وحدة H100 لنموذج DeepSeek؛ ويدفع مشروع llm-d التابع لـ vLLM (بالتعاون مع Red Hat و Google Cloud و IBM و NVIDIA) نحو الفصل الأصلي في Kubernetes؛ كما يتكامل منسق Dynamo من NVIDIA مع جميع المحركات الرئيسية.
الخدمة متعددة الوسائط تتوسع بسرعة. تم إطلاق vLLM-Omni و SGLang-Diffusion في أواخر عام 2025، لدعم نماذج الانتشار و TTS جنباً إلى جنب مع نماذج LLM التقليدية. لقد بدأت الحدود تتلاشى بين "محرك LLM" و "خادم النماذج العام".
الاندماج التجاري يتسارع. تؤكد تقييمات RadixArk (400 مليون دولار)، وتمويل Inferact (150 مليون دولار لـ vLLM)، و Modular (تقييم 1.6 مليار دولار + الاستحواذ على BentoML) أن الاستدلال مفتوح المصدر قد دخل مرحلة تحقيق العوائد للمؤسسات. دخل محرك HuggingFace TGI في وضع الصيانة - تاركاً SGLang و vLLM و MAX كمحركات الاستدلال مفتوحة المصدر الأساسية مع توجهنا نحو أواخر عام 2026.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
اقرأ المزيد من Sabrina Shu
