Сравнение open-source движков для инференса LLM: SGLang, vLLM, MAX и BentoML 2026
По мере того как модели ИИ переходят из стадии исследований в продакшн, выбранный вами движок инференса определяет задержку (latency), пропускную способность (throughput) и стоимость инфраструктуры. Open-source экосистема сконцентрировалась вокруг трех серьезных претендентов, каждый из которых обладает своей архитектурной философией и набором компромиссов.
В этой статье мы подробно разберем SGLang, vLLM и MAX (Modular) — три движка, которые имеют наибольшее значение в конце 2026 года. Мы рассмотрим возможности каждого из них, их сильные и слабые стороны, а также проведем прямое сравнение.
SGLang
GitHub: sgl-project/sglang (~25K звезд) · Лицензия: Apache 2.0 · Последняя версия: v0.5.9 (февраль 2026)
Описание
SGLang (Structured Generation Language) — это высокопроизводительный фреймворк для обслуживания LLM и мультимодальных моделей, изначально разработанный в Sky Computing Lab Калифорнийского университета в Беркли командой LMSYS.org. В январе 2026 года проект SGLang выделился в RadixArk, коммерческий стартап с оценкой около 400 млн долларов в раунде под руководством Accel, с ангельскими инвестициями от генерального директора Intel Ли-Бу Тана. Соучредитель и генеральный директор Ин Шэн ранее работал исследователем в xAI.
Ключевой инновацией SGLang является RadixAttention, которая использует структуру данных префиксного дерева (radix tree) для автоматического и точного повторного использования KV-кеша. Это делает движок исключительно быстрым для многоходовых диалогов, RAG-конвейеров и любых рабочих нагрузок с общими префиксами. Его движок структурированного вывода (бэкенд xgrammar) является самым быстрым среди открытых решений, обеспечивая декодирование JSON до 10 раз быстрее аналогов.
SGLang сегодня работает на 400 000+ GPU по всему миру и генерирует триллионы токенов ежедневно. Среди известных пользователей в продакшне — xAI (в качестве основного движка LLM), AMD, NVIDIA, LinkedIn и Cursor.
Fish Audio S2 и SGLang: Модель S2 от Fish Audio — это 4B-параметрическая архитектура Dual-Autoregressive TTS, обученная на 10 млн+ часах многоязычного аудио — структурно изоморфна стандартным авторегрессионным LLM. Это означает, что она нативно наследует все оптимизации SGLang: непрерывный батчинг (continuous batching), постраничный KV-кеш, CUDA graph replay и RadixAttention. Для задач клонирования голоса RadixAttention кеширует KV-состояния эталонного аудио, достигая среднего коэффициента попадания в кеш префиксов 86,4%, что дает колоссальный прирост эффективности для обслуживания TTS в продакшне. Fish Audio выпустила S2 в открытый доступ с первоклассной поддержкой SGLang.
Плюсы
- Лучшая в своем классе пропускная способность — примерно на 29% быстрее vLLM в бенчмарках пакетной обработки (H100, Llama 3.1 8B, ShareGPT 1K промптов: ~16 200 ток/с против ~12 500 ток/с).
- RadixAttention обеспечивает ускорение на 10–20% в многоходовых чатах и до 6,4 раз в RAG-нагрузках с тяжелыми префиксами.
- Самый быстрый структурированный вывод — бэкенд xgrammar в 3–10 раз быстрее альтернатив при декодировании JSON/грамматик с ограничениями.
- Широкая поддержка модальностей — более 60 семейств LLM, 30+ мультимодальных моделей, модели эмбеддингов/reward-модели, диффузионные модели (изображения и видео, до 5 раз быстрее) и TTS (Fish Audio S2).
- Сильная интеграция с RL — фреймворк Miles (от RadixArk) для циклов обучения с подкреплением.
- Широкая поддержка оборудования — NVIDIA (от GB200 до RTX 4090), AMD MI300X/MI355, Google TPU (через SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX).
- Активный цикл релизов — обновления каждые ~3 недели, быстрая поддержка новых моделей (первыми запустили DeepSeek R1 в масштабе с P/D-дезагрегацией на 96 H100).
Минусы
- Меньшее сообщество — ~25K звезд на GitHub против ~75K у vLLM; меньше сторонних интеграций и учебных пособий.
- Только для Linux — на Windows требуется WSL; нет нативного обслуживания на GPU macOS.
- Ограничение Python GIL — роутер запросов достигает пределов масштабирования выше ~150 параллельных запросов.
- Ограниченная поддержка GGUF — не идеален для развертывания квантованных моделей на периферии по сравнению с llama.cpp.
- Стабильность — периодические проблемы с зависимостями в релиз-кандидатах; менее проверен в экстремальных корпоративных сценариях.
vLLM
GitHub: vllm-project/vllm (~75K звезд) · Лицензия: Apache 2.0 · Последняя версия: v0.19.0 (апрель 2026)
Описание
vLLM — самый широко используемый open-source движок для инференса LLM и фактический стандарт индустрии. Он обеспечивает работу систем в Amazon (Rufus, обслуживание 250 млн клиентов), LinkedIn, Roblox (4 млрд токенов в неделю), Meta, Mistral AI, IBM и Stripe (сообщившей о снижении затрат на инференс на 73%). Команда разработчиков vLLM основала компанию Inferact, привлеков 150 млн долларов в январе 2026 года для коммерциализации проекта.
Фундаментальной инновацией vLLM является PagedAttention, заимствующая принципы управления виртуальной памятью ОС для разделения KV-кеша на несмежные блоки, что сокращает потери памяти GPU до 80%. Переработка архитектуры V1 (по умолчанию с v0.8.0, полностью заменяющая V0 к третьему кварталу 2025 года) перевела движок на многопроцессорную архитектуру с изолированным планировщиком, ядром движка и рабочими процессами GPU, взаимодействующими через ZeroMQ, что обеспечило до 1,7 раз более высокую пропускную способность по сравнению с первоначальным дизайном.
vLLM обладает самой широкой поддержкой моделей и оборудования: текстовые LLM (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), визуально-языковые модели (InternVL, Qwen2.5-VL, Pixtral), аудио-модели (Qwen3-ASR/Omni) и модели эмбеддингов. Отдельный проект vLLM-Omni расширяет поддержку на диффузионные и TTS-модели. Поддерживаемое оборудование включает NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, процессоры ARM и мейнфреймы IBM Z.
Плюсы
- Индустриальный стандарт — ~75K звезд на GitHub, 200+ контрибьюторов в каждом релизе, крупнейшая экосистема туториалов и интеграций.
- Самая широкая совместимость — больше поддерживаемых архитектур моделей и аппаратных бэкендов, чем у любого другого движка.
- Проверено в продакшне — испытан в огромных масштабах (Amazon, Roblox, Stripe, Meta).
- Архитектура V1 — оптимизации без настройки (zero-config), автоматическое кеширование префиксов, унифицированный chunked prefill; в v0.16.0 добавлено асинхронное планирование с улучшением пропускной способности на 30,8%.
- OpenAI-совместимый API — замена эндпоинтов OpenAI «из коробки».
- Отличная работа с Kubernetes — официальный Production Stack + проект llm-d (Red Hat, Google Cloud, IBM, NVIDIA) для дезагрегированного обслуживания.
- Масштабирование при высокой конкурентности — маршрутизация на C++ обрабатывает 150+ одновременных запросов лучше, чем альтернативы на Python.
Минусы
- Пропускная способность ниже на ~29%, чем у SGLang в бенчмарках пакетной обработки с общими префиксами.
- Менее эффективное кеширование префиксов — PagedAttention не хватает автоматического повторного использования на основе префиксного дерева, как в SGLang.
- Стремительный темп разработки — иногда стабильность не поспевает за скоростью; миграция на V1 убрала некоторые функции (best_of, кастомные logits processors на запрос).
- Ориентирован на GPU — ограниченная производительность при переключении на CPU.
- Структурированный вывод — медленнее, чем xgrammar в SGLang.
MAX (Modular)
GitHub: modular/modular (~25.6K звезд) · Лицензия: Apache 2.0 + LLVM Exceptions · Последняя версия: v26.2 (март 2026) · Сайт: Modular
Описание
MAX использует принципиально иной подход по сравнению с vLLM и SGLang. Созданный компанией Modular AI — основанной Крисом Латтнером (создателем LLVM и Swift) и привлекшей 380 млн долларов при оценке в 1,6 млрд долларов — MAX использует собственный стек компилятора, где все ядра GPU написаны на Mojo, языке системного программирования Modular на базе MLIR. Это позволяет создавать аппаратно-независимые ядра для NVIDIA, AMD и CPU из единой кодовой базы, а размер Docker-образов не превышает 1 ГБ.
Modular открыла более 450 000 строк кода ядер Mojo в течение 2025 года под лицензией Apache 2.0 с исключениями LLVM. В феврале 2026 года Modular приобрела BentoML (фреймворк для развертывания моделей с открытым исходным кодом, используемый более чем 10 000 организаций), интегрировав его механизмы упаковки, адаптивного батчинга и оркестрации Kubernetes в платформу MAX. Объединенное предложение охватывает инференс (MAX), развертывание (BentoML) и корпоративную оркестрацию (платформа управления Mammoth).
MAX поддерживает более 500 моделей из Hugging Face, включая текст, визуально-языковые модели (Qwen2.5-VL, Kimi VL, Gemma 3/4) и генерацию изображений (FLUX). Набор бенчмарков InferenceMAX, разработанный совместно с SemiAnalysis, запускается еженощно на сотнях GPU для предоставления постоянно обновляемых вендоро-нейтральных данных о производительности на inferencemax.ai.
Плюсы
- Конкурентная или превосходящая пропускная способность — на NVIDIA L40 с Qwen3-8B: MAX обработал 500 промптов за 50,6 с против 54,2 с у SGLang и 58,9 с у vLLM (на 16% быстрее vLLM); на Vast.ai с Llama 3.1 8B: 89,9 ток/с против 75,9 у vLLM (на 18% быстрее) при почти вдвое меньшем TTFT.
- Самая низкая задержка в хвосте — p99 TTFT составляет 13,1 мс против 23,6 мс у vLLM в бенчмарках L40.
- Аппаратная переносимость — ядра Mojo компилируются для NVIDIA, AMD и CPU из одного кода; нет необходимости поддерживать отдельные реализации CUDA/ROCm.
- Минимальный размер контейнера — Docker-образы весом менее 1 ГБ, значительно легче, чем у vLLM или SGLang.
- Полноценная платформа — приобретение BentoML добавляет адаптивный батчинг, упаковку OCI, серверлесс BentoCloud и развертывание BYOC.
- Разработка кастомных ядер — Eager-режим, похожий на PyTorch, с
model.compile()для написания собственных ядер Mojo; ядра matmul достигли 1 772 TFLOPS на B200. - Финансирование в $380 млн — хорошая капитализация, большой запас прочности и сильная инженерная команда (337 сотрудников).
Минусы
- Зависимость производительности от железа — отлично показывает себя на A100/L40S, но уступает vLLM на GPU H20 и L20; не является универсально быстрым.
- Компилятор Mojo все еще закрыт — переход на open-source обещан к концу 2026 года, но пока недоступен; это ограничивает глубокую настройку и вклад сообщества в сам компилятор.
- Молодая экосистема — меньше проверок в реальном продакшне, чем у vLLM; меньше поддерживаемых сообществом имплементаций моделей.
- Меньше поддерживаемых архитектур — 500+ моделей — это впечатляюще, но все же меньше, чем у vLLM/SGLang для ультрасовременных или нишевых моделей.
- Более высокий порог вхождения — Mojo — новый язык; командам нужно инвестировать время в его изучение для разработки кастомных ядер.
Прямое сравнение
| Функция | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| Звезды на GitHub | ~25 000 | ~75 000 | ~25 600 |
| Лицензия | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. |
| Коммерческая организация | RadixArk ($400M оценка) | Inferact ($150M привлечено) | Modular AI ($1.6B оценка) |
| Ключевая инновация | RadixAttention (префиксное дерево) | PagedAttention (виртуальная память) | Ядра на компиляторе Mojo (MLIR) |
| Пакетная пропускная способность (H100, Llama 3.1 8B) | ~16 200 ток/с | ~12 500 ток/с | Конкурентная (зависит от железа) |
| Многоходовые чаты / Повторное использование префиксов | Лучшая (прирост 10–20%, до 6,4x) | Хорошая (автоматически с V1) | Хорошая |
| Скорость структурированного вывода | Самая быстрая (xgrammar, 3–10x) | Стандартная | Стандартная |
| p99 TTFT (L40, Qwen3-8B) | ~18 мс | ~23,6 мс | ~13,1 мс (лучшая) |
| Масштабирование параллельных запросов | Ограничено GIL выше ~150 | Лучшее (роутинг на C++) | Хорошее |
| Поддержка моделей | 60+ семейств LLM, 30+ мультимодальных, диффузия, TTS | Самая широкая (текст, зрение, аудио, эмбеддинги, omni) | 500+ моделей HuggingFace |
| Поддержка оборудования | NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, CPU |
| Kubernetes / Развертывание | Развивается сообществом | Production Stack + llm-d | Mammoth + BentoML |
| Размер контейнера | ~5–8 ГБ | ~5–8 ГБ | <1 ГБ |
| Разработка кастомных ядер | Расширения FlashInfer | Расширения C++/CUDA | Mojo (эргономика уровня PyTorch) |
| Поддержка диффузионных моделей | Да (SGLang-Diffusion, ноябрь 2025) | Да (vLLM-Omni, ноябрь 2025) | Да (FLUX) |
| TTS / Аудио инференс | Да (Fish Audio S2) | Да (vLLM-Omni, Fish Speech) | Ограниченно |
| Интеграция с обучением RL | Да (Miles от RadixArk) | Нет | Нет |
| Спекулятивное декодирование | Да | Да (Roblox: -50% задержки) | Да |
| Дезагрегированные Prefill/Decode | Да (в продакшне на 96 H100) | Да (проект llm-d) | Ограниченно |
Что и когда выбирать
Выбирайте SGLang, если вы оптимизируете работу многоходовых чат-ботов, RAG-конвейеров, структурированного вывода JSON или обслуживания TTS (особенно с Fish Audio S2). RadixAttention и бэкенд xgrammar обеспечивают измеримые преимущества в этих рабочих нагрузках, а коммерческая поддержка RadixArk гарантирует долгосрочное развитие.
Выбирайте vLLM, если вам нужен максимально надежный, проверенный в продакшне вариант с самой широкой совместимостью моделей и оборудования. Сообщество в 75 тысяч звезд, внедрение в крупнейших корпорациях (Amazon, Roblox, Stripe) и всесторонняя поддержка Kubernetes делают его наименее рискованным выбором для крупномасштабного обслуживания LLM общего назначения.
Выбирайте MAX, если вы работаете в мультиаппаратных средах (NVIDIA + AMD + CPU), цените компактность контейнеров и простоту эксплуатации или хотите инвестировать в разработку кастомных ядер на Mojo. Подход MAX на основе компилятора обеспечивает уникальную гибкость, а приобретение BentoML дает ему самую полную платформу развертывания среди всех трех участников.
Что формирует инференс в 2026 году
Три тренда меняют конкурентную среду:
Дезагрегированные стадии prefill и decode перешли из разряда экспериментальных в стандартные. SGLang продемонстрировал работу P/D в масштабах продакшна на 96 H100 для DeepSeek; проект llm-d от vLLM (Red Hat, Google Cloud, IBM, NVIDIA) продвигает нативную дезагрегацию в Kubernetes; а оркестратор Dynamo от NVIDIA интегрируется со всеми основными движками.
Мультимодальный инференс стремительно расширяется. vLLM-Omni и SGLang-Diffusion были запущены в конце 2025 года, поддерживая диффузионные модели и TTS наряду с традиционными LLM. Граница между «движком LLM» и «общим сервером моделей» стирается.
Коммерческая консолидация ускоряется. RadixArk (оценка 150 млн для vLLM) и Modular (оценка $1,6 млрд + покупка BentoML) подтверждают, что инференс с открытым исходным кодом вступил в фазу корпоративной монетизации. HuggingFace TGI перешел в режим обслуживания, оставив SGLang, vLLM и MAX в качестве трех основных движков инференса на конец 2026 года.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Читать больше от Sabrina Shu
