Сравнение движков инференса LLM с открытым исходным кодом: SGLang, vLLM, MAX и BentoML 2026
По мере того как модели ИИ переходят из стадии исследований в продакшен, выбранный вами движок инференса определяет задержку, пропускную способность и затраты на инфраструктуру. Экосистема открытого ПО консолидировалась вокруг трех серьезных претендентов, каждый из которых обладает своей архитектурной философией и набором компромиссов.
В этом посте мы разберем SGLang, vLLM и MAX (Modular) — три наиболее значимых движка к концу 2026 года. Мы рассмотрим возможности каждого из них, их сильные и слабые стороны, а также проведем прямое сравнение.
SGLang
GitHub: sgl-project/sglang (~25K звезд) · Лицензия: Apache 2.0 · Последняя версия: v0.5.9 (февраль 2026)
Описание
SGLang (Structured Generation Language) — это высокопроизводительный фреймворк для обслуживания LLM и мультимодальных моделей, изначально разработанный в Sky Computing Lab Калифорнийского университета в Беркли командой LMSYS.org. В январе 2026 года проект SGLang выделился в коммерческий стартап RadixArk, оцененный примерно в 400 миллионов долларов в раунде под руководством Accel с участием ангельских инвестиций генерального директора Intel Ли-Бу Тана. Соучредитель и генеральный директор Ин Шэн ранее работал научным сотрудником в xAI.
Ключевым новшеством SGLang является RadixAttention, который использует структуру данных radix-дерева для автоматического и точного повторного использования KV-кэша. Это делает его исключительно быстрым для многоходовых диалогов, RAG-конвейеров и любых нагрузок с общими префиксами. Его движок структурированного вывода (бэкенд xgrammar) является самым быстрым среди доступных решений с открытым кодом, обеспечивая декодирование JSON до 10 раз быстрее аналогов.
SGLang сегодня работает на 400 000+ GPU по всему миру и генерирует триллионы токенов ежедневно. Среди известных пользователей в продакшене — xAI (в качестве основного движка LLM), AMD, NVIDIA, LinkedIn и Cursor.
Fish Audio S2 и SGLang: Модель S2 от Fish Audio — это Dual-Autoregressive TTS архитектура с 4 миллиардами параметров, обученная на более чем 10 миллионах часов мультиязычного аудио. Структурно она изоморфна стандартным авторегрессионным LLM. Это означает, что она нативно наследует все оптимизации SGLang: непрерывный батчинг (continuous batching), страничный KV-кэш, воспроизведение графов CUDA и RadixAttention. Для задач клонирования голоса RadixAttention кэширует KV-состояния эталонного аудио, достигая среднего коэффициента попадания в кэш префиксов 86,4%, что дает колоссальный прирост эффективности для обслуживания TTS в продакшене. Fish Audio выпустила S2 в открытый доступ с первоклассной поддержкой SGLang.
Плюсы
- Лучшая в классе пропускная способность — примерно на 29% быстрее vLLM в тестах пакетной пропускной способности (H100, Llama 3.1 8B, ShareGPT 1K промптов: ~16 200 ток/с против ~12 500 ток/с)
- RadixAttention обеспечивает ускорение на 10–20% в многоходовых чатах и до 6,4 раза в RAG-нагрузках с тяжелыми префиксами
- Самый быстрый структурированный вывод — бэкенд xgrammar в 3–10 раз быстрее альтернатив при декодировании JSON/грамматик
- Широкая поддержка модальностей — более 60 семейств LLM, 30+ мультимодальных моделей, модели эмбеддингов/reward-модели, диффузионные модели (изображения и видео, до 5 раз быстрее) и TTS (Fish Audio S2)
- Сильная интеграция с RL — фреймворк Miles (от RadixArk) для циклов обучения с подкреплением
- Широкая аппаратная поддержка — NVIDIA (от GB200 до RTX 4090), AMD MI300X/MI355, Google TPU (через SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
- Активный цикл релизов — релизы каждые ~3 недели, быстрая поддержка новых моделей (первыми запустили DeepSeek R1 в масштабе с P/D дезагрегацией на 96 H100)
Минусы
- Меньшее сообщество — ~25K звезд на GitHub против ~75K у vLLM; меньше сторонних интеграций и обучающих материалов
- Только Linux — требует WSL в Windows; нет нативного обслуживания на GPU в macOS
- Ограничение Python GIL — роутер запросов упирается в пределы масштабирования выше ~150 одновременных запросов
- Ограниченная поддержка GGUF — не идеален для квантованного развертывания на пограничных устройствах по сравнению с llama.cpp
- Стабильность — периодические проблемы с зависимостями в релиз-кандидатах; менее проверен на экстремальных корпоративных сценариях
vLLM
GitHub: vllm-project/vllm (~75K звезд) · Лицензия: Apache 2.0 · Последняя версия: v0.19.0 (апрель 2026)
Описание
vLLM — самый распространенный движок для инференса LLM с открытым исходным кодом и фактический стандарт индустрии. Он обеспечивает работу систем в Amazon (Rufus, обслуживающий 250 млн клиентов), LinkedIn, Roblox (4 млрд токенов в неделю), Meta, Mistral AI, IBM и Stripe (сообщившей о снижении затрат на инференс на 73%). Команда vLLM основала компанию Inferact, привлеков 150 миллионов долларов в январе 2026 года для коммерциализации проекта.
Фундаментальным новшеством vLLM стал PagedAttention, который заимствует идеи управления виртуальной памятью ОС для разделения KV-кэша на несмежные блоки, сокращая потери памяти GPU до 80%. Переработка архитектуры V1 (по умолчанию с v0.8.0, полностью заменившая V0 к 3 кварталу 2025 года) превратила движок в многопроцессорную архитектуру с изолированным планировщиком, ядром движка и GPU-воркерами, взаимодействующими через ZeroMQ, что обеспечило пропускную способность до 1,7 раза выше оригинала.
vLLM обладает самой широкой поддержкой моделей и оборудования: текстовые LLM (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), визуально-языковые модели (InternVL, Qwen2.5-VL, Pixtral), аудио-модели (Qwen3-ASR/Omni) и модели эмбеддингов. Отдельный проект vLLM-Omni расширяет поддержку на диффузионные и TTS модели. Оборудование включает NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, ARM CPU и мейнфреймы IBM Z.
Плюсы
- Индустриальный стандарт — ~75K звезд на GitHub, 200+ контрибьюторов на релиз, крупнейшая экосистема туториалов и интеграций
- Самая широкая совместимость — больше поддерживаемых архитектур моделей и аппаратных бэкендов, чем у любого другого движка
- Проверено в продакшене — испытан на огромных масштабах (Amazon, Roblox, Stripe, Meta)
- Архитектура V1 — оптимизации без настройки (zero-config), автоматическое кэширование префиксов, унифицированный чанковый префилл (chunked prefill); в v0.16.0 добавлено асинхронное планирование с улучшением пропускной способности на 30,8%
- OpenAI-совместимый API — замена для эндпоинтов OpenAI без изменения кода
- Сильная позиция в Kubernetes — официальный Production Stack + проект llm-d (Red Hat, Google Cloud, IBM, NVIDIA) для дезагрегированного инференса
- Масштабирование при высокой конкурентности — роутинг на C++ справляется с 150+ одновременными запросами лучше аналогов на Python
Минусы
- Пропускная способность ниже на ~29%, чем у SGLang в пакетных тестах с нагрузками на общие префиксы
- Менее эффективное кэширование префиксов — PagedAttention не имеет автоматического повторного использования на основе radix-дерева, как в SGLang
- Стремительный темп разработки — иногда в ущерб стабильности; переход на V1 убрал некоторые функции (best_of, кастомные logits processors)
- Ориентация на GPU — ограниченная производительность при откате на CPU
- Структурированный вывод — медленнее, чем xgrammar в SGLang
MAX (Modular)
GitHub: modular/modular (~25.6K звезд) · Лицензия: Apache 2.0 + LLVM Exceptions (ядра, stdlib, архитектуры моделей, библиотека обслуживания); Modular Community License (бинарный файл компилятора) · Последняя версия: v26.2 (март 2026) · Сайт: Modular
Описание
MAX использует принципиально иной подход по сравнению с vLLM и SGLang. В то время как другие движки строятся поверх библиотек CUDA (cuBLAS, cuDNN, FlashAttention, FlashInfer), MAX — это единственный полностью вертикально интегрированный стек инференса, созданный без зависимости от CUDA: от ядер GPU (Mojo) до обслуживания моделей (MAX Serve) и оркестрации кластеров (BentoML + Modular Cloud). Весь конвейер инференса построен с нуля на MLIR без опоры на специфические библиотеки оборудования.
Примечание: MAX как платформа шире, чем просто движок обслуживания — он включает API разработки моделей в стиле PyTorch (
model.compile(), eager mode), сравнимый с самим PyTorch. MAX Serve — это компонент обслуживания инференса, который напрямую конкурирует с vLLM и SGLang. Для простоты в этом посте они сравниваются под общим брендом "MAX".
MAX создан компанией Modular AI, соучредителями которой в 2022 году стали Крис Латтнер (создатель LLVM, Clang, Swift и MLIR) и Тим Дэвис (сооснователь TensorFlow Lite, масштабировавший мобильный ML на миллиарды устройств в Google). Компания привлекла 380 миллионов долларов при оценке в 1,6 миллиарда. Mojo, язык системного программирования Modular на базе MLIR, позволяет создавать переносимые ядра, работающие на NVIDIA, AMD, Apple Silicon и CPU из единого исходного кода, а размер образов Docker составляет менее 700 МБ.
Modular открыла более 750 000 строк кода Mojo под лицензией Apache 2.0 с исключениями LLVM, включая GPU-ядра продакшн-уровня, полную стандартную библиотеку, архитектуры моделей и библиотеку MAX Serve. Сам компилятор Mojo планируется открыть в 2026 году вместе с релизом Mojo 1.0. В феврале 2026 года Modular приобрела BentoML (популярный фреймворк развертывания моделей), дополнив стек средствами для продакшн-развертывания и облачной оркестрации.
MAX поддерживает более 500 моделей из Hugging Face, включая текстовые, визуально-языковые (Qwen2.5-VL, Kimi VL, Gemma 3/4) и генерацию изображений (FLUX).
Плюсы
- Единственный стек инференса без зависимости от CUDA — ядра Mojo заменяют cuBLAS, cuDNN и FlashAttention единым переносимым кодом; ядра matmul достигли 1772 TFLOPS на B200, превзойдя cuBLAS
- Конкурентная или превосходящая пропускная способность — на NVIDIA L40 с Qwen3-8B: MAX обработал 500 промптов за 50,6 с против 54,2 с у SGLang и 58,9 с у vLLM (на 16% быстрее vLLM); на Vast.ai с Llama 3.1 8B: 89,9 ток/с против 75,9 у vLLM (на 18% быстрее) при почти вдвое меньшем TTFT
- Самая низкая задержка в хвосте (tail latency) — p99 TTFT составляет 13,1 мс против 23,6 мс у vLLM в тестах L40
- Аппаратная переносимость — ядра Mojo компилируются под NVIDIA, AMD, Apple Silicon и CPU из одной кодовой базы; нет необходимости поддерживать раздельные реализации CUDA/ROCm
- Минимальный размер контейнера — образы Docker менее 700 МБ, что значительно легче vLLM или SGLang
- Передовая генерация изображений — MAX нативно обслуживает диффузионные модели (FLUX.2, SDXL) наряду с LLM в одном контейнере и API, работая в 4,1 раза быстрее, чем torch.compile на B200
- Разработка кастомных ядер — режим eager mode в стиле PyTorch с
model.compile()для написания собственных ядер на Mojo с доступом к исходникам эталонных реализаций - Глубокие корни в Open Source компиляторах — под руководством Криса Латтнера; тот же подход, который сделал LLVM стандартом индустрии, теперь применяется к MAX и Mojo
- Финансирование 380 млн долларов — солидный капитал и сильная инженерная команда (337 сотрудников)
Минусы
- Зависимость производительности от оборудования — лидирует на NVIDIA B200 и AMD MI355X, но производительность варьируется в зависимости от поколения GPU
- Компилятор Mojo еще не открыт — открытие запланировано на 2026 год; стандартная библиотека и ядра уже открыты (750K+ строк)
- Молодая экосистема — меньше проверок в реальном продакшене, чем у vLLM; меньше поддерживаемых сообществом реализаций моделей
- Меньше поддерживаемых архитектур — 500+ моделей впечатляют, но это все еще меньше, чем у vLLM/SGLang для специфических или новейших моделей
- Кривая обучения Mojo для разработки ядер — Mojo задуман как надмножество Python, но продвинутая разработка ядер GPU требует изучения новых концепций
- Дезагрегированный инференс и оркестрация закрыты — такие функции, как раздельный prefill/decode, роутинг с учетом KV-кэша и автоскейлинг, доступны в Modular Cloud, а не в версии Community Edition
Прямое сравнение
| Функция | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| Звезды GitHub | ~25 000 | ~75 000 | ~25 600 |
| Лицензия | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. (ядра/библиотеки); Modular Community (компилятор) |
| Коммерческая орг. | RadixArk ($400M оц.) | Inferact ($150M инв.) | Modular AI ($1.6B оц.) |
| Ключевая инновация | RadixAttention (radix-дерево) | PagedAttention (виртуальная память) | Стек на базе MLIR, без CUDA |
| Пропускная способность (H100) | ~16 200 ток/с | ~12 500 ток/с | Конкурентная (зависит от железа) |
| Повторный кэш префиксов | Лучший (прирост 10–20%, до 6.4x) | Хороший (автоматически с V1) | Хороший |
| Скорость структурир. вывода | Самая высокая (xgrammar) | Стандартная | Стандартная |
| p99 TTFT (L40, Qwen3-8B) | ~18 мс | ~23,6 мс | ~13,1 мс (лучший) |
| Масштабирование запросов | Лимит GIL выше ~150 | Лучшее (C++ роутинг) | Хорошее |
| Поддержка моделей | 60+ семейств LLM, мультимодальные, TTS | Самая широкая (текст, видео, аудио, эмбеддинги) | 500+ моделей HuggingFace |
| Поддержка железа | NVIDIA, AMD, TPU, Intel, Ascend, Apple | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, Apple Silicon, CPU |
| Kubernetes / Развертывание | Сообщество | Production Stack + llm-d | Mammoth + BentoML |
| Размер контейнера | ~5–8 ГБ | ~5–8 ГБ | <700 МБ |
| Разработка кастомных ядер | Расширения FlashInfer | Расширения C++/CUDA | Mojo (эргономика как в PyTorch) |
| Диффузионные модели | Да (SGLang-Diffusion) | Да (vLLM-Omni) | Да (FLUX, в 4.1x быстрее torch.compile) |
| TTS / Аудио инференс | Да (Fish Audio S2) | Да (vLLM-Omni, Fish Speech) | Ограничено |
| Интеграция с RL | Да (Miles от RadixArk) | Нет | Нет |
| Спекулятивное декодирование | Да | Да | Да |
| Дезагрег. Prefill/Decode | Да (в продакшене) | Да (проект llm-d) | Да (только в Modular Cloud) |
Когда и что использовать
Выбирайте SGLang, если вы оптимизируете работу чат-ботов с длинными диалогами, RAG-конвейеры, структурированный вывод JSON или TTS-сервисы (особенно с Fish Audio S2). RadixAttention и бэкенд xgrammar в SGLang дают измеримые преимущества в этих задачах, а коммерческая поддержка RadixArk гарантирует долгосрочное развитие.
Выбирайте vLLM, если вам нужно максимально надежное, проверенное в продакшене решение с самой широкой совместимостью моделей и оборудования. Огромное сообщество, внедрение в таких гигантах, как Amazon и Stripe, и глубокая поддержка Kubernetes делают его самым безопасным выбором для крупномасштабного инференса.
Выбирайте MAX, если вы работаете в мультиплатформенных средах (NVIDIA + AMD + CPU), цените компактность контейнеров и простоту эксплуатации или хотите инвестировать в создание собственных высокопроизводительных ядер на Mojo. Подход MAX на базе компилятора обеспечивает уникальную гибкость, а слияние с BentoML дает самую полную платформу развертывания из трех.
Что определяет развитие инференса в 2026 году
Три тренда меняют ландшафт:
Дезагрегированный prefill/decode перешел из разряда экспериментальных в стандарт. SGLang продемонстрировал промышленное использование P/D на 96 H100 для DeepSeek; проект vLLM llm-d продвигает нативную для Kubernetes дезагрегацию; а оркестратор Dynamo от NVIDIA интегрируется со всеми основными движками.
Мультимодальное обслуживание стремительно расширяется. vLLM-Omni и SGLang-Diffusion были запущены в конце 2025 года, поддерживая диффузионные модели и TTS наряду с традиционными LLM. Грань между «движком LLM» и «общим сервером моделей» стирается.
Коммерческая консолидация ускоряется. RadixArk (150 млн для vLLM) и Modular ($1,6 млрд + BentoML) подтверждают, что инференс с открытым исходным кодом вступил в фазу корпоративной монетизации. HuggingFace TGI перешел в режим поддержки, оставив SGLang, vLLM и MAX тремя основными движками инференса на пути к концу 2026 года.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Читать больше от Sabrina Shu
