开源 LLM 推理引擎对比:SGLang、vLLM、MAX 和 BentoML 2026
随着 AI 模型从研究阶段转向生产环境,你选择的推理引擎决定了延迟、吞吐量和基础设施成本。开源生态系统已经围绕三个强有力的竞争者进行了整合——每一个都有独特的架构哲学和权衡取舍。
这篇文章将详细解析 SGLang、vLLM 和 MAX (Modular)——这三个在 2026 年末最重要的引擎。我们将涵盖它们各自的功能、优势、不足以及横向对比。
SGLang
GitHub: sgl-project/sglang (~25K stars) · 许可证: Apache 2.0 · 最新版本: v0.5.9 (2026年2月)
简介
SGLang (Structured Generation Language) 是一个用于 LLM 和多模态模型的高性能服务框架,最初由 UC Berkeley 的 Sky Computing Lab 及其 LMSYS.org 团队开发。2026 年 1 月,SGLang 项目拆分为商业初创公司 RadixArk,并在由 Accel 领投的一轮融资中估值约 4 亿美元,英特尔前 CEO 陈立武 (Lip-Bu Tan) 也参与了天使投资。联合创始人兼 CEO 盛颖此前曾担任 xAI 的研究科学家。
SGLang 的核心创新是 RadixAttention,它使用基数树 (radix tree) 数据结构实现自动、细粒度的 KV 缓存复用。这使得它在多轮对话、RAG 流水线以及任何具有共享前缀的工作负载中速度异常出色。其结构化输出引擎 (xgrammar 后端) 是开源领域中最快的,JSON 解码速度比替代方案快 10 倍。
SGLang 目前在全球 400,000 多颗 GPU 上运行,每天生成数万亿个 Token,知名的生产用户包括 xAI (将其作为默认 LLM 引擎)、AMD、NVIDIA、LinkedIn 和 Cursor。
Fish Audio S2 与 SGLang: Fish Audio 的 S2 模型——一个在 1000 万小时以上多语言音频上训练的 4B 参数双自回归 TTS 架构——在结构上与标准自回归 LLM 同构。这意味着它原生继承了所有 SGLang 的优化:连续批处理 (continuous batching)、分页 KV 缓存 (paged KV cache)、CUDA 图重放 (CUDA graph replay) 和 RadixAttention。对于语音克隆工作负载,RadixAttention 缓存了参考音频的 KV 状态,实现了平均 86.4% 的前缀缓存命中率——这为生产环境中的 TTS 服务带来了巨大的效率提升。Fish Audio 开源了 S2,并提供了一流的 SGLang 支持。
优点
- 顶级的吞吐量 — 在批量吞吐量基准测试中比 vLLM 快约 29% (H100, Llama 3.1 8B, ShareGPT 1K 提示词: 约 16,200 tok/s vs 约 12,500 tok/s)
- RadixAttention 在多轮对话中带来 10–20% 的速度提升,在具有大量前缀的 RAG 工作负载中提升高达 6.4 倍
- 最快的结构化输出 — xgrammar 后端在受限 JSON/语法解码方面比其他方案快 3–10 倍
- 广泛的模态支持 — 支持 60 多个 LLM 家族、30 多个多模态模型、嵌入/奖励模型、扩散模型 (图像和视频,提速高达 5 倍) 以及 TTS (Fish Audio S2)
- 强大的 RL 集成 — 包含由 RadixArk 开发的用于强化学习训练循环的 Miles 框架
- 广泛的硬件支持 — 支持 NVIDIA (GB200 → RTX 4090)、AMD MI300X/MI355、Google TPU (通过 SGLang-Jax)、Intel Xeon、昇腾 NPU、Apple Silicon (MLX)
- 活跃的发布节奏 — 约 3 周为一个发布周期,新模型支持速度极快 (首个在 96 块 H100 上通过 P/D 分离大规模运行 DeepSeek R1 的引擎)
缺点
- 社区规模较小 — 约 2.5 万 GitHub 星数,而 vLLM 为 7.5 万;第三方集成和教程较少
- 仅限 Linux — 在 Windows 上需要 WSL;不支持原生 macOS GPU 推理服务
- Python GIL 瓶颈 — 当并发请求超过约 150 个时,请求路由会遇到扩展限制
- GGUF 支持有限 — 与 llama.cpp 相比,不太适合量化的边缘侧部署
- 稳定性 — 偶尔会出现发布候选版的依赖问题;在极端边缘案例的压力测试中不如 vLLM 成熟
vLLM
GitHub: vllm-project/vllm (~75K stars) · 许可证: Apache 2.0 · 最新版本: v0.19.0 (2026年4月)
简介
vLLM 是应用最广泛的开源 LLM 推理引擎,也是事实上的行业标准。它为 Amazon (Rufus,服务 2.5 亿客户)、LinkedIn、Roblox (每周 40 亿 Token)、Meta、Mistral AI、IBM 和 Stripe (报告称推理成本降低了 73%) 的生产系统提供动力。vLLM 背后的团队成立了 Inferact,并于 2026 年 1 月融资 1.5 亿美元以进行商业化。
vLLM 的基础创新是 PagedAttention,它借鉴了操作系统虚拟内存管理,将 KV 缓存拆分为非连续块,减少了高达 80% 的 GPU 显存浪费。V1 架构重构 (自 v0.8.0 起为默认,2025 年第三季度完全取代 V0) 将引擎重组为多进程架构,调度器、引擎核心和 GPU 工作进程之间通过 ZeroMQ 通信,吞吐量比原始设计提高了 1.7 倍。
vLLM 拥有所有引擎中最广泛的模型和硬件支持:文本 LLM (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS)、视觉语言模型 (InternVL, Qwen2.5-VL, Pixtral)、音频模型 (Qwen3-ASR/Omni) 以及嵌入模型。独立的 vLLM-Omni 项目扩展了对扩散和 TTS 模型的支持。硬件覆盖 NVIDIA、AMD ROCm、Intel XPU/Gaudi、Google TPU、AWS Trainium、ARM CPU 和 IBM Z 大型机。
优点
- 行业标准 — 约 7.5 万 GitHub 星数,每次发布有 200 多名贡献者,拥有最大的教程、指南和集成生态系统
- 最广泛的兼容性 — 支持的模型架构和硬件后端比任何其他引擎都多
- 生产环境验证 — 在大规模场景下经过严苛测试 (Amazon, Roblox, Stripe, Meta)
- V1 架构 — 零配置优化、自动前缀缓存、统一分块预填充;v0.16.0 增加了异步调度,吞吐量提升了 30.8%
- 兼容 OpenAI 的 API — 可作为 OpenAI 接口的无缝替换方案
- 强大的 Kubernetes 生态 — 官方 Production Stack + llm-d 项目 (由 Red Hat, Google Cloud, IBM, NVIDIA 发起) 用于解耦推理服务
- 极高并发下的扩展性 — C++ 路由处理 150+ 并发请求的能力优于基于 Python 的方案
缺点
- 吞吐量稍慢 — 在具有共享前缀工作负载的批量基准测试中,比 SGLang 慢约 29%
- 前缀缓存效率较低 — PagedAttention 缺乏 SGLang 那种基于自动基数树的前缀复用
- 开发节奏过快 — 偶尔会牺牲稳定性;V1 迁移过程中移除了一些功能 (如 best_of, 每个请求的 logits 处理器)
- 侧重 GPU — CPU 兜底性能有限
- 结构化输出 — 在受限解码方面比 SGLang 的 xgrammar 慢
MAX (Modular)
GitHub: modular/modular (~25.6K stars) · 许可证: Apache 2.0 + LLVM Exceptions (开源内核、标准库、模型架构、服务库);Modular 社区许可证 (编译器二进制文件) · 最新版本: v26.2 (2026年3月) · 网站: Modular
简介
MAX 采取了与 vLLM 和 SGLang 根本不同的方法。其他引擎构建在 CUDA 库 (cuBLAS, cuDNN, FlashAttention, FlashInfer) 之上,而 MAX 是唯一一个完全垂直整合且不依赖 CUDA 构建的推理栈——从 GPU 内核 (Mojo) 到模型服务 (MAX Serve) 再到集群调度 (BentoML + Modular Cloud),整个推理流水线都从底层基于 MLIR 构建,不依赖硬件特定库。
注意: MAX 作为一个平台比推理引擎更广——它包括一个类似 PyTorch 的模型开发 API (
model.compile(), 动态图模式),更像是 PyTorch 本身。MAX Serve 是直接与 vLLM 和 SGLang 竞争的推理服务组件。为了简单起见,本文将它们统称为 "MAX",因为最终用户通常与整个技术栈交互。
MAX 由 Modular AI 构建,该公司由 Chris Lattner (LLVM, Clang, Swift 和 MLIR 的创造者) 和 Tim Davis (TensorFlow Lite 联合创始人,曾在 Google 将端侧 ML 扩展到数十亿设备) 于 2022 年共同创立,估值 16 亿美元,融资 3.8 亿美元。Mojo 是 Modular 基于 MLIR 构建的系统编程语言,可以使用单一代码库针对 NVIDIA、AMD、Apple Silicon 和 CPU 生成硬件无关的内核,Docker 镜像大小不到 700MB。
Modular 已在 Apache 2.0 (带 LLVM 异常) 协议下开源了超过 750,000 行 Mojo 代码,包括生产级 GPU 内核、完整标准库、模型架构和 MAX 服务库。Mojo 编译器本身承诺在 2026 年随 Mojo 1.0 发布而开源。2026 年 2 月,Modular 收购了 BentoML (被 10,000 多家组织使用的开源模型部署框架),将技术栈扩展到了生产部署和云端调度。
MAX 支持 Hugging Face 上的 500 多个模型,包括文本、视觉语言 (Qwen2.5-VL, Kimi VL, Gemma 3/4) 和图像生成 (FLUX)。
优点
- 唯一不依赖 CUDA 构建的推理栈 — Mojo 内核用单一可移植代码库取代了 cuBLAS、cuDNN 和 FlashAttention;矩阵乘法内核在 B200 上已达到 1,772 TFLOPS,超过了 cuBLAS
- 具有竞争力或更优的吞吐量 — 在 NVIDIA L40 上运行 Qwen3-8B:MAX 在 50.6 秒内完成了 500 个提示词,而 SGLang 为 54.2 秒,vLLM 为 58.9 秒 (比 vLLM 快 16%);在 Vast.ai 上运行 Llama 3.1 8B:89.9 tok/s vs vLLM 的 75.9 (快 18%),且首字延迟 (TTFT) 几乎减半
- 极佳的长尾延迟 — 在 L40 基准测试中,p99 TTFT 为 13.1ms,而 vLLM 为 23.6ms
- 硬件可移植性 — Mojo 内核可从同一套代码编译到 NVIDIA、AMD、Apple Silicon 和 CPU;无需维护独立的 CUDA/ROCm 实现
- 极小的容器占用 — Docker 镜像小于 700MB,显著轻于 vLLM 或 SGLang
- 顶尖的图像生成 — MAX 在同一容器和 API 中原生支持扩散模型 (FLUX.2, SDXL) 与 LLM,在 B200 上的推理速度比 torch.compile 快 4.1 倍
- 自定义内核开发 — 带有
model.compile()的类 PyTorch 动态模式,可用于编写自定义 Mojo 内核,并有完整的开源内核实现作为参考 - 深厚的开源编译器基因 — 由 LLVM 创造者 Chris Lattner 领导 (vLLM 的名称灵感也源于 LLVM);使 LLVM 成为行业标准的社区驱动方法现在正被应用于 MAX 和 Mojo
- 3.8 亿美元资金 — 资金充足,拥有长期的发展空间和强大的工程团队 (337 名员工)
缺点
- 性能依赖硬件 — 在 NVIDIA B200 和 AMD MI355X 上表现出色,但性能随 GPU 代际而异;并非在所有硬件目标上都是最快的
- Mojo 编译器尚未开源 — 承诺在 2026 年随 Mojo 1.0 开源;标准库、内核、模型架构和服务库目前已开源 (75万+行)
- 生态系统较年轻 — 生产环境中的验证少于 vLLM;社区维护的模型实现较少
- 支持的架构较少 — 500+ 模型虽然令人印象深刻,但在支持前沿或小众模型方面仍窄于 vLLM/SGLang
- 内核开发的 Mojo 学习曲线 — 虽然 Mojo 被设计为 Python 的超集以易于采用,但高级 GPU 内核开发仍需学习新概念
- 解耦推理和调度未在开源版中提供 — 如预填充/解码分离、KV 缓存感知路由、多模型调度以及跨混合 GPU 集群的自动缩放等功能仅在 Modular Cloud 中提供,未包含在开源自托管的社区版中
横向对比表
| 特性 | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| GitHub 星数 | 约 25,000 | 约 75,000 | 约 25,600 |
| 许可证 | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM (内核/库);Modular 社区版 (编译器) |
| 商业实体 | RadixArk (4亿美元估值) | Inferact (1.5亿美元融资) | Modular AI (16亿美元估值) |
| 核心创新 | RadixAttention (基数树 KV 缓存) | PagedAttention (虚拟内存 KV 缓存) | 全栈 MLIR 编译器,无 CUDA 依赖 |
| 批量吞吐量 (H100, L3.1 8B) | 约 16,200 tok/s | 约 12,500 tok/s | 极具竞争力 (取决于硬件) |
| 多轮对话 / 前缀复用 | 最佳 (10–20% 提升, 最高 6.4倍) | 良好 (自 V1 起自动支持) | 良好 |
| 结构化输出速度 | 最快 (xgrammar, 3–10倍) | 标准 | 标准 |
| p99 TTFT (L40, Qwen3-8B) | 约 18ms | 约 23.6ms | 约 13.1ms (最佳) |
| 并发请求扩展性 | 超过 150 后受 GIL 限制 | 最佳 (C++ 路由) | 良好 |
| 模型支持 | 60+ 家族, 30+ 多模态, 扩散, TTS | 最广 (文本, 视觉, 音频, 嵌入, Omni) | 500+ HuggingFace 模型 |
| 硬件支持 | NVIDIA, AMD, TPU, Intel, 昇腾, Apple | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, Apple Silicon, CPU |
| Kubernetes / 部署 | 社区驱动 | Production Stack + llm-d | Mammoth + BentoML |
| 容器大小 | 约 5–8 GB | 约 5–8 GB | <700 MB |
| 自定义内核开发 | FlashInfer 扩展 | C++/CUDA 扩展 | Mojo (类 PyTorch 人机工效) |
| 扩散模型支持 | 是 (SGLang-Diffusion, 2025.11) | 是 (vLLM-Omni, 2025.11) | 是 (FLUX, 比 torch.compile 快 4.1倍) |
| TTS / 音频服务 | 是 (Fish Audio S2) | 是 (vLLM-Omni, Fish Speech) | 有限 |
| RL 训练集成 | 是 (RadixArk 的 Miles) | 否 | 否 |
| 投机采样 | 是 | 是 (Roblox: 延迟降低 50%) | 是 |
| 预填充/解码解耦 | 是 (已在 96块 H100 上投产) | 是 (llm-d 项目) | 是 (仅限 Modular Cloud) |
如何选择
如果你正在优化多轮对话聊天机器人、RAG 流水线、结构化 JSON 输出或 TTS 服务 (特别是使用 Fish Audio S2),请选择 SGLang。SGLang 的 RadixAttention 和 xgrammar 后端在这些工作负载中提供了可衡量的性能优势,且 RadixArk 的商业背景确保了长期支持。
如果你需要最安全、最经过生产验证且具有最广泛模型和硬件兼容性的方案,请选择 vLLM。vLLM 的 7.5 万星社区、企业级采用 (Amazon, Roblox, Stripe) 以及完善的 Kubernetes 支持,使其成为大规模通用 LLM 服务的最低风险选择。
如果你运行的是多硬件环境 (NVIDIA + AMD + CPU),非常看重容器占用空间和运维简易性,或者希望使用 Mojo 开发自定义内核,请选择 MAX。MAX 的编译器驱动方法提供了独特的灵活性,而对 BentoML 的收购使其在三个引擎中拥有最完整的部署平台。
2026 年推理领域的发展趋势
三个趋势正在重塑竞争格局:
预填充与解码解耦 (Disaggregated prefill/decode) 已从实验阶段转向标准配置。SGLang 展示了在 96 块 H100 上为 DeepSeek 实现生产规模的 P/D 分离;vLLM 的 llm-d 项目 (Red Hat, Google Cloud, IBM, NVIDIA) 推动了 Kubernetes 原生解耦;NVIDIA 的 Dynamo 调度器也已与所有主流引擎集成。
多模态服务正在迅速扩张。vLLM-Omni 和 SGLang-Diffusion 均在 2025 年底推出,在传统 LLM 之外增加了对扩散模型和 TTS 的支持。“LLM 引擎”与“通用模型服务器”之间的界限正在变得模糊。
商业整合正在加速。RadixArk (4 亿美元估值)、Inferact (vLLM 融资 1.5 亿美元) 和 Modular (16 亿美元估值 + 收购 BentoML) 都证实了开源推理已进入企业变现阶段。HuggingFace TGI 已进入维护模式——这使得 SGLang、vLLM 和 MAX 成为进入 2026 年后最主要的三大开源推理引擎。
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
阅读Sabrina Shu的更多内容
