오픈소스 LLM 추론 엔진 비교: SGLang, vLLM, MAX, 그리고 BentoML 2026
AI 모델이 연구에서 프로덕션 단계로 전환됨에 따라, 선택한 추론 엔진이 지연 시간(latency), 처리량(throughput) 및 인프라 비용을 결정하게 됩니다. 오픈소스 생태계는 각기 독특한 아키텍처 철학과 장단점을 가진 세 가지 주요 경쟁자로 압축되었습니다.
이 포스트에서는 2026년 말 현재 가장 중요한 세 가지 엔진인 SGLang, vLLM, 그리고 **MAX (Modular)**를 분석합니다. 각 엔진의 기능, 강점, 약점 및 상호 비교를 다룹니다.
SGLang
GitHub: sgl-project/sglang (~25K stars) · 라이선스: Apache 2.0 · 최신 버전: v0.5.9 (2026년 2월)
설명
SGLang(Structured Generation Language)은 LMSYS.org 팀이 UC 버클리의 Sky Computing Lab에서 처음 개발한 LLM 및 멀티모달 모델용 고성능 서빙 프레임워크입니다. 2026년 1월, SGLang 프로젝트는 Accel이 주도하고 Intel CEO인 Lip-Bu Tan이 엔젤 투자자로 참여하여 약 4억 달러의 기업 가치를 인정받은 상업용 스타트업인 RadixArk로 분사되었습니다. 공동 창립자이자 CEO인 Ying Sheng은 이전에 xAI에서 연구원으로 근무했습니다.
SGLang의 핵심 혁신은 RadixAttention입니다. 이는 radix tree 데이터 구조를 사용하여 자동적이고 세밀한 KV 캐시 재사용을 가능하게 합니다. 이 기능 덕분에 멀티턴 대화, RAG 파이프라인 및 프리픽스(prefix)를 공유하는 모든 워크로드에서 탁월한 속도를 자랑합니다. 또한 구조화된 출력 엔진(xgrammar 백엔드)은 오픈소스 중 가장 빠르며, 다른 대안보다 최대 10배 빠른 JSON 디코딩을 제공합니다.
SGLang은 현재 전 세계적으로 40만 개 이상의 GPU에서 실행되며 매일 수조 개의 토큰을 생성하고 있습니다. 주요 프로덕션 사용자로는 xAI(기본 LLM 엔진으로 사용), AMD, NVIDIA, LinkedIn, 그리고 Cursor가 있습니다.
Fish Audio S2 & SGLang: 1,000만 시간 이상의 다국어 오디오로 학습된 4B 파라미터 Dual-Autoregressive TTS 아키텍처인 Fish Audio의 S2 모델은 구조적으로 표준 Autoregressive LLM과 동일합니다. 이는 continuous batching, paged KV cache, CUDA graph replay, RadixAttention과 같은 모든 SGLang 최적화 기능을 그대로 계승함을 의미합니다. 음성 복제(voice cloning) 워크로드의 경우, RadixAttention은 참조 오디오의 KV 상태를 캐싱하여 평균 86.4%의 프리픽스 캐시 적중률을 달성하며, 이는 프로덕션 TTS 서빙 효율성을 크게 향상시킵니다. Fish Audio는 SGLang을 최고 수준으로 지원하도록 S2를 오픈소스로 공개했습니다.
장점
- 동급 최고의 처리량 — 배치 처리량 벤치마크에서 vLLM보다 약 29% 빠름 (H100, Llama 3.1 8B, ShareGPT 1K 프롬프트 기준: 약 16,200 tok/s vs 약 12,500 tok/s)
- RadixAttention — 멀티턴 채팅에서 10~20%, 프리픽스 비중이 높은 RAG 워크로드에서 최대 6.4배의 속도 향상
- 가장 빠른 구조화된 출력 — 제약 조건이 있는 JSON/문법 디코딩 시 xgrammar 백엔드가 다른 대안보다 3~10배 빠름
- 광범위한 모달리티 지원 — 60개 이상의 LLM 제품군, 30개 이상의 멀티모달 모델, 임베딩/보상 모델, 확산 모델(이미지 및 비디오, 최대 5배 빠름) 및 TTS(Fish Audio S2) 지원
- 강력한 RL 통합 — 강화 학습 훈련 루프를 위한 Miles 프레임워크(RadixArk 개발) 제공
- 폭넓은 하드웨어 지원 — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (SGLang-Jax 경유), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
- 활발한 릴리스 주기 — 약 3주 간격의 업데이트, 새로운 모델에 대한 빠른 지원 (96개의 H100에서 P/D 분리 방식으로 DeepSeek R1을 대규모로 실행한 최초의 엔진)
단점
- 상대적으로 작은 커뮤니티 — vLLM의 약 75K stars에 비해 약 25K stars로 적으며, 서드파티 통합 및 튜토리얼이 적음
- Linux 전용 — Windows에서는 WSL이 필요하며, macOS GPU 서빙을 네이티브로 지원하지 않음
- Python GIL 병목 현상 — 요청 라우터가 약 150개 이상의 동시 요청에서 확장성 한계에 부딪힘
- 제한적인 GGUF 지원 — llama.cpp에 비해 양자화된 에지 배포에는 이상적이지 않음
- 안정성 — 릴리스 후보(RC) 의존성 문제 이슈가 가끔 발생하며, 극한의 엔터프라이즈 에지 케이스에서 충분히 검증되지 않았을 수 있음
vLLM
GitHub: vllm-project/vllm (~75K stars) · 라이선스: Apache 2.0 · 최신 버전: v0.19.0 (2026년 4월)
설명
vLLM은 가장 널리 채택된 오픈소스 LLM 서빙 엔진이며 사실상의 업계 표준입니다. Amazon(2.5억 명의 고객을 지원하는 Rufus), LinkedIn, Roblox(주당 40억 토큰 생성), Meta, Mistral AI, IBM, 그리고 Stripe(추론 비용 73% 절감 보고)의 프로덕션 시스템을 구동합니다. vLLM 팀은 2026년 1월에 Inferact를 설립하고 프로젝트의 상용화를 위해 1억 5천만 달러를 유치했습니다.
vLLM의 기초적인 혁신은 PagedAttention입니다. 이는 OS의 가상 메모리 관리 방식을 차용하여 KV 캐시를 불연속적인 블록으로 분할함으로써 GPU 메모리 낭비를 최대 80%까지 줄입니다. V1 아키텍처 재작성(v0.8.0부터 기본값, 2025년 3분기까지 V0를 완전히 대체)을 통해 스케줄러, 엔진 코어, GPU 워커가 ZeroMQ를 통해 통신하는 멀티 프로세스 아키텍처로 개편되어 기존 설계보다 최대 1.7배 높은 처리량을 제공합니다.
vLLM은 모든 엔진 중 가장 광범위한 모델 및 하드웨어를 지원합니다: 텍스트 LLM (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), 비전-언어 모델 (InternVL, Qwen2.5-VL, Pixtral), 오디오 모델 (Qwen3-ASR/Omni), 임베딩 모델 등. 별도의 vLLM-Omni 프로젝트는 확산 모델 및 TTS 모델까지 지원을 확장합니다. 하드웨어는 NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, ARM CPU, IBM Z 메인프레임을 아우릅니다.
장점
- 업계 표준 — 약 75K GitHub stars, 릴리스당 200명 이상의 기여자, 튜토리얼, 가이드 및 통합 기능의 최대 생태계 보유
- 가장 넓은 호환성 — 다른 어떤 엔진보다 많은 모델 아키텍처와 하드웨어 백엔드 지원
- 프로덕션 검증 완료 — 대규모 규모(Amazon, Roblox, Stripe, Meta)에서 전투적으로 검증됨
- V1 아키텍처 — 제로 설정 최적화, 자동 프리픽스 캐싱, 통합 청크 프리필(unified chunked prefill) 제공; v0.16.0에서 비동기 스케줄링을 추가하여 처리량 30.8% 개선
- OpenAI 호환 API — OpenAI 엔드포인트를 그대로 대체 가능
- 강력한 Kubernetes 지원 — 분산 서빙을 위한 공식 Production Stack 및 llm-d 프로젝트(Red Hat, Google Cloud, IBM, NVIDIA 협업) 지원
- 고성능 동시성 확장성 — C++ 라우팅을 통해 Python 기반 대안보다 150개 이상의 동시 요청을 더 효율적으로 처리
단점
- 약 29% 낮은 처리량 — 공유 프리픽스 워크로드의 배치 벤치마크에서 SGLang보다 느림
- 덜 효율적인 프리픽스 캐싱 — PagedAttention은 SGLang의 자동 radix-tree 기반 프리픽스 재사용 기능이 부족함
- 빠른 개발 속도 — 가끔 안정성보다 속도가 우선시됨; V1 마이그레이션 과정에서 일부 기능(best_of, 요청당 logits 프로세서 등)이 제거됨
- GPU 중심 — CPU 폴백 성능이 제한적임
- 구조화된 출력 — 제약 조건 디코딩 시 SGLang의 xgrammar보다 느림
MAX (Modular)
GitHub: modular/modular (~25.6K stars) · 라이선스: Apache 2.0 + LLVM Exceptions · 최신 버전: v26.2 (2026년 3월) · 웹사이트: Modular
설명
MAX는 vLLM이나 SGLang과는 근본적으로 다른 접근 방식을 취합니다. LLVM과 Swift의 창시자인 Chris Lattner가 설립하고 16억 달러의 기업 가치로 3억 8천만 달러를 투자받은 Modular AI가 구축한 MAX는 모든 GPU 커널이 Mojo(MLIR 기반의 시스템 프로그래밍 언어)로 작성된 커스텀 컴파일러 스택을 사용합니다. 이를 통해 단일 코드베이스에서 NVIDIA, AMD, CPU를 대상으로 하는 하드웨어 불가지론적(agnostic) 커널을 구현할 수 있으며, Docker 이미지는 1GB 미만입니다.
Modular는 2025년 내내 Apache 2.0 및 LLVM Exceptions 라이선스로 45만 줄 이상의 Mojo 커널 코드를 오픈소스로 공개했습니다. 2026년 2월, Modular는 1만 개 이상의 조직에서 사용하는 오픈소스 모델 배포 프레임워크인 BentoML을 인수하여, 패키징, 적응형 배칭(adaptive batching) 및 Kubernetes 오케스트레이션을 MAX 플랫폼에 통합했습니다. 이 결합된 서비스는 추론(MAX), 배포(BentoML), 엔터프라이즈 오케스트레이션(Mammoth 제어 평면)을 모두 아우릅니다.
MAX는 Hugging Face의 텍스트, 비전-언어 모델(Qwen2.5-VL, Kimi VL, Gemma 3/4), 이미지 생성(FLUX)을 포함한 500개 이상의 모델을 지원합니다. SemiAnalysis와 협력하여 개발된 InferenceMAX 벤치마크 제품군은 수백 개의 GPU에서 매일 밤 실행되어 inferencemax.ai에서 지속적으로 업데이트되는 벤더 중립적인 성능 데이터를 제공합니다.
장점
- 경쟁력 있거나 우수한 처리량 — NVIDIA L40에서 Qwen3-8B 기준: MAX는 500개 프롬프트를 50.6초 만에 완료하여 SGLang(54.2초)과 vLLM(58.9초)보다 앞섰습니다(vLLM보다 16% 빠름). Vast.ai의 Llama 3.1 8B 기준으로는 89.9 tok/s를 기록하여 vLLM(75.9 tok/s)보다 18% 빠르고 TTFT는 거의 절반 수준입니다.
- 가장 낮은 꼬리 지연 시간 — L40 벤치마크에서 p99 TTFT가 13.1ms로 vLLM(23.6ms)보다 뛰어남
- 하드웨어 이식성 — Mojo 커널은 단일 코드베이스에서 NVIDIA, AMD, CPU로 컴파일되므로 별도의 CUDA/ROCm 구현을 유지 관리할 필요가 없음
- 최소한의 컨테이너 크기 — Docker 이미지가 1GB 미만으로, vLLM이나 SGLang보다 훨씬 가벼움
- 풀스택 플랫폼 — BentoML 인수로 적응형 배칭, OCI 패키징, BentoCloud 서버리스 및 BYOC 배포 기능 추가
- 커스텀 커널 개발 — 커스텀 Mojo 커널 작성을 위해 PyTorch와 유사한 eager 모드(
model.compile()) 지원; matmul 커널은 B200에서 1,772 TFLOPS를 기록함 - 강력한 자금력 — 3억 8천만 달러의 자금과 337명의 강력한 엔지니어링 팀 보유
단점
- 하드웨어 의존적 성능 — A100/L40S에서는 우수하지만 H20 및 L20 GPU에서는 vLLM보다 성능이 떨어짐; 모든 환경에서 가장 빠른 것은 아님
- Mojo 컴파일러의 부분적 폐쇄성 — 2026년 말까지 오픈소스화하기로 약속했지만 아직 제공되지 않음; 컴파일러 자체에 대한 딥 커스터마이징 및 커뮤니티 기여가 제한됨
- 초기 단계의 생태계 — vLLM에 비해 프로덕션 환경에서의 검증이 적으며 커뮤니티 유지 관리 모델 구현이 적음
- 지원 아키텍처 수 — 500개 이상의 모델은 인상적이지만 최신 또는 틈새 모델의 경우 vLLM/SGLang보다 지원 폭이 좁음
- 가파른 학습 곡선 — Mojo는 새로운 언어이므로 커스텀 커널 개발을 위해 팀의 학습 투자가 필요함
주요 기능 비교
| 기능 | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| GitHub Stars | 약 25,000 | 약 75,000 | 약 25,600 |
| 라이선스 | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. |
| 상업적 주체 | RadixArk (4억 달러 가치) | Inferact (1.5억 달러 투자) | Modular AI (16억 달러 가치) |
| 핵심 혁신 | RadixAttention (radix tree KV 캐시) | PagedAttention (가상 메모리 KV 캐시) | Mojo 컴파일러 커널 (MLIR) |
| 배치 처리량 (H100, Llama 3.1 8B) | 약 16,200 tok/s | 약 12,500 tok/s | 경쟁력 있음 (하드웨어 의존적) |
| 멀티턴 / 프리픽스 재사용 | 최고 (10~20% 향상, 최대 6.4배) | 좋음 (V1부터 자동화) | 좋음 |
| 구조화된 출력 속도 | 가장 빠름 (xgrammar, 3~10배) | 표준 | 표준 |
| p99 TTFT (L40, Qwen3-8B) | 약 18ms | 약 23.6ms | 약 13.1ms (최고) |
| 동시 요청 확장성 | 150개 이상에서 GIL 제한 | 최고 (C++ 라우팅) | 좋음 |
| 모델 지원 | 60+ LLM, 30+ 멀티모달, 확산, TTS | 가장 광범위함 (텍스트, 비전, 오디오, 임베딩, 옴니) | 500+ HuggingFace 모델 |
| 하드웨어 지원 | NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon | NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z | NVIDIA, AMD, CPU |
| Kubernetes / 배포 | 커뮤니티 주도 | Production Stack + llm-d | Mammoth + BentoML |
| 컨테이너 크기 | 약 5~8 GB | 약 5~8 GB | 1 GB 미만 |
| 커스텀 커널 개발 | FlashInfer 확장 | C++/CUDA 확장 | Mojo (PyTorch와 유사한 사용성) |
| 확산 모델 지원 | 지원 (SGLang-Diffusion, 2025년 11월) | 지원 (vLLM-Omni, 2025년 11월) | 지원 (FLUX) |
| TTS / 오디오 서빙 | 지원 (Fish Audio S2) | 지원 (vLLM-Omni, Fish Speech) | 제한적 |
| RL 학습 통합 | 지원 (Miles by RadixArk) | 지원 안 함 | 지원 안 함 |
| Speculative Decoding | 지원 | 지원 (Roblox: 지연 시간 50% 단축) | 지원 |
| 분산 프리필/디코딩 | 지원 (96개 H100에서 프로덕션 운영) | 지원 (llm-d 프로젝트) | 제한적 |
상황별 추천 엔진
SGLang을 선택해야 하는 경우: 멀티턴 챗봇, RAG 파이프라인, 구조화된 JSON 출력 또는 TTS 서빙(특히 Fish Audio S2 사용 시)을 최적화하려는 경우입니다. SGLang의 RadixAttention과 xgrammar 백엔드는 이러한 워크로드에서 눈에 띄는 성능 이점을 제공하며, RadixArk의 상업적 지원으로 장기적인 안정성을 보장받을 수 있습니다.
vLLM을 선택해야 하는 경우: 가장 광범위한 모델 및 하드웨어 호환성을 갖춘, 가장 안전하고 프로덕션에서 검증된 옵션이 필요한 경우입니다. 7.5만 스타의 커뮤니티, Amazon, Roblox, Stripe와 같은 대기업의 채택, 그리고 포괄적인 Kubernetes 지원은 대규모 LLM 서빙을 위한 위험이 가장 적은 선택으로 만들어 줍니다.
MAX를 선택해야 하는 경우: 멀티 하드웨어 환경(NVIDIA + AMD + CPU)을 운영하거나, 컨테이너 크기 및 운영 단순성을 중요하게 생각하거나, Mojo를 사용하여 커스텀 커널 개발에 투자하려는 경우입니다. MAX의 컴파일러 기반 접근 방식은 독특한 유연성을 제공하며, BentoML 인수를 통해 세 엔진 중 가장 완전한 배포 플랫폼을 갖추게 되었습니다.
2026년 추론 시장의 트렌드
현재 세 가지 트렌드가 경쟁 환경을 재편하고 있습니다:
**분산 프리필/디코딩(Disaggregated prefill/decode)**이 실험적 단계에서 표준으로 자리 잡았습니다. SGLang은 DeepSeek를 위해 96개의 H100에서 프로덕션 규모의 P/D를 입증했으며, vLLM의 llm-d 프로젝트(Red Hat, Google Cloud, IBM, NVIDIA 협업)는 Kubernetes 네이티브 분산 처리를 추진하고 있습니다. NVIDIA의 Dynamo 오케스트레이터 또한 모든 주요 엔진과 통합되었습니다.
멀티모달 서빙이 빠르게 확장되고 있습니다. vLLM-Omni와 SGLang-Diffusion 모두 2025년 말에 출시되어 기존 LLM과 함께 확산 모델 및 TTS를 지원합니다. "LLM 엔진"과 "일반 모델 서버" 사이의 경계가 모호해지고 있습니다.
상업적 통합이 가속화되고 있습니다. RadixArk(4억 달러 가치), Inferact(vLLM을 위한 1억 5천만 달러 유치), Modular(16억 달러 가치 + BentoML 인수)는 오픈소스 추론 엔진이 엔터프라이즈 수익화 단계에 진입했음을 보여줍니다. HuggingFace TGI가 유지 관리 모드로 전환됨에 따라, 2026년 말 현재 SGLang, vLLM, MAX가 세 가지 주요 오픈소스 추론 엔진으로 자리 잡았습니다.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shu의 더 많은 글 보기
