오픈소스 LLM 추론 엔진 비교: SGLang, vLLM, MAX 및 BentoML 2026
AI 모델이 연구에서 운영 단계로 넘어가면서 추론 엔진 선택이 지연 시간, 처리량 및 인프라 비용을 결정합니다. 오픈소스 생태계는 각각 뚜렷한 아키텍처 철학과 장단점을 가진 세 가지 강력한 경쟁자로 통합되었습니다.
이 포스트는 2026년 말까지 가장 중요한 세 가지 엔진인 SGLang, vLLM, 그리고 **MAX (Modular)**를 분석합니다. 각 엔진의 기능, 장점, 단점 및 직접적인 비교를 다룹니다.
SGLang
GitHub: sgl-project/sglang (~25K stars) · 라이선스: Apache 2.0 · 최신 버전: v0.5.9 (2026년 2월)
설명
SGLang (Structured Generation Language)은 LLM 및 멀티모달 모델을 위한 고성능 서빙 프레임워크로, 원래 LMSYS.org 팀이 UC 버클리의 Sky Computing Lab에서 개발했습니다. 2026년 1월, SGLang 프로젝트는 Accel이 주도한 라운드에서 약 4억 달러의 가치를 인정받은 상업용 스타트업인 RadixArk로 분사되었습니다. Intel CEO인 Lip-Bu Tan이 엔젤 투자자로 참여했으며, 공동 창립자이자 CEO인 Ying Sheng은 이전에 xAI에서 연구 과학자로 근무했습니다.
SGLang의 핵심 혁신은 RadixAttention으로, 자동적이고 세밀한 KV 캐시 재사용을 위해 radix tree 데이터 구조를 사용합니다. 이는 다회차 대화, RAG 파이프라인 및 공통 접두사가 있는 모든 워크로드에서 매우 빠릅니다. 구조화된 출력 엔진(xgrammar 백엔드)은 오픈소스 중 가장 빠르며, 다른 대안보다 최대 10배 빠른 JSON 디코딩을 제공합니다.
SGLang은 현재 전 세계 400,000개 이상의 GPU에서 실행되며 매일 수조 개의 토큰을 생성합니다. 주요 사용자로는 xAI(기본 LLM 엔진), AMD, NVIDIA, LinkedIn, Cursor 등이 있습니다.
Fish Audio S2 & SGLang: Fish Audio의 S2 모델(1,000만 시간 이상의 다국어 오디오로 학습된 4B 파라미터 Dual-Autoregressive TTS 아키텍처)은 구조적으로 표준 자기회귀 LLM과 동형입니다. 이는 continuous batching, paged KV cache, CUDA graph replay, RadixAttention 등 SGLang의 모든 최적화를 기본적으로 상속받음을 의미합니다. 보이스 클로닝 워크로드의 경우, RadixAttention은 참조 오디오의 KV 상태를 캐싱하여 평균 **86.4%의 접두사 캐시 적중률(prefix-cache hit rate)**을 달성하며, 이는 운영 환경의 TTS 서빙에 엄청난 효율성 이득을 제공합니다. Fish Audio는 최고 수준의 SGLang 지원과 함께 S2를 오픈소스로 공개했습니다.
장점
- 최고 수준의 처리량 — 배치 처리량 벤치마크에서 vLLM보다 약 29% 빠름 (H100, Llama 3.1 8B, ShareGPT 1K 프롬프트: 약 16,200 tok/s vs 약 12,500 tok/s)
- RadixAttention — 다회차 채팅에서 10–20%, 접두사가 많은 RAG 워크로드에서 최대 6.4배 속도 향상 제공
- 가장 빠른 구조화된 출력 — 제한된 JSON/문법 디코딩에서 xgrammar 백엔드가 대안보다 3–10배 빠름
- 광범위한 모달리티 지원 — 60개 이상의 LLM 제품군, 30개 이상의 멀티모달 모델, 임베딩/보상 모델, 확산 모델(이미지 및 비디오, 최대 5배 빠름) 및 TTS (Fish Audio S2)
- 강력한 RL 통합 — 강화 학습 훈련 루프를 위한 Miles 프레임워크(RadixArk 개발) 제공
- 폭넓은 하드웨어 지원 — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (SGLang-Jax 경유), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
- 빠른 업데이트 주기 — 약 3주의 릴리스 주기, 새로운 모델 지원이 빠름 (96개의 H100에서 P/D 분리 방식으로 DeepSeek R1을 대규모로 실행한 최초의 엔진)
단점
- 작은 커뮤니티 — vLLM의 약 75K 스타 대비 약 25K 스타; 상대적으로 적은 타사 통합 및 튜토리얼
- 리눅스 전용 — 윈도우에서는 WSL 필요; 네이티브 macOS GPU 서빙 미지원
- Python GIL 병목 현상 — 요청 라우터가 약 150개 이상의 동시 요청에서 확장 한계에 도달
- 제한적인 GGUF 지원 — llama.cpp에 비해 양자화된 엣지 배포에 최적화되지 않음
- 안정성 — 릴리스 후보의 종속성 문제 발생 가능; 기업용 엣지 케이스의 극한 상황에서 덜 검증됨
vLLM
GitHub: vllm-project/vllm (~75K stars) · 라이선스: Apache 2.0 · 최신 버전: v0.19.0 (2026년 4월)
설명
vLLM은 가장 널리 채택된 오픈소스 LLM 서빙 엔진이자 사실상의 업계 표준입니다. Amazon(2억 5천만 고객을 대상으로 하는 Rufus), LinkedIn, Roblox(주당 40억 토큰), Meta, Mistral AI, IBM, Stripe(추론 비용 73% 절감 보고) 등의 운영 시스템을 구동합니다. vLLM 팀은 프로젝트 상용화를 위해 Inferact를 설립하고 2026년 1월에 1억 5천만 달러를 투자받았습니다.
vLLM의 핵심 혁신은 PagedAttention으로, OS의 가상 메모리 관리 기법을 차용하여 KV 캐시를 비연속적인 블록으로 분할하여 GPU 메모리 낭비를 최대 80%까지 줄입니다. V1 아키텍처 재작성(v0.8.0부터 기본값)을 통해 엔진을 스케줄러, 엔진 코어, ZeroMQ를 통해 통신하는 GPU 워커로 분리된 멀티 프로세스 아키텍처로 구조화하여 기존 설계보다 최대 1.7배 높은 처리량을 제공합니다.
vLLM은 텍스트 LLM (Llama 3/4, Qwen 3, DeepSeek V3 등), 비전-언어 모델, 오디오 모델 (Qwen3-ASR/Omni), 임베딩 모델 등 모든 엔진 중 가장 광범위한 모델 및 하드웨어 지원을 제공합니다. 별도의 vLLM-Omni 프로젝트는 확산 및 TTS 모델까지 지원을 확장합니다. 하드웨어 지원 범위는 NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, ARM CPU 및 IBM Z 메인프레임에 달합니다.
장점
- 업계 표준 — 약 75K GitHub 스타, 릴리스당 200명 이상의 기여자, 튜토리얼 및 통합 생태계가 가장 큼
- 가장 넓은 호환성 — 다른 어떤 엔진보다 더 많은 모델 아키텍처와 하드웨어 백엔드를 지원
- 운영 검증 완료 — 대규모 환경(Amazon, Roblox, Stripe, Meta)에서 철저히 검증됨
- V1 아키텍처 — 제로 설정 최적화, 자동 접두사 캐싱, 통합 청크 프리필; v0.16.0에서 비동기 스케줄링으로 30.8% 처리량 향상
- OpenAI 호환 API — OpenAI 엔드포인트를 즉시 대체 가능
- 강력한 Kubernetes 지원 — 분산 서빙을 위한 공식 Production Stack 및 llm-d 프로젝트(Red Hat, Google Cloud, IBM, NVIDIA) 제공
- 높은 동시성 확장성 — C++ 라우팅을 통해 Python 기반 대안보다 150개 이상의 동시 요청을 더 효율적으로 처리
단점
- 낮은 처리량 — 공통 접두사 워크로드의 배치 벤치마크에서 SGLang보다 약 29% 느림
- 덜 효율적인 접두사 캐싱 — PagedAttention은 SGLang의 자동 radix-tree 기반 접두사 재사용 기능이 부족함
- 빠른 개발 속도 — 때때로 안정성보다 속도가 우선시됨; V1 마이그레이션 과정에서 일부 기능(best_of 등)이 제거됨
- GPU 중심 — CPU 폴백 성능이 제한적임
- 구조화된 출력 — 제한된 디코딩에서 SGLang의 xgrammar보다 느림
MAX (Modular)
GitHub: modular/modular (~25.6K stars) · 라이선스: Apache 2.0 + LLVM Exceptions (커널, 표준 라이브러리, 모델 아키텍처, 서빙 라이브러리); Modular Community License (컴파일러 바이너리) · 최신 버전: v26.2 (2026년 3월) · 웹사이트: Modular
설명
MAX는 vLLM 및 SGLang과 근본적으로 다른 접근 방식을 취합니다. 다른 엔진들이 CUDA 라이브러리(cuBLAS, cuDNN 등) 위에서 구축되는 반면, MAX는 GPU 커널(Mojo)부터 모델 서빙(MAX Serve), 클러스터 오케스트레이션(BentoML + Modular Cloud)까지 하드웨어 전용 라이브러리에 의존하지 않고 MLIR 기반으로 처음부터 구축된 유일한 수직 통합 추론 스택입니다.
참고: 플랫폼으로서의 MAX는 서빙 엔진보다 범위가 넓습니다 — PyTorch와 유사한 모델 개발 API를 포함합니다. MAX Serve는 vLLM 및 SGLang과 직접 경쟁하는 추론 서빙 구성 요소입니다. 사용자는 일반적으로 전체 스택을 사용하므로 이 포스트에서는 편의상 "MAX"로 통칭합니다.
MAX는 LLVM, Clang, Swift, MLIR의 창시자인 Chris Lattner와 TensorFlow Lite의 공동 창시자인 Tim Davis가 2022년에 설립한 Modular AI에서 개발했으며, 16억 달러의 가치로 3억 8천만 달러를 투자받았습니다. MLIR 기반의 시스템 프로그래밍 언어인 Mojo를 통해 단일 코드베이스로 NVIDIA, AMD, Apple Silicon 및 CPU를 대상으로 하는 하드웨어 중립적 커널을 구현하며, Docker 이미지 크기는 700MB 미만입니다.
Modular는 Apache 2.0 라이선스로 75만 줄 이상의 Mojo 코드를 공개했습니다. Mojo 컴파일러 자체는 Mojo 1.0 릴리스와 함께 2026년에 오픈소스화될 예정입니다. 2026년 2월, Modular는 1만 개 이상의 조직에서 사용하는 오픈소스 모델 배포 프레임워크인 BentoML을 인수하여 운영 배포 및 클라우드 오케스트레이션까지 스택을 확장했습니다.
MAX는 텍스트, 비전-언어, 이미지 생성(FLUX)을 포함하여 Hugging Face의 500개 이상의 모델을 지원합니다.
장점
- CUDA 없이 구축된 유일한 추론 스택 — Mojo 커널이 cuBLAS, cuDNN 등을 대체; matmul 커널은 B200에서 cuBLAS를 능가하는 1,772 TFLOPS 달성
- 경쟁력 있거나 우수한 처리량 — NVIDIA L40에서 Qwen3-8B 기준: SGLang(54.2초) 및 vLLM(58.9초)보다 빠른 50.6초에 500개 프롬프트 완료 (vLLM보다 16% 빠름)
- 가장 짧은 꼬리 지연 시간 — L40 벤치마크에서 p99 TTFT 13.1ms 달성 (vLLM은 23.6ms)
- 하드웨어 이식성 — 단일 코드베이스에서 여러 하드웨어로 컴파일 가능; 별도의 CUDA/ROCm 구현을 유지할 필요 없음
- 가장 작은 컨테이너 크기 — vLLM 또는 SGLang보다 훨씬 가벼운 700MB 미만의 Docker 이미지
- 최첨단 이미지 생성 — 동일한 컨테이너 및 API에서 확산 모델을 네이티브로 서빙; B200에서 torch.compile보다 4.1배 빠른 추론 속도
- 커스텀 커널 개발 —
model.compile()을 통해 Mojo로 커스텀 커널을 작성할 수 있는 PyTorch 스타일의 eager mode 지원 - 오픈소스 컴파일러 뿌리 — LLVM의 창시자인 Chris Lattner가 주도; LLVM을 업계 표준으로 만든 커뮤니티 중심 접근 방식을 MAX와 Mojo에 적용
단점
- 하드웨어 의존적 성능 — 특정 하드웨어(B200, MI355X)에서는 탁월하지만, 모든 하드웨어 타겟에서 보편적으로 가장 빠른 것은 아님
- Mojo 컴파일러 미오픈소스 — 2026년 Mojo 1.0과 함께 오픈소스화 예정; 현재는 표준 라이브러리 및 서빙 라이브러리 등만 공개됨
- 젊은 생태계 — vLLM에 비해 운영 환경에서의 검증이 적음; 커뮤니티 유지 관리 모델 구현이 적음
- 적은 지원 아키텍처 — 500개 이상의 모델도 인상적이지만 최첨단 또는 틈새 모델 지원은 vLLM/SGLang보다 좁음
- Mojo 학습 곡선 — Python 슈퍼셋으로 설계되었지만 고급 GPU 커널 개발에는 새로운 개념 학습이 필요함
- 고급 오케스트레이션의 유료화 — 프리필/디코딩 분리, 다중 모델 오케스트레이션 등의 기능은 오픈소스인 Community Edition이 아닌 Modular Cloud에서만 제공됨
주요 지표 비교
| 기능 | SGLang | vLLM | MAX (Modular) |
|---|---|---|---|
| GitHub 별점 | 약 25,000 | 약 75,000 | 약 25,600 |
| 라이선스 | Apache 2.0 | Apache 2.0 | Apache 2.0 + LLVM Exc. (커널/서빙); Modular Community License (컴파일러) |
| 상업 주체 | RadixArk (4억 달러 가치) | Inferact (1.5억 달러 유치) | Modular AI (16억 달러 가치) |
| 핵심 혁신 | RadixAttention (radix tree KV 캐시) | PagedAttention (가상 메모리 KV 캐시) | 풀스택 MLIR 컴파일러, CUDA 의존성 없음 |
| 배치 처리량 (H100) | 약 16,200 tok/s | 약 12,500 tok/s | 경쟁력 있음 (하드웨어 의존적) |
| 다회차 / 접두사 재사용 | 최고 (10–20% 향상, 최대 6.4배) | 좋음 (V1 이후 자동화) | 좋음 |
| 구조화된 출력 속도 | 가장 빠름 (xgrammar, 3–10배) | 표준 | 표준 |
| p99 TTFT (L40) | 약 18ms | 약 23.6ms | 약 13.1ms (최고) |
| 동시 요청 확장성 | 150개 이상에서 GIL 제한 | 최고 (C++ 라우팅) | 좋음 |
| 모델 지원 | 60+ 제품군, 멀티모달, TTS | 가장 광범위함 | 500+ HuggingFace 모델 |
| 하드웨어 지원 | NVIDIA, AMD, TPU, Intel, Apple | NVIDIA, AMD, Intel, TPU, ARM | NVIDIA, AMD, Apple, CPU |
| 컨테이너 크기 | 약 5–8 GB | 약 5–8 GB | 700 MB 미만 |
| TTS / 오디오 서빙 | 예 (Fish Audio S2) | 예 (vLLM-Omni) | 제한적 |
| 프리필/디코딩 분리 | 예 (운영 환경 검증 완료) | 예 (llm-d 프로젝트) | 예 (Modular Cloud 전용) |
선택 가이드
**다회차 챗봇, RAG 파이프라인, 구조화된 JSON 출력 또는 TTS 서빙(특히 Fish Audio S2 사용 시)**을 최적화하고 싶다면 SGLang을 선택하세요. RadixAttention과 xgrammar 백엔드는 이러한 워크로드에서 뚜렷한 성능 우위를 제공합니다.
가장 안전하고 검증된 옵션이며 광범위한 모델 및 하드웨어 호환성이 필요하다면 vLLM을 선택하세요. 거대한 커뮤니티와 기업 채택 사례, 포괄적인 Kubernetes 지원은 대규모 LLM 서빙에 있어 위험이 가장 적은 선택입니다.
다중 하드웨어 환경(NVIDIA + AMD + CPU)을 운영하거나, 작은 컨테이너 크기 및 운영 단순성을 중시한다면 MAX를 선택하세요. 컴파일러 기반 접근 방식은 독보적인 유연성을 제공하며, BentoML 인수를 통해 가장 완벽한 배포 플랫폼을 갖추게 되었습니다.
2026년 추론 기술의 흐름
세 가지 트렌드가 경쟁 지형을 재편하고 있습니다:
**프리필/디코딩 분리(Disaggregated P/D)**가 실험적 단계에서 표준으로 자리 잡았습니다. SGLang은 대규모 운영 환경에서 이를 입증했고, vLLM은 Kubernetes 네이티브 분리를 추진하고 있으며, NVIDIA의 Dynamo 오케스트레이터는 모든 주요 엔진과 통합됩니다.
멀티모달 서빙이 급격히 확장되고 있습니다. vLLM-Omni와 SGLang-Diffusion은 텍스트 LLM과 함께 확산 모델 및 TTS를 지원합니다. "LLM 엔진"과 "범용 모델 서버" 사이의 경계가 모호해지고 있습니다.
상업적 통합이 가속화되고 있습니다. 주요 엔진들의 높은 기업 가치와 투자 유치는 오픈소스 추론이 기업용 수익화 단계에 진입했음을 보여줍니다. HuggingFace TGI가 유지 관리 모드로 전환됨에 따라 2026년 말 현재 SGLang, vLLM, MAX가 세 가지 주요 오픈소스 추론 엔진으로 남게 되었습니다.
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
Sabrina Shu의 더 많은 글 보기
