4. Apr. 2026Leitfaden

Vergleich von Open-Source-LLM-Inferenz-Engines: SGLang, vLLM, MAX und BentoML 2026

Sabrina Shu, Support & Marketing Specialist

Vergleich von Open-Source-LLM-Inferenz-Engines: SGLang, vLLM, MAX und BentoML 2026

Da KI-Modelle von der Forschung in die Produktion übergehen, bestimmt die gewählte Inferenz-Engine Ihre Latenz, Ihren Durchsatz und Ihre Infrastrukturkosten. Das Open-Source-Ökosystem hat sich auf drei ernsthafte Konkurrenten konzentriert – jeder mit einer eigenen Architekturphilosophie und spezifischen Kompromissen.

Dieser Beitrag analysiert SGLang, vLLM und MAX (Modular) – die drei wichtigsten Engines bis Ende 2026. Wir decken ab, was jede einzelne leistet, wo ihre Stärken und Schwächen liegen und wie sie im direkten Vergleich abschneiden.

SGLang

GitHub: sgl-project/sglang (~25.000 Sterne) · Lizenz: Apache 2.0 · Aktuellste Version: v0.5.9 (Feb. 2026)

SGLang GitHub

Beschreibung

SGLang (Structured Generation Language) ist ein leistungsstarkes Serving-Framework für LLMs und multimodale Modelle, das ursprünglich am Sky Computing Lab der UC Berkeley vom LMSYS.org-Team entwickelt wurde. Im Januar 2026 wurde das SGLang-Projekt als RadixArk ausgegründet, ein kommerzielles Startup, das in einer von Accel angeführten Runde mit ~400 Mio. $ bewertet wurde – mit Angel-Investitionen vom Intel-CEO Lip-Bu Tan. Mitbegründer und CEO Ying Sheng war zuvor als Forschungswissenschaftler bei xAI tätig.

Die Kerninnovation von SGLang ist RadixAttention, die eine Radix-Baum-Datenstruktur für die automatische, feingranulare Wiederverwendung des KV-Caches nutzt. Dies macht die Engine außergewöhnlich schnell für Multi-Turn-Konversationen, RAG-Pipelines und alle Workloads mit geteilten Präfixen. Die Engine für strukturierte Ausgaben (xgrammar Backend) ist die schnellste im Open-Source-Bereich verfügbare Lösung und liefert eine bis zu 10-mal schnellere JSON-Dekodierung als Alternativen.

SGLang läuft mittlerweile auf über 400.000 GPUs weltweit und generiert täglich Billionen von Token. Zu den namhaften Produktionsnutzern gehören xAI (als Standard-LLM-Engine), AMD, NVIDIA, LinkedIn und Cursor.

Fish Audio S2 & SGLang: Das S2-Modell von Fish Audio – eine 4B-Parameter Dual-Autoregressive TTS-Architektur, die auf über 10 Mio. Stunden multilingualem Audio trainiert wurde – ist strukturell isomorph zu standardmäßigen autoregressiven LLMs. Das bedeutet, dass es nativ alle Optimierungen von SGLang erbt: Continuous Batching, Paged KV Cache, CUDA Graph Replay und RadixAttention. Bei Voice-Cloning-Workloads cached RadixAttention die KV-Zustände des Referenz-Audios und erreicht so eine durchschnittliche Präfix-Cache-Trefferquote von 86,4 % – ein massiver Effizienzgewinn für das produktive TTS-Serving. Fish Audio hat S2 mit erstklassiger SGLang-Unterstützung als Open-Source veröffentlicht.

Vorteile

Best-in-Class-Durchsatz – ca. 29 % schneller als vLLM in Batch-Durchsatz-Benchmarks (H100, Llama 3.1 8B, ShareGPT 1K Prompts: ~16.200 tok/s vs. ~12.500 tok/s)
RadixAttention liefert 10–20 % Geschwindigkeitssteigerung bei Multi-Turn-Chats und bis zu 6,4-fach bei präfixintensiven RAG-Workloads
Schnellste strukturierte Ausgabe – das xgrammar Backend ist 3–10-mal schneller als Alternativen bei der eingeschränkten JSON-/Grammatik-Dekodierung
Breite Modalitätsunterstützung – über 60 LLM-Familien, über 30 multimodale Modelle, Embedding-/Reward-Modelle, Diffusionsmodelle (Bild & Video, bis zu 5-mal schneller) und TTS (Fish Audio S2)
Starke RL-Integration – Miles-Framework (von RadixArk) für Reinforcement Learning Trainingsschleifen
Breite Hardware-Unterstützung – NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (via SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
Aktive Release-Zyklen – ca. 3-wöchiger Veröffentlichungszyklus, schnelle Unterstützung neuer Modelle (als Erste, die DeepSeek R1 skaliert mit P/D-Disaggregation auf 96 H100s ausführten)

Nachteile

Kleinere Community – ~25.000 GitHub-Sterne gegenüber ~75.000 bei vLLM; weniger Drittanbieter-Integrationen und Tutorials
Nur Linux – erfordert WSL unter Windows; kein natives macOS GPU-Serving
Python GIL-Engpass – der Request-Router stößt bei über ~150 gleichzeitigen Anfragen an Skalierungsgrenzen
Eingeschränkte GGUF-Unterstützung – im Vergleich zu llama.cpp nicht ideal für quantisierte Edge-Bereitstellungen
Stabilität – gelegentliche Probleme mit Abhängigkeiten in Release-Kandidaten; weniger praxiserprobt bei extremen Enterprise-Spezialfällen

vLLM

GitHub: vllm-project/vllm (~75.000 Sterne) · Lizenz: Apache 2.0 · Aktuellste Version: v0.19.0 (Apr. 2026)

vLLM GitHub

Beschreibung

vLLM ist die am weitesten verbreitete Open-Source-LLM-Serving-Engine und der De-facto-Industriestandard. Sie treibt Produktionssysteme bei Amazon (Rufus, bedient 250 Mio. Kunden), LinkedIn, Roblox (4 Mrd. Token/Woche), Meta, Mistral AI, IBM und Stripe (das eine Reduzierung der Inferenzkosten um 73 % meldete) an. Das Team hinter vLLM gründete Inferact und sammelte im Januar 2026 150 Mio. $ ein, um das Projekt zu kommerzialisieren.

Die grundlegende Innovation von vLLM ist PagedAttention, die sich an der virtuellen Speicherverwaltung von Betriebssystemen orientiert, um KV-Caches in nicht zusammenhängende Blöcke aufzuteilen und so den GPU-Speicher-Verschnitt um bis zu 80 % zu reduzieren. Der V1 Architektur-Rewrite (Standard seit v0.8.0, vollständiger Ersatz von V0 bis Q3 2025) strukturierte die Engine in eine Multi-Prozess-Architektur mit isoliertem Scheduler, Engine-Kern und GPU-Workern um, die über ZeroMQ kommunizieren – was einen bis zu 1,7-mal höheren Durchsatz als das ursprüngliche Design ermöglicht.

vLLM bietet die breiteste Modell- und Hardware-Unterstützung aller Engines: Text-LLMs (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), Vision-Language-Modelle (InternVL, Qwen2.5-VL, Pixtral), Audiomodelle (Qwen3-ASR/Omni) und Embedding-Modelle. Das separate Projekt vLLM-Omni erweitert die Unterstützung auf Diffusions- und TTS-Modelle. Die Hardware reicht von NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, ARM-CPUs bis hin zu IBM Z Mainframes.

Vorteile

Industriestandard – ~75.000 GitHub-Sterne, über 200 Mitwirkende pro Release, größtes Ökosystem an Tutorials, Anleitungen und Integrationen
Breiteste Kompatibilität – mehr unterstützte Modellarchitekturen und Hardware-Backends als jede andere Engine
Produktionserprobt – bewährt in massivem Maßstab (Amazon, Roblox, Stripe, Meta)
V1-Architektur – Zero-Config-Optimierungen, automatisches Präfix-Caching, Unified Chunked Prefill; v0.16.0 fügte asynchrones Scheduling mit einer Durchsatzverbesserung von 30,8 % hinzu
OpenAI-kompatible API – Drop-in-Ersatz für OpenAI-Endpunkte
Starkes Kubernetes-Konzept – offizieller Production Stack + llm-d Projekt (Red Hat, Google Cloud, IBM, NVIDIA) für disaggregiertes Serving
Skaliert bei extremer Gleichzeitigkeit – C++ Routing bewältigt über 150 gleichzeitige Anfragen besser als Python-basierte Alternativen

Nachteile

Ca. 29 % langsamerer Durchsatz als SGLang in Batch-Benchmarks bei Workloads mit geteilten Präfixen
Weniger effizientes Präfix-Caching – PagedAttention fehlt die automatische, auf Radix-Bäumen basierende Präfix-Wiederverwendung von SGLang
Hohes Entwicklungstempo – geht gelegentlich zu Lasten der Stabilität; die V1-Migration entfernte einige Funktionen (best_of, Logits-Prozessoren pro Anfrage)
GPU-fokussiert – eingeschränkte CPU-Fallback-Leistung
Strukturierte Ausgabe – langsamer als das xgrammar Backend von SGLang bei eingeschränkter Dekodierung

MAX (Modular)

GitHub: modular/modular (~25.600 Sterne) · Lizenz: Apache 2.0 + LLVM Exceptions (Open-Source Kernel, Stdlib, Modellarchitekturen, Serving-Library); Modular Community License (Compiler-Binärdatei) · Aktuellste Version: v26.2 (März 2026) · Website: Modular

MAX GitHub

Beschreibung

MAX verfolgt einen grundlegend anderen Ansatz als vLLM und SGLang. Während andere Engines auf CUDA-Bibliotheken (cuBLAS, cuDNN, FlashAttention, FlashInfer) aufbauen, ist MAX der einzige voll vertikal integrierte Inferenz-Stack, der ohne CUDA-Abhängigkeit entwickelt wurde – von GPU-Kerneln (Mojo) über das Model-Serving (MAX Serve) bis hin zur Cluster-Orchestrierung (BentoML + Modular Cloud) wurde die gesamte Inferenz-Pipeline von Grund auf auf MLIR aufgebaut, ohne Abhängigkeit von hardware-spezifischen Bibliotheken.

Hinweis: MAX als Plattform ist breiter gefasst als eine Serving-Engine – sie enthält eine PyTorch-ähnliche Modellentwicklungs-API (model.compile(), Eager-Modus), die eher mit PyTorch selbst vergleichbar ist. MAX Serve ist die Inferenz-Serving-Komponente, die direkt mit vLLM und SGLang konkurriert. Der Einfachheit halber vergleicht dieser Beitrag sie unter dem Dachnamen "MAX", da Endnutzer typischerweise mit dem gesamten Stack interagieren.

MAX wird von Modular AI entwickelt – 2022 von Chris Lattner (Schöpfer von LLVM, Clang, Swift und MLIR) und Tim Davis (Mitschöpfer von TensorFlow Lite, skaliert auf Milliarden von Geräten bei Google) mitbegründet – mit 380 Mio. $Kapital bei einer Bewertung von 1,6 Mrd.$ . Mojo, Modulars Systemprogrammiersprache auf Basis von MLIR, ermöglicht hardware-agnostische Kernel für NVIDIA, AMD, Apple Silicon und CPUs aus einer einzigen Codebasis, mit Docker-Images unter 700 MB.

Modular hat über 750.000 Zeilen Mojo-Code unter Apache 2.0 mit LLVM Exceptions veröffentlicht, einschließlich produktionsreifer GPU-Kernel, der vollständigen Standardbibliothek, Modellarchitekturen und der MAX Serving-Library. Der Mojo-Compiler selbst soll 2026 zusammen mit dem Release von Mojo 1.0 als Open-Source veröffentlicht werden. Im Februar 2026 übernahm Modular BentoML (das Open-Source-Framework für Modell-Deployment, das von über 10.000 Organisationen genutzt wird) und erweiterte den Stack um Produktions-Deployment und Cloud-Orchestrierung.

MAX unterstützt über 500 Modelle von Hugging Face, darunter Text, Vision-Language (Qwen2.5-VL, Kimi VL, Gemma 3/4) und Bildgenerierung (FLUX).

Vorteile

Einziger Inferenz-Stack, der komplett ohne CUDA entwickelt wurde – Mojo-Kernel ersetzen cuBLAS, cuDNN und FlashAttention durch eine einzige portable Codebasis; Matmul-Kernel haben 1.772 TFLOPS auf B200 erreicht und übertreffen damit cuBLAS
Konkurrenzfähiger oder überlegener Durchsatz – auf NVIDIA L40 mit Qwen3-8B: MAX schloss 500 Prompts in 50,6 s ab, verglichen mit 54,2 s bei SGLang und 58,9 s bei vLLM (16 % schneller als vLLM); auf Vast.ai mit Llama 3.1 8B: 89,9 tok/s vs. 75,9 bei vLLM (18 % schneller) bei fast halbierter TTFT
Geringste Tail-Latency – p99 TTFT von 13,1 ms gegenüber 23,6 ms bei vLLM in L40 Benchmarks
Hardware-portabel – Mojo-Kernel lassen sich für NVIDIA, AMD, Apple Silicon und CPUs aus einer Codebasis kompilieren; keine separaten CUDA/ROCm-Implementierungen nötig
Kleinster Container-Footprint – Docker-Images unter 700 MB, deutlich leichter als vLLM oder SGLang
Modernste Bildgenerierung – MAX bedient nativ Diffusionsmodelle (FLUX.2, SDXL) neben LLMs im selben Container und über dieselbe API, mit 4,1-fach schnellerer Inferenz als torch.compile auf B200
Eigene Kernel-Entwicklung – PyTorch-ähnlicher Eager-Modus mit model.compile() zum Schreiben eigener Mojo-Kernel, mit vollständigen Open-Source-Kernel-Implementierungen als Referenz
Tiefe Open-Source-Compiler-Wurzeln – geleitet von Chris Lattner, dem Schöpfer von LLVM (nach dem vLLM benannt wurde); derselbe community-getriebene Ansatz, der LLVM zum Industriestandard machte, wird nun auf MAX und Mojo angewendet
380 Mio. $ Finanzierung – gut kapitalisiert mit langem Atem und starkem Ingenieursteam (337 Mitarbeiter)

Nachteile

Hardware-abhängige Performance – exzellent auf NVIDIA B200 und AMD MI355X, aber die Leistung variiert über GPU-Generationen hinweg; nicht universell am schnellsten auf jedem Hardware-Ziel
Mojo-Compiler noch nicht Open-Source – Veröffentlichung für 2026 zusammen mit Mojo 1.0 geplant; die Standardbibliothek, Kernel, Modellarchitekturen und Serving-Library sind bereits Open-Source (über 750.000 Zeilen)
Jüngeres Ökosystem – weniger Praxiserprobung in der Produktion als vLLM; weniger von der Community gepflegte Modellimplementierungen
Weniger unterstützte Architekturen – über 500 Modelle sind beeindruckend, aber immer noch weniger als bei vLLM/SGLang für topaktuelle oder Nischenmodelle
Mojo-Lernkurve für Kernel-Entwicklung – Mojo ist als Python-Superset für einfache Adoption konzipiert, aber die fortgeschrittene GPU-Kernel-Entwicklung erfordert dennoch das Erlernen neuer Konzepte
Disaggregierte Inferenz und Orchestrierung nicht Open-Source – Funktionen wie getrenntes Prefill/Decode, KV-Cache-bewusstes Routing, Multi-Modell-Orchestrierung und Autoscaling über gemischte GPU-Flotten sind über Modular Cloud verfügbar, nicht in der selbst gehosteten Community Edition

Direkter Vergleich

Funktion	SGLang	vLLM	MAX (Modular)
GitHub-Sterne	~25.000	~75.000	~25.600
Lizenz	Apache 2.0	Apache 2.0	Apache 2.0 + LLVM Exc. (Kernel/Stdlib/Serving); Modular Community License (Compiler)
Kommerzielles Unternehmen	RadixArk (400 Mio. $ Bew.)	Inferact (150 Mio. $ Finanz.)	Modular AI (1,6 Mrd. $ Bew.)
Kerninnovation	RadixAttention (Radix-Baum KV-Cache)	PagedAttention (Virtueller Speicher KV-Cache)	Full-Stack MLIR Compiler, keine CUDA-Abhängigkeit
Batch-Durchsatz (H100, Llama 3.1 8B)	~16.200 tok/s	~12.500 tok/s	Konkurrenzfähig (hardware-abhängig)
Multi-Turn / Präfix-Wiederverwendung	Bestbewertung (10–20 % Gewinn, bis 6,4x)	Gut (automatisch seit V1)	Gut
Geschwindigkeit strukt. Ausgaben	Am schnellsten (xgrammar, 3–10x)	Standard	Standard
p99 TTFT (L40, Qwen3-8B)	~18 ms	~23,6 ms	~13,1 ms (Bestwert)
Skalierung gleichzeitiger Anfragen	GIL-limitiert über ~150	Bestwert (C++ Routing)	Gut
Modellunterstützung	60+ LLM-Fam., 30+ multimodal, Diffusion, TTS	Breiteste (Text, Vision, Audio, Embedding, Omni)	500+ HuggingFace-Modelle
Hardwareunterstützung	NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon	NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z	NVIDIA, AMD, Apple Silicon, CPU
Kubernetes / Deployment	Community-getrieben	Production Stack + llm-d	Mammoth + BentoML
Containergröße	~5–8 GB	~5–8 GB	<700 MB
Eigene Kernel-Entw.	FlashInfer-Erweiterungen	C++/CUDA-Erweiterungen	Mojo (PyTorch-ähnliche Ergonomie)
Diffusion-Modell-Unterstützung	Ja (SGLang-Diffusion, Nov. 2025)	Ja (vLLM-Omni, Nov. 2025)	Ja (FLUX, 4,1x schneller als torch.compile)
TTS / Audio-Serving	Ja (Fish Audio S2)	Ja (vLLM-Omni, Fish Speech)	Begrenzt
RL-Trainings-Integration	Ja (Miles von RadixArk)	Nein	Nein
Spekulatives Decoding	Ja	Ja (Roblox: 50 % Latenzreduktion)	Ja
Getrenntes Prefill/Decode	Ja (Produktion auf 96 H100s)	Ja (llm-d Projekt)	Ja (nur Modular Cloud)

Wann man was verwenden sollte

Wählen Sie SGLang, wenn Sie für Multi-Turn-Chatbots, RAG-Pipelines, strukturierte JSON-Ausgaben oder TTS-Serving (insbesondere mit Fish Audio S2) optimieren. Die RadixAttention und das xgrammar Backend von SGLang bieten messbare Leistungsvorteile in diesen Workloads, und die kommerzielle Unterstützung durch RadixArk gewährleistet langfristigen Support.

Wählen Sie vLLM, wenn Sie die sicherste, am meisten produktionserprobte Option mit der breitesten Modell- und Hardwarekompatibilität benötigen. Die Community von vLLM mit 75.000 Sternen, die Akzeptanz in Unternehmen (Amazon, Roblox, Stripe) und die umfassende Kubernetes-Unterstützung machen es zur risikoärmsten Wahl für allgemeines LLM-Serving in großem Maßstab.

Wählen Sie MAX, wenn Sie in Umgebungen mit unterschiedlicher Hardware arbeiten (NVIDIA + AMD + CPU), Wert auf den Container-Footprint und die operative Einfachheit legen oder in die Entwicklung eigener Kernel mit Mojo investieren möchten. Der compiler-gesteuerte Ansatz von MAX bietet eine einzigartige Flexibilität, und durch die Übernahme von BentoML verfügt es über die vollständigste Deployment-Plattform der drei Kandidaten.

Was die Inferenz im Jahr 2026 prägt

Drei Trends verändern die Wettbewerbslandschaft:

Getrenntes (disaggregiertes) Prefill/Decode hat sich vom Experiment zum Standard entwickelt. SGLang demonstrierte P/D im Produktionsmaßstab auf 96 H100s für DeepSeek; das llm-d Projekt von vLLM (Red Hat, Google Cloud, IBM, NVIDIA) treibt die Kubernetes-native Disaggregation voran; und der Dynamo-Orchestrator von NVIDIA lässt sich in alle großen Engines integrieren.

Multimodales Serving expandiert rasant. vLLM-Omni und SGLang-Diffusion starteten beide Ende 2025 und unterstützen Diffusionsmodelle sowie TTS neben traditionellen LLMs. Die Grenze zwischen "LLM-Engine" und "allgemeinem Modell-Server" verschwimmt.

Kommerzielle Konsolidierung beschleunigt sich. RadixArk (400 Mio. $Bewertung), Inferact (150 Mio.$ Finanzierung für vLLM) und Modular (1,6 Mrd. $ Bewertung + BentoML-Übernahme) bestätigen, dass die Open-Source-Inferenz in ihre kommerzielle Phase für Unternehmen eingetreten ist. HuggingFace TGI ist in den Wartungsmodus gewechselt – womit SGLang, vLLM und MAX die drei primären Open-Source-Inferenz-Engines bis Ende 2026 bleiben.

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Last Updates

20. Juli 2026Creator Spotlight

Alex Lee: Using AI Voice to Build More Human Characters

Fish Audio CommunityFish Audio Community Team

Fish Voice Dispute, so melden Sie einen Anspruch auf Spracheigentum bei Fish Audio

4. Juli 2026Info

So reichen Sie eine Urheberrechtsbeschwerde für ein KI-Sprachmodell auf Fish Audio ein

Sabrina ShuSupport & Marketing Specialist

3. Juli 2026Creator Spotlight

The Monster Library: Wie ein Drei-Personen-Studio eine Charakter-IP auf über 1,5 Mio. Fans ausbaute

Fish Audio CommunityFish Audio Community Team

Vergleich von Open-Source-LLM-Inferenz-Engines: SGLang, vLLM, MAX und BentoML 2026

SGLang

Beschreibung

Vorteile

Nachteile

vLLM

Beschreibung

Vorteile

Nachteile

MAX (Modular)

Beschreibung

Vorteile

Nachteile

Direkter Vergleich

Wann man was verwenden sollte

Was die Inferenz im Jahr 2026 prägt

Erstelle Stimmen, die echt wirken

Last Updates

Alex Lee: Using AI Voice to Build More Human Characters

So reichen Sie eine Urheberrechtsbeschwerde für ein KI-Sprachmodell auf Fish Audio ein

The Monster Library: Wie ein Drei-Personen-Studio eine Charakter-IP auf über 1,5 Mio. Fans ausbaute

Recommended

Fish Audio S2.1 Pro: Kostenlose Text-to-Speech API für Entwickler

Professionelles Voice Cloning: Ein verifizierter Klon Ihrer Stimme in Studioqualität

AI Voice Design: Erstellen Sie eine individuelle Stimme aus einem einfachen Text-Prompt

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Bestes KI-TTS für Kreativteams! Der Fish Audio Team-Plan erklärt