4 de abr. de 2026Guia

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

Sabrina Shu, Support & Marketing Specialist

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

À medida que os modelos de IA passam da pesquisa para a produção, o motor de inferência que você escolhe determina sua latência, vazão (throughput) e custo de infraestrutura. O ecossistema de código aberto se consolidou em torno de três competidores sérios — cada um com uma filosofia arquitetônica distinta e um conjunto de compromissos.

Este post detalha o SGLang, o vLLM e o MAX (Modular) — os três motores mais importantes rumo ao final de 2026. Abordamos o que cada um faz, onde se destaca, onde falha e como se comparam diretamente.

SGLang

GitHub: sgl-project/sglang (~25K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.5.9 (Fevereiro de 2026)

Descrição

O SGLang (Structured Generation Language) é um framework de serviço de alto desempenho para LLMs e modelos multimodais, originalmente desenvolvido no Sky Computing Lab da UC Berkeley pela equipe do LMSYS.org. Em janeiro de 2026, o projeto SGLang tornou-se a RadixArk, uma startup comercial avaliada em ~$400 milhões em uma rodada liderada pela Accel — com investimento anjo do CEO da Intel, Lip-Bu Tan. O cofundador e CEO Ying Sheng atuou anteriormente como cientista de pesquisa na xAI.

A inovação central do SGLang é o RadixAttention, que utiliza uma estrutura de dados de árvore radix para reutilização automática e granular do cache KV. Isso o torna excepcionalmente rápido para conversas de múltiplos turnos, pipelines RAG e qualquer carga de trabalho com prefixos compartilhados. Seu motor de saída estruturada (backend xgrammar) é o mais rápido disponível em código aberto, oferecendo decodificação JSON até 10 vezes mais rápida que as alternativas.

O SGLang agora roda em mais de 400.000 GPUs em todo o mundo e gera trilhões de tokens diariamente, com usuários notáveis em produção incluindo xAI (como seu motor de LLM padrão), AMD, NVIDIA, LinkedIn e Cursor.

Fish Audio S2 & SGLang: O modelo S2 da Fish Audio — uma arquitetura TTS Dual-Autoregressive de 4B de parâmetros treinada em mais de 10 milhões de horas de áudio multilíngue — é estruturalmente isomórfico aos LLMs autorregressivos padrão. Isso significa que ele herda nativamente todas as otimizações do SGLang: batching contínuo, cache KV paginado, reprodução de grafo CUDA e RadixAttention. Para cargas de trabalho de clonagem de voz, o RadixAttention armazena em cache os estados KV do áudio de referência, alcançando uma taxa média de acerto de 86,4% no cache de prefixo — um ganho de eficiência massivo para o serviço de TTS em produção. A Fish Audio lançou o S2 em código aberto com suporte nativo de primeira classe ao SGLang.

Prós

Melhor vazão da categoria — ~29% mais rápido que o vLLM em benchmarks de vazão em lote (H100, Llama 3.1 8B, ShareGPT 1K prompts: ~16.200 tok/s vs ~12.500 tok/s)
RadixAttention oferece aceleração de 10 a 20% em chats de múltiplos turnos e até 6,4 vezes em cargas de trabalho RAG com muitos prefixos
Saída estruturada mais rápida — o backend xgrammar é de 3 a 10 vezes mais rápido que as alternativas para decodificação restrita de JSON/gramática
Amplo suporte a modalidades — mais de 60 famílias de LLM, mais de 30 modelos multimodais, modelos de embedding/recompensa, modelos de difusão (imagem e vídeo, até 5 vezes mais rápido) e TTS (Fish Audio S2)
Forte integração com RL — framework Miles (pela RadixArk) para ciclos de treinamento de aprendizado por reforço
Amplo suporte a hardware — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (via SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
Cadência de lançamento ativa — ciclo de lançamento de ~3 semanas, rápido suporte a novos modelos (primeiro a rodar DeepSeek R1 em escala com desagregação P/D em 96 H100s)

Contras

Comunidade menor — ~25K estrelas no GitHub vs ~75K do vLLM; menos integrações de terceiros e tutoriais
Apenas Linux — requer WSL no Windows; sem suporte nativo para serviço em GPU no macOS
Gargalo do Python GIL — o roteador de requisições atinge limites de escalabilidade acima de ~150 requisições simultâneas
Suporte limitado a GGUF — não é ideal para implantação em borda quantizada em comparação ao llama.cpp
Estabilidade — problemas ocasionais com dependências de versões candidate; menos testado em casos extremos de uso corporativo

vLLM

GitHub: vllm-project/vllm (~75K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.19.0 (Abril de 2026)

Descrição

O vLLM é o motor de serviço de LLM de código aberto mais amplamente adotado e o padrão de fato da indústria. Ele alimenta sistemas de produção na Amazon (Rufus, atendendo 250 milhões de clientes), LinkedIn, Roblox (4 bilhões de tokens/semana), Meta, Mistral AI, IBM e Stripe (que relatou uma redução de 73% nos custos de inferência). A equipe por trás do vLLM formou a Inferact, captando $150 milhões em janeiro de 2026 para comercializar o projeto.

A inovação fundamental do vLLM é o PagedAttention, que se baseia no gerenciamento de memória virtual de sistemas operacionais para dividir os caches KV em blocos não contíguos, reduzindo o desperdício de memória da GPU em até 80%. A reescrita da arquitetura V1 (padrão desde a v0.8.0, substituindo totalmente a V0 no terceiro trimestre de 2025) reestruturou o motor em uma arquitetura multiprocesso com agendador isolado, núcleo do motor e trabalhadores de GPU comunicando-se via ZeroMQ — entregando uma vazão até 1,7 vezes maior que o design original.

O vLLM possui o mais amplo suporte a modelos e hardware de qualquer motor: LLMs de texto (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), modelos de visão-linguagem (InternVL, Qwen2.5-VL, Pixtral), modelos de áudio (Qwen3-ASR/Omni) e modelos de embedding. O projeto separado vLLM-Omni estende o suporte a modelos de difusão e TTS. O hardware abrange NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, CPUs ARM e mainframes IBM Z.

Prós

Padrão da indústria — ~75K estrelas no GitHub, mais de 200 contribuidores por lançamento, o maior ecossistema de tutoriais, guias e integrações
Maior compatibilidade — mais arquiteturas de modelos e backends de hardware suportados do que qualquer outro motor
Provado em produção — testado em escala massiva (Amazon, Roblox, Stripe, Meta)
Arquitetura V1 — otimizações sem configuração, cache de prefixo automático, preenchimento em blocos unificado; a v0.16.0 adicionou agendamento assíncrono com melhoria de 30,8% na vazão
API compatível com OpenAI — substituição direta para endpoints da OpenAI
Forte presença no Kubernetes — Pilha de Produção oficial + projeto llm-d (Red Hat, Google Cloud, IBM, NVIDIA) para serviço desagregado
Escala em alta concorrência — o roteamento em C++ lida com mais de 150 requisições simultâneas melhor do que alternativas baseadas em Python

Contras

Vazão ~29% menor que a do SGLang em benchmarks de lote com cargas de trabalho de prefixo compartilhado
Cache de prefixo menos eficiente — o PagedAttention carece da reutilização automática de prefixos baseada em árvore radix do SGLang
Ritmo acelerado de desenvolvimento — ocasionalmente supera a estabilidade; a migração para V1 removeu alguns recursos (best_of, processadores de logits por requisição)
Focado em GPU — desempenho limitado de fallback em CPU
Saída estruturada — mais lenta que o xgrammar do SGLang para decodificação restrita

MAX (Modular)

GitHub: modular/modular (~25.6K estrelas) · Licença: Apache 2.0 + Exceções LLVM · Versão mais recente: v26.2 (Março de 2026) · Website: Modular

Descrição

O MAX adota uma abordagem fundamentalmente diferente do vLLM e do SGLang. Construído pela Modular AI — a empresa fundada por Chris Lattner (criador do LLVM e Swift) com $380 milhões captados a uma avaliação de$ 1,6 bilhão — o MAX utiliza uma pilha de compilador personalizada onde todos os kernels de GPU são escritos em Mojo, a linguagem de programação de sistemas da Modular construída sobre MLIR. Isso permite kernels independentes de hardware que visam NVIDIA, AMD e CPU a partir de uma única base de código, com imagens Docker de menos de 1GB.

A Modular abriu o código de mais de 450.000 linhas de kernel Mojo ao longo de 2025 sob Apache 2.0 com Exceções LLVM. Em fevereiro de 2026, a Modular adquiriu o BentoML (o framework de implantação de modelos de código aberto usado por mais de 10.000 organizações), integrando seu empacotamento, loteamento adaptativo e orquestração Kubernetes à plataforma MAX. A oferta combinada abrange inferência (MAX), implantação (BentoML) e orquestração empresarial (plano de controle Mammoth).

O MAX suporta mais de 500 modelos do Hugging Face, incluindo texto, visão-linguagem (Qwen2.5-VL, Kimi VL, Gemma 3/4) e geração de imagens (FLUX). A suíte de benchmarks InferenceMAX, desenvolvida em colaboração com a SemiAnalysis, roda diariamente em centenas de GPUs para fornecer dados de desempenho neutros e continuamente atualizados em inferencemax.ai.

Prós

Vazão competitiva ou superior — na NVIDIA L40 com Qwen3-8B: o MAX completou 500 prompts em 50,6s contra 54,2s do SGLang e 58,9s do vLLM (16% mais rápido que o vLLM); na Vast.ai com Llama 3.1 8B: 89,9 tok/s vs 75,9 do vLLM (18% mais rápido) com quase metade do TTFT
Menor latência de cauda — p99 TTFT de 13,1ms vs 23,6ms do vLLM em benchmarks L40
Portabilidade de hardware — os kernels Mojo compilam para NVIDIA, AMD e CPU a partir de um código; sem necessidade de manter implementações separadas de CUDA/ROCm
Menor pegada de container — imagens Docker com menos de 1GB, significativamente mais leves que vLLM ou SGLang
Plataforma full-stack — a aquisição do BentoML adiciona loteamento adaptativo, empacotamento OCI, BentoCloud serverless e implantação BYOC
Desenvolvimento de kernel personalizado — modo eager semelhante ao PyTorch com model.compile() para escrever kernels Mojo personalizados; kernels de multiplicação de matrizes atingiram 1.772 TFLOPS na B200
Financiamento de $380M — bem capitalizado, com longa autonomia e forte equipe de engenharia (337 funcionários)

Contras

Desempenho dependente de hardware — destaca-se em A100/L40S, mas fica abaixo do vLLM em GPUs H20 e L20; não é universalmente o mais rápido
Compilador Mojo ainda em código fechado — abertura prometida para o final de 2026, mas ainda indisponível; limita a customização profunda e contribuição da comunidade para o próprio compilador
Ecossistema mais jovem — menos testes em produção do que o vLLM; menos implementações de modelos mantidas pela comunidade
Menos arquiteturas suportadas — mais de 500 modelos é impressionante, mas ainda menos que vLLM/SGLang para modelos de ponta ou de nicho
Curva de aprendizado mais íngreme — Mojo é uma linguagem nova; as equipes precisam investir em aprendê-la para o desenvolvimento de kernels personalizados

Comparação Direta

Recurso	SGLang	vLLM	MAX (Modular)
Estrelas no GitHub	~25.000	~75.000	~25.600
Licença	Apache 2.0	Apache 2.0	Apache 2.0 + LLVM Exc.
Entidade Comercial	RadixArk (val. $400M)	Inferact (captação $150M)	Modular AI (val. $1,6B)
Inovação Principal	RadixAttention (cache KV em árvore radix)	PagedAttention (cache KV em memória virtual)	Kernels de compilador Mojo (MLIR)
Vazão de Lote (H100, Llama 3.1 8B)	~16.200 tok/s	~12.500 tok/s	Competitiva (depende do hardware)
Multi-turno / Reuso de Prefixo	Melhor (ganho de 10–20%, até 6,4×)	Bom (automático desde V1)	Bom
Velocidade de Saída Estruturada	Mais Rápida (xgrammar, 3–10×)	Padrão	Padrão
p99 TTFT (L40, Qwen3-8B)	~18ms	~23,6ms	~13,1ms (Melhor)
Escala de Requisições Simultâneas	Limitada pelo GIL acima de ~150	Melhor (roteamento em C++)	Bom
Suporte a Modelos	60+ famílias de LLM, 30+ multimodal, difusão, TTS	Mais amplo (texto, visão, áudio, embedding, omni)	500+ modelos HuggingFace
Suporte a Hardware	NVIDIA, AMD, TPU, Intel, Ascend, Apple Silicon	NVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM Z	NVIDIA, AMD, CPU
Kubernetes / Implantação	Movido pela comunidade	Production Stack + llm-d	Mammoth + BentoML
Tamanho do Container	~5–8 GB	~5–8 GB	<1 GB
Desenvolvimento de Kernel Custom	Extensões FlashInfer	Extensões C++/CUDA	Mojo (ergonomia tipo PyTorch)
Suporte a Modelo de Difusão	Sim (SGLang-Diffusion, Nov 2025)	Sim (vLLM-Omni, Nov 2025)	Sim (FLUX)
Serviço de TTS / Áudio	Sim (Fish Audio S2)	Sim (vLLM-Omni, Fish Speech)	Limitado
Integração de Treinamento RL	Sim (Miles pela RadixArk)	Não	Não
Decodificação Especulativa	Sim	Sim (Roblox: redução de 50% na latência)	Sim
Prefill/Decode Desagregado	Sim (produção em 96 H100s)	Sim (projeto llm-d)	Limitado

Quando usar o quê

Escolha o SGLang se você estiver otimizando para chatbots de múltiplos turnos, pipelines RAG, saída JSON estruturada ou serviço de TTS (especialmente com o Fish Audio S2). O RadixAttention e o backend xgrammar do SGLang oferecem vantagens de desempenho mensuráveis nessas cargas de trabalho, e o respaldo comercial da RadixArk garante suporte a longo prazo.

Escolha o vLLM se você precisar da opção mais segura e comprovada em produção, com a mais ampla compatibilidade de modelos e hardware. A comunidade de 75 mil estrelas do vLLM, sua adoção empresarial (Amazon, Roblox, Stripe) e o suporte abrangente ao Kubernetes o tornam a escolha de menor risco para serviços gerais de LLM em escala.

Escolha o MAX se você estiver executando ambientes multi-hardware (NVIDIA + AMD + CPU), se importar com a pegada do container e simplicidade operacional, ou quiser investir no desenvolvimento de kernels personalizados com Mojo. A abordagem baseada em compilador do MAX oferece uma flexibilidade única, e a aquisição do BentoML fornece a plataforma de implantação mais completa dos três.

O que está moldando a inferência em 2026

Três tendências estão reformulando o cenário competitivo:

O prefill/decode desagregado passou de experimental para padrão. O SGLang demonstrou P/D em escala de produção em 96 H100s para o DeepSeek; o projeto llm-d do vLLM (Red Hat, Google Cloud, IBM, NVIDIA) impulsiona a desagregação nativa do Kubernetes; e o orquestrador Dynamo da NVIDIA se integra a todos os principais motores.

O serviço multimodal está se expandindo rapidamente. O vLLM-Omni e o SGLang-Diffusion foram lançados no final de 2025, suportando modelos de difusão e TTS ao lado dos LLMs tradicionais. A linha entre "motor de LLM" e "servidor de modelos gerais" está se tornando tênue.

A consolidação comercial está acelerando. RadixArk (avaliação de $400M), Inferact (captação de$ 150M para vLLM) e Modular (avaliação de $1,6B + aquisição da BentoML) confirmam que a inferência de código aberto entrou em sua fase de monetização empresarial. O TGI da HuggingFace entrou em modo de manutenção — deixando SGLang, vLLM e MAX como os três principais motores de inferência de código aberto rumo ao final de 2026.

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Inscreva-se grátis

Já tem uma conta? Entrar

Last Updates

Capa do blog com fundo de pintura a óleo impressionista abstrata em tons quentes de creme e pêssego. Manchete no canto superior esquerdo 'Realizamos testes cego de nosso TTS contra todos os principais concorrentes' com uma linha de quatro cartões de vidro fosco abaixo mostrando as pontuações Bradley-Terry: Fish Audio S2 Pro em 3,07 com 66% de taxa de vitória, Fish Audio S1, ElevenLabs V3 e Inworld.

5 de abr. de 2026Pesquisa

Realizamos Testes Cego de Nosso TTS Contra Todos os Principais Concorrentes. Aqui Estão os Resultados.

Shijia LiaoChief Scientist

4 de abr. de 2026Guia

7 Provedores de Inferência de Modelos Open-Source Comparados: Qual Você Deve Escolher em 2026?

Sabrina ShuSupport & Marketing Specialist

Guia de alternativas ao Fish Audio 2026 — comparando as principais plataformas de IA de conversão de texto em fala

3 de abr. de 2026Info

Procurando uma alternativa ao Fish Audio? Leia isto antes de mudar (Guia 2026)

Sabrina ShuSupport & Marketing Specialist

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

SGLang

Descrição

Prós

Contras

vLLM

Descrição

Prós

Contras

MAX (Modular)

Descrição

Prós

Contras

Comparação Direta

Quando usar o quê

O que está moldando a inferência em 2026

Crie vozes que parecem reais

Last Updates

Realizamos Testes Cego de Nosso TTS Contra Todos os Principais Concorrentes. Aqui Estão os Resultados.

7 Provedores de Inferência de Modelos Open-Source Comparados: Qual Você Deve Escolher em 2026?

Procurando uma alternativa ao Fish Audio? Leia isto antes de mudar (Guia 2026)

Recommended

Realizamos Testes Cego de Nosso TTS Contra Todos os Principais Concorrentes. Aqui Estão os Resultados.

Ferramenta de Transcrição de Podcast — Como Transcrever seu Podcast com o Fish Audio

O Melhor TTS com IA para Equipes Criativas! O Plano Team da Fish Audio Explicado

Fish Audio S2! Controle de Voz por IA de Grão Fino ao Nível da Palavra

Fish Audio Lança S2 em Código Aberto: Controle Granular Encontra Streaming de Produção

Como Usar o SAM Audio para Separação de Áudio Passo a Passo