Oferta por tempo limitado- 50% DE DESCONTO ANUALResgatar
4 de abr. de 2026Guia

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

À medida que os modelos de IA passam da pesquisa para a produção, o motor de inferência que você escolhe determina sua latência, vazão (throughput) e custo de infraestrutura. O ecossistema de código aberto se consolidou em torno de três competidores sérios — cada um com uma filosofia arquitetônica distinta e um conjunto de compromissos.

Este post detalha o SGLang, o vLLM e o MAX (Modular) — os três motores mais importantes rumo ao final de 2026. Abordamos o que cada um faz, onde se destaca, onde falha e como se comparam diretamente.


SGLang

GitHub: sgl-project/sglang (~25K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.5.9 (Fevereiro de 2026)

Descrição

O SGLang (Structured Generation Language) é um framework de serviço de alto desempenho para LLMs e modelos multimodais, originalmente desenvolvido no Sky Computing Lab da UC Berkeley pela equipe do LMSYS.org. Em janeiro de 2026, o projeto SGLang tornou-se a RadixArk, uma startup comercial avaliada em ~$400 milhões em uma rodada liderada pela Accel — com investimento anjo do CEO da Intel, Lip-Bu Tan. O cofundador e CEO Ying Sheng atuou anteriormente como cientista de pesquisa na xAI.

A inovação central do SGLang é o RadixAttention, que utiliza uma estrutura de dados de árvore radix para reutilização automática e granular do cache KV. Isso o torna excepcionalmente rápido para conversas de múltiplos turnos, pipelines RAG e qualquer carga de trabalho com prefixos compartilhados. Seu motor de saída estruturada (backend xgrammar) é o mais rápido disponível em código aberto, oferecendo decodificação JSON até 10 vezes mais rápida que as alternativas.

O SGLang agora roda em mais de 400.000 GPUs em todo o mundo e gera trilhões de tokens diariamente, com usuários notáveis em produção incluindo xAI (como seu motor de LLM padrão), AMD, NVIDIA, LinkedIn e Cursor.

Fish Audio S2 & SGLang: O modelo S2 da Fish Audio — uma arquitetura TTS Dual-Autoregressive de 4B de parâmetros treinada em mais de 10 milhões de horas de áudio multilíngue — é estruturalmente isomórfico aos LLMs autorregressivos padrão. Isso significa que ele herda nativamente todas as otimizações do SGLang: batching contínuo, cache KV paginado, reprodução de grafo CUDA e RadixAttention. Para cargas de trabalho de clonagem de voz, o RadixAttention armazena em cache os estados KV do áudio de referência, alcançando uma taxa média de acerto de 86,4% no cache de prefixo — um ganho de eficiência massivo para o serviço de TTS em produção. A Fish Audio lançou o S2 em código aberto com suporte nativo de primeira classe ao SGLang.

Prós

  • Melhor vazão da categoria — ~29% mais rápido que o vLLM em benchmarks de vazão em lote (H100, Llama 3.1 8B, ShareGPT 1K prompts: ~16.200 tok/s vs ~12.500 tok/s)
  • RadixAttention oferece aceleração de 10 a 20% em chats de múltiplos turnos e até 6,4 vezes em cargas de trabalho RAG com muitos prefixos
  • Saída estruturada mais rápida — o backend xgrammar é de 3 a 10 vezes mais rápido que as alternativas para decodificação restrita de JSON/gramática
  • Amplo suporte a modalidades — mais de 60 famílias de LLM, mais de 30 modelos multimodais, modelos de embedding/recompensa, modelos de difusão (imagem e vídeo, até 5 vezes mais rápido) e TTS (Fish Audio S2)
  • Forte integração com RL — framework Miles (pela RadixArk) para ciclos de treinamento de aprendizado por reforço
  • Amplo suporte a hardware — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (via SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
  • Cadência de lançamento ativa — ciclo de lançamento de ~3 semanas, rápido suporte a novos modelos (primeiro a rodar DeepSeek R1 em escala com desagregação P/D em 96 H100s)

Contras

  • Comunidade menor — ~25K estrelas no GitHub vs ~75K do vLLM; menos integrações de terceiros e tutoriais
  • Apenas Linux — requer WSL no Windows; sem suporte nativo para serviço em GPU no macOS
  • Gargalo do Python GIL — o roteador de requisições atinge limites de escalabilidade acima de ~150 requisições simultâneas
  • Suporte limitado a GGUF — não é ideal para implantação em borda quantizada em comparação ao llama.cpp
  • Estabilidade — problemas ocasionais com dependências de versões candidate; menos testado em casos extremos de uso corporativo

vLLM

GitHub: vllm-project/vllm (~75K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.19.0 (Abril de 2026)

Descrição

O vLLM é o motor de serviço de LLM de código aberto mais amplamente adotado e o padrão de fato da indústria. Ele alimenta sistemas de produção na Amazon (Rufus, atendendo 250 milhões de clientes), LinkedIn, Roblox (4 bilhões de tokens/semana), Meta, Mistral AI, IBM e Stripe (que relatou uma redução de 73% nos custos de inferência). A equipe por trás do vLLM formou a Inferact, captando $150 milhões em janeiro de 2026 para comercializar o projeto.

A inovação fundamental do vLLM é o PagedAttention, que se baseia no gerenciamento de memória virtual de sistemas operacionais para dividir os caches KV em blocos não contíguos, reduzindo o desperdício de memória da GPU em até 80%. A reescrita da arquitetura V1 (padrão desde a v0.8.0, substituindo totalmente a V0 no terceiro trimestre de 2025) reestruturou o motor em uma arquitetura multiprocesso com agendador isolado, núcleo do motor e trabalhadores de GPU comunicando-se via ZeroMQ — entregando uma vazão até 1,7 vezes maior que o design original.

O vLLM possui o mais amplo suporte a modelos e hardware de qualquer motor: LLMs de texto (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), modelos de visão-linguagem (InternVL, Qwen2.5-VL, Pixtral), modelos de áudio (Qwen3-ASR/Omni) e modelos de embedding. O projeto separado vLLM-Omni estende o suporte a modelos de difusão e TTS. O hardware abrange NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, CPUs ARM e mainframes IBM Z.

Prós

  • Padrão da indústria — ~75K estrelas no GitHub, mais de 200 contribuidores por lançamento, o maior ecossistema de tutoriais, guias e integrações
  • Maior compatibilidade — mais arquiteturas de modelos e backends de hardware suportados do que qualquer outro motor
  • Provado em produção — testado em escala massiva (Amazon, Roblox, Stripe, Meta)
  • Arquitetura V1 — otimizações sem configuração, cache de prefixo automático, preenchimento em blocos unificado; a v0.16.0 adicionou agendamento assíncrono com melhoria de 30,8% na vazão
  • API compatível com OpenAI — substituição direta para endpoints da OpenAI
  • Forte presença no Kubernetes — Pilha de Produção oficial + projeto llm-d (Red Hat, Google Cloud, IBM, NVIDIA) para serviço desagregado
  • Escala em alta concorrência — o roteamento em C++ lida com mais de 150 requisições simultâneas melhor do que alternativas baseadas em Python

Contras

  • Vazão ~29% menor que a do SGLang em benchmarks de lote com cargas de trabalho de prefixo compartilhado
  • Cache de prefixo menos eficiente — o PagedAttention carece da reutilização automática de prefixos baseada em árvore radix do SGLang
  • Ritmo acelerado de desenvolvimento — ocasionalmente supera a estabilidade; a migração para V1 removeu alguns recursos (best_of, processadores de logits por requisição)
  • Focado em GPU — desempenho limitado de fallback em CPU
  • Saída estruturada — mais lenta que o xgrammar do SGLang para decodificação restrita

MAX (Modular)

GitHub: modular/modular (~25.6K estrelas) · Licença: Apache 2.0 + Exceções LLVM · Versão mais recente: v26.2 (Março de 2026) · Website: Modular

Descrição

O MAX adota uma abordagem fundamentalmente diferente do vLLM e do SGLang. Construído pela Modular AI — a empresa fundada por Chris Lattner (criador do LLVM e Swift) com 380milho~escaptadosaumaavaliac\ca~ode380 milhões captados a uma avaliação de 1,6 bilhão — o MAX utiliza uma pilha de compilador personalizada onde todos os kernels de GPU são escritos em Mojo, a linguagem de programação de sistemas da Modular construída sobre MLIR. Isso permite kernels independentes de hardware que visam NVIDIA, AMD e CPU a partir de uma única base de código, com imagens Docker de menos de 1GB.

A Modular abriu o código de mais de 450.000 linhas de kernel Mojo ao longo de 2025 sob Apache 2.0 com Exceções LLVM. Em fevereiro de 2026, a Modular adquiriu o BentoML (o framework de implantação de modelos de código aberto usado por mais de 10.000 organizações), integrando seu empacotamento, loteamento adaptativo e orquestração Kubernetes à plataforma MAX. A oferta combinada abrange inferência (MAX), implantação (BentoML) e orquestração empresarial (plano de controle Mammoth).

O MAX suporta mais de 500 modelos do Hugging Face, incluindo texto, visão-linguagem (Qwen2.5-VL, Kimi VL, Gemma 3/4) e geração de imagens (FLUX). A suíte de benchmarks InferenceMAX, desenvolvida em colaboração com a SemiAnalysis, roda diariamente em centenas de GPUs para fornecer dados de desempenho neutros e continuamente atualizados em inferencemax.ai.

Prós

  • Vazão competitiva ou superior — na NVIDIA L40 com Qwen3-8B: o MAX completou 500 prompts em 50,6s contra 54,2s do SGLang e 58,9s do vLLM (16% mais rápido que o vLLM); na Vast.ai com Llama 3.1 8B: 89,9 tok/s vs 75,9 do vLLM (18% mais rápido) com quase metade do TTFT
  • Menor latência de cauda — p99 TTFT de 13,1ms vs 23,6ms do vLLM em benchmarks L40
  • Portabilidade de hardware — os kernels Mojo compilam para NVIDIA, AMD e CPU a partir de um código; sem necessidade de manter implementações separadas de CUDA/ROCm
  • Menor pegada de container — imagens Docker com menos de 1GB, significativamente mais leves que vLLM ou SGLang
  • Plataforma full-stack — a aquisição do BentoML adiciona loteamento adaptativo, empacotamento OCI, BentoCloud serverless e implantação BYOC
  • Desenvolvimento de kernel personalizado — modo eager semelhante ao PyTorch com model.compile() para escrever kernels Mojo personalizados; kernels de multiplicação de matrizes atingiram 1.772 TFLOPS na B200
  • Financiamento de $380M — bem capitalizado, com longa autonomia e forte equipe de engenharia (337 funcionários)

Contras

  • Desempenho dependente de hardware — destaca-se em A100/L40S, mas fica abaixo do vLLM em GPUs H20 e L20; não é universalmente o mais rápido
  • Compilador Mojo ainda em código fechado — abertura prometida para o final de 2026, mas ainda indisponível; limita a customização profunda e contribuição da comunidade para o próprio compilador
  • Ecossistema mais jovem — menos testes em produção do que o vLLM; menos implementações de modelos mantidas pela comunidade
  • Menos arquiteturas suportadas — mais de 500 modelos é impressionante, mas ainda menos que vLLM/SGLang para modelos de ponta ou de nicho
  • Curva de aprendizado mais íngreme — Mojo é uma linguagem nova; as equipes precisam investir em aprendê-la para o desenvolvimento de kernels personalizados

Comparação Direta

RecursoSGLangvLLMMAX (Modular)
Estrelas no GitHub~25.000~75.000~25.600
LicençaApache 2.0Apache 2.0Apache 2.0 + LLVM Exc.
Entidade ComercialRadixArk (val. $400M)Inferact (captação $150M)Modular AI (val. $1,6B)
Inovação PrincipalRadixAttention (cache KV em árvore radix)PagedAttention (cache KV em memória virtual)Kernels de compilador Mojo (MLIR)
Vazão de Lote (H100, Llama 3.1 8B)~16.200 tok/s~12.500 tok/sCompetitiva (depende do hardware)
Multi-turno / Reuso de PrefixoMelhor (ganho de 10–20%, até 6,4×)Bom (automático desde V1)Bom
Velocidade de Saída EstruturadaMais Rápida (xgrammar, 3–10×)PadrãoPadrão
p99 TTFT (L40, Qwen3-8B)~18ms~23,6ms~13,1ms (Melhor)
Escala de Requisições SimultâneasLimitada pelo GIL acima de ~150Melhor (roteamento em C++)Bom
Suporte a Modelos60+ famílias de LLM, 30+ multimodal, difusão, TTSMais amplo (texto, visão, áudio, embedding, omni)500+ modelos HuggingFace
Suporte a HardwareNVIDIA, AMD, TPU, Intel, Ascend, Apple SiliconNVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM ZNVIDIA, AMD, CPU
Kubernetes / ImplantaçãoMovido pela comunidadeProduction Stack + llm-dMammoth + BentoML
Tamanho do Container~5–8 GB~5–8 GB<1 GB
Desenvolvimento de Kernel CustomExtensões FlashInferExtensões C++/CUDAMojo (ergonomia tipo PyTorch)
Suporte a Modelo de DifusãoSim (SGLang-Diffusion, Nov 2025)Sim (vLLM-Omni, Nov 2025)Sim (FLUX)
Serviço de TTS / ÁudioSim (Fish Audio S2)Sim (vLLM-Omni, Fish Speech)Limitado
Integração de Treinamento RLSim (Miles pela RadixArk)NãoNão
Decodificação EspeculativaSimSim (Roblox: redução de 50% na latência)Sim
Prefill/Decode DesagregadoSim (produção em 96 H100s)Sim (projeto llm-d)Limitado

Quando usar o quê

Escolha o SGLang se você estiver otimizando para chatbots de múltiplos turnos, pipelines RAG, saída JSON estruturada ou serviço de TTS (especialmente com o Fish Audio S2). O RadixAttention e o backend xgrammar do SGLang oferecem vantagens de desempenho mensuráveis nessas cargas de trabalho, e o respaldo comercial da RadixArk garante suporte a longo prazo.

Escolha o vLLM se você precisar da opção mais segura e comprovada em produção, com a mais ampla compatibilidade de modelos e hardware. A comunidade de 75 mil estrelas do vLLM, sua adoção empresarial (Amazon, Roblox, Stripe) e o suporte abrangente ao Kubernetes o tornam a escolha de menor risco para serviços gerais de LLM em escala.

Escolha o MAX se você estiver executando ambientes multi-hardware (NVIDIA + AMD + CPU), se importar com a pegada do container e simplicidade operacional, ou quiser investir no desenvolvimento de kernels personalizados com Mojo. A abordagem baseada em compilador do MAX oferece uma flexibilidade única, e a aquisição do BentoML fornece a plataforma de implantação mais completa dos três.


O que está moldando a inferência em 2026

Três tendências estão reformulando o cenário competitivo:

O prefill/decode desagregado passou de experimental para padrão. O SGLang demonstrou P/D em escala de produção em 96 H100s para o DeepSeek; o projeto llm-d do vLLM (Red Hat, Google Cloud, IBM, NVIDIA) impulsiona a desagregação nativa do Kubernetes; e o orquestrador Dynamo da NVIDIA se integra a todos os principais motores.

O serviço multimodal está se expandindo rapidamente. O vLLM-Omni e o SGLang-Diffusion foram lançados no final de 2025, suportando modelos de difusão e TTS ao lado dos LLMs tradicionais. A linha entre "motor de LLM" e "servidor de modelos gerais" está se tornando tênue.

A consolidação comercial está acelerando. RadixArk (avaliação de 400M),Inferact(captac\ca~ode400M), Inferact (captação de 150M para vLLM) e Modular (avaliação de $1,6B + aquisição da BentoML) confirmam que a inferência de código aberto entrou em sua fase de monetização empresarial. O TGI da HuggingFace entrou em modo de manutenção — deixando SGLang, vLLM e MAX como os três principais motores de inferência de código aberto rumo ao final de 2026.

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Leia mais de Sabrina Shu

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar