Oferta por tempo limitado- 50% DE DESCONTO ANUALResgatar
4 de abr. de 2026Guia

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

Motores de inferência de LLM de código aberto comparados: SGLang, vLLM, MAX e BentoML 2026

À medida que os modelos de IA passam da pesquisa para a produção, o motor de inferência que você escolhe determina sua latência, taxa de transferência e custo de infraestrutura. O ecossistema de código aberto se consolidou em torno de três concorrentes sérios — cada um com uma filosofia arquitetural distinta e um conjunto de compensações.

Este post detalha o SGLang, o vLLM e o MAX (Modular) — os três motores mais importantes rumo ao final de 2026. Abordamos o que cada um faz, onde brilha, onde não brilha e como eles se comparam frente a frente.


SGLang

GitHub: sgl-project/sglang (~25K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.5.9 (Fev 2026)

SGLang GitHub

Descrição

O SGLang (Structured Generation Language) é um framework de serviço de alto desempenho para LLMs e modelos multimodais, originalmente desenvolvido no Sky Computing Lab da UC Berkeley pela equipe do LMSYS.org. Em janeiro de 2026, o projeto SGLang tornou-se a RadixArk, uma startup comercial avaliada em aproximadamente US$ 400 milhões em uma rodada liderada pela Accel — com investimento anjo do CEO da Intel, Lip-Bu Tan. O cofundador e CEO Ying Sheng atuou anteriormente como cientista de pesquisa na xAI.

A inovação central do SGLang é o RadixAttention, que utiliza uma estrutura de dados de árvore radix para a reutilização automática e granular do cache KV. Isso o torna excepcionalmente rápido para conversas multi-turno, pipelines de RAG e qualquer carga de trabalho com prefixos compartilhados. Seu motor de saída estruturada (backend xgrammar) é o mais rápido disponível em código aberto, entregando uma decodificação JSON até 10 vezes mais rápida que as alternativas.

O SGLang agora roda em mais de 400.000 GPUs em todo o mundo e gera trilhões de tokens diariamente, com usuários notáveis em produção incluindo a xAI (como seu motor de LLM padrão), AMD, NVIDIA, LinkedIn e Cursor.

Fish Audio S2 & SGLang: O modelo S2 da Fish Audio — uma arquitetura TTS Dual-Autoregressiva de 4 bilhões de parâmetros treinada em mais de 10 milhões de horas de áudio multilíngue — é estruturalmente isomórfico aos LLMs autoregressivos padrão. Isso significa que ele herda nativamente todas as otimizações do SGLang: batching contínuo, cache KV paginado, replay de gráfico CUDA e RadixAttention. Para cargas de trabalho de clonagem de voz, o RadixAttention armazena em cache os estados KV do áudio de referência, alcançando uma taxa média de acerto de cache de prefixo de 86,4% — um ganho massivo de eficiência para o serviço de TTS em produção. A Fish Audio lançou o S2 em código aberto com suporte de primeira classe ao SGLang.

Prós

  • Melhor taxa de transferência da categoria — ~29% mais rápido que o vLLM em benchmarks de transferência em lote (H100, Llama 3.1 8B, 1K prompts ShareGPT: ~16.200 tok/s vs ~12.500 tok/s)
  • RadixAttention entrega aceleração de 10–20% em chats multi-turno e até 6,4× em cargas de trabalho de RAG com uso intenso de prefixos
  • Saída estruturada mais rápida — o backend xgrammar é de 3 a 10 vezes mais rápido que as alternativas para decodificação restrita de JSON/gramática
  • Amplo suporte a modalidades — mais de 60 famílias de LLM, mais de 30 modelos multimodais, modelos de embedding/recompensa, modelos de difusão (imagem e vídeo, até 5× mais rápidos) e TTS (Fish Audio S2)
  • Forte integração com RL — framework Miles (pela RadixArk) para loops de treinamento de aprendizado por reforço
  • Amplo suporte a hardware — NVIDIA (GB200 → RTX 4090), AMD MI300X/MI355, Google TPU (via SGLang-Jax), Intel Xeon, Ascend NPU, Apple Silicon (MLX)
  • Cadência de lançamentos ativa — ciclo de lançamento de ~3 semanas, rápido no suporte a novos modelos (o primeiro a rodar DeepSeek R1 em escala com desagregação P/D em 96 H100s)

Contras

  • Comunidade menor — ~25K estrelas no GitHub vs ~75K do vLLM; menos integrações de terceiros e tutoriais
  • Apenas Linux — requer WSL no Windows; sem suporte nativo para serviço em GPU no macOS
  • Gargalo do Python GIL — o roteador de requisições atinge limites de escalonamento acima de ~150 requisições simultâneas
  • Suporte limitado a GGUF — não é o ideal para implantação quantizada na borda em comparação com o llama.cpp
  • Estabilidade — problemas ocasionais com dependências de versões candidatas; menos testado em casos extremos de uso empresarial

vLLM

GitHub: vllm-project/vllm (~75K estrelas) · Licença: Apache 2.0 · Versão mais recente: v0.19.0 (Abr 2026)

vLLM GitHub

Descrição

O vLLM é o motor de serviço de LLM de código aberto mais amplamente adotado e o padrão de fato da indústria. Ele alimenta sistemas de produção na Amazon (Rufus, atendendo 250 milhões de clientes), LinkedIn, Roblox (4 bilhões de tokens/semana), Meta, Mistral AI, IBM e Stripe (que relatou uma redução de 73% nos custos de inferência). A equipe por trás do vLLM formou a Inferact, levantando US$ 150 milhões em janeiro de 2026 para comercializar o projeto.

A inovação fundamental do vLLM é o PagedAttention, que se baseia no gerenciamento de memória virtual de sistemas operacionais para dividir os caches KV em blocos não contíguos, reduzindo o desperdício de memória da GPU em até 80%. A reescrita da arquitetura V1 (padrão desde a v0.8.0, substituindo totalmente a V0 no terceiro trimestre de 2025) reestruturou o motor em uma arquitetura multiprocesso com agendador isolado, núcleo do motor e trabalhadores de GPU se comunicando via ZeroMQ — entregando uma taxa de transferência até 1,7× maior que o design original.

O vLLM possui o mais amplo suporte a modelos e hardware de qualquer motor: LLMs de texto (Llama 3/4, Qwen 3, DeepSeek V3, Gemma 4, GPT-OSS), modelos de visão-linguagem (InternVL, Qwen2.5-VL, Pixtral), modelos de áudio (Qwen3-ASR/Omni) e modelos de embedding. O projeto separado vLLM-Omni estende o suporte para modelos de difusão e TTS. O hardware abrange NVIDIA, AMD ROCm, Intel XPU/Gaudi, Google TPU, AWS Trainium, CPUs ARM e mainframes IBM Z.

Prós

  • Padrão da indústria — ~75K estrelas no GitHub, mais de 200 contribuidores por lançamento, maior ecossistema de tutoriais, guias e integrações
  • Maior compatibilidade — mais arquiteturas de modelos e backends de hardware suportados do que qualquer outro motor
  • Provado em produção — testado em batalha em escala massiva (Amazon, Roblox, Stripe, Meta)
  • Arquitetura V1 — otimizações sem configuração, cache de prefixo automático, preenchimento em blocos unificado; a v0.16.0 adicionou agendamento assíncrono com melhoria de 30,8% na taxa de transferência
  • API compatível com OpenAI — substituição direta para endpoints da OpenAI
  • Forte presença em Kubernetes — Production Stack oficial + projeto llm-d (Red Hat, Google Cloud, IBM, NVIDIA) para serviço desagregado
  • Escalona em extrema concorrência — o roteamento em C++ lida melhor com mais de 150 requisições simultâneas do que as alternativas baseadas em Python

Contras

  • Taxa de transferência ~29% menor que o SGLang em benchmarks de lote com cargas de trabalho de prefixo compartilhado
  • Cache de prefixo menos eficiente — o PagedAttention carece da reutilização automática de prefixo baseada em árvore radix do SGLang
  • Ritmo de desenvolvimento acelerado — ocasionalmente supera a estabilidade; a migração para V1 removeu alguns recursos (best_of, processadores de logits por requisição)
  • Focado em GPU — desempenho limitado de fallback em CPU
  • Saída estruturada — mais lenta que o xgrammar do SGLang para decodificação restrita

MAX (Modular)

GitHub: modular/modular (~25.6K estrelas) · Licença: Apache 2.0 + Exceções LLVM (kernels de código aberto, stdlib, arquiteturas de modelo, biblioteca de serviço); Modular Community License (binário do compilador) · Versão mais recente: v26.2 (Mar 2026) · Website: Modular

MAX GitHub

Descrição

O MAX adota uma abordagem fundamentalmente diferente do vLLM e do SGLang. Enquanto outros motores constroem sobre bibliotecas CUDA (cuBLAS, cuDNN, FlashAttention, FlashInfer), o MAX é a única pilha de inferência totalmente integrada verticalmente construída sem dependência de CUDA — desde os kernels de GPU (Mojo) até o serviço de modelos (MAX Serve) e a orquestração de clusters (BentoML + Modular Cloud), todo o pipeline de inferência é construído do zero sobre MLIR, sem dependência de bibliotecas específicas de hardware.

Nota: O MAX como plataforma é mais amplo do que um motor de serviço — ele inclui uma API de desenvolvimento de modelos semelhante ao PyTorch (model.compile(), modo eager) mais comparável ao próprio PyTorch. O MAX Serve é o componente de serviço de inferência que compete diretamente com o vLLM e o SGLang. Para simplificar, este post os compara sob o guarda-chuva "MAX", já que os usuários finais normalmente interagem com a pilha completa.

O MAX é construído pela Modular AI — cofundada em 2022 por Chris Lattner (criador do LLVM, Clang, Swift e MLIR) e Tim Davis (cocriador do TensorFlow Lite, que escalou o ML em dispositivos para bilhões de aparelhos no Google) — com US380milho~escaptadosaumaavaliac\ca~odeUS 380 milhões captados a uma avaliação de US 1,6 bilhão. O Mojo, a linguagem de programação de sistemas da Modular construída sobre MLIR, permite kernels agnósticos de hardware que visam NVIDIA, AMD, Apple Silicon e CPU a partir de uma única base de código, com imagens Docker abaixo de 700 MB.

A Modular abriu o código de mais de 750.000 linhas de código Mojo sob Apache 2.0 com Exceções LLVM, incluindo kernels de GPU de nível de produção, a biblioteca padrão completa, arquiteturas de modelo e a biblioteca de serviço MAX. O próprio compilador Mojo tem o compromisso de ser aberto em 2026 junto com o lançamento do Mojo 1.0. Em fevereiro de 2026, a Modular adquiriu a BentoML (o framework de implantação de modelos de código aberto usado por mais de 10.000 organizações), estendendo a pilha com implantação em produção e orquestração em nuvem.

O MAX suporta mais de 500 modelos do Hugging Face, incluindo texto, visão-linguagem (Qwen2.5-VL, Kimi VL, Gemma 3/4) e geração de imagens (FLUX).

Prós

  • Única pilha de inferência construída inteiramente sem CUDA — os kernels Mojo substituem cuBLAS, cuDNN e FlashAttention por uma única base de código portátil; os kernels matmul atingiram 1.772 TFLOPS no B200, superando o cuBLAS
  • Taxa de transferência competitiva ou superior — na NVIDIA L40 com Qwen3-8B: o MAX completou 500 prompts em 50,6s vs 54,2s do SGLang e 58,9s do vLLM (16% mais rápido que o vLLM); no Vast.ai com Llama 3.1 8B: 89,9 tok/s vs 75,9 do vLLM (18% mais rápido) com quase metade do TTFT
  • Menor latência de cauda — TTFT p99 de 13,1ms vs 23,6ms do vLLM em benchmarks de L40
  • Portabilidade de hardware — os kernels Mojo compilam para NVIDIA, AMD, Apple Silicon e CPU a partir de uma base de código; não há necessidade de manter implementações separadas de CUDA/ROCm
  • Menor pegada de contêiner — imagens Docker abaixo de 700 MB, significativamente mais leves que vLLM ou SGLang
  • Geração de imagens de última geração — o MAX serve nativamente modelos de difusão (FLUX.2, SDXL) junto com LLMs no mesmo contêiner e API, com inferência 4,1× mais rápida que o torch.compile no B200
  • Desenvolvimento de kernels personalizados — modo eager semelhante ao PyTorch com model.compile() para escrever kernels Mojo personalizados, com implementações de kernels totalmente abertas como referência
  • Profundas raízes em compiladores de código aberto — liderado por Chris Lattner, criador do LLVM (que deu nome ao vLLM); a mesma abordagem impulsionada pela comunidade que tornou o LLVM o padrão da indústria está sendo aplicada ao MAX e ao Mojo
  • Financiamento de US$ 380 milhões — bem capitalizado, com longo fôlego financeiro e equipe de engenharia forte (337 funcionários)

Contras

  • Desempenho dependente de hardware — excelente na NVIDIA B200 e AMD MI355X, mas o desempenho varia entre gerações de GPU; não é universalmente o mais rápido em todos os alvos de hardware
  • Compilador Mojo ainda não é de código aberto — compromisso de abertura em 2026 junto com o Mojo 1.0; a biblioteca padrão, kernels, arquiteturas de modelo e biblioteca de serviço já são de código aberto (+750 mil linhas)
  • Ecossistema mais jovem — menos testes em produção do que o vLLM; menos implementações de modelos mantidas pela comunidade
  • Menos arquiteturas suportadas — mais de 500 modelos é impressionante, mas ainda menos do que vLLM/SGLang para modelos de ponta ou de nicho
  • Curva de aprendizado do Mojo para desenvolvimento de kernels — o Mojo é projetado como um superconjunto de Python para facilidade de adoção, mas o desenvolvimento avançado de kernels de GPU ainda exige o aprendizado de novos conceitos
  • Inferência e orquestração desagregadas não estão no código aberto — recursos como pré-preenchimento/decodificação desagregados, roteamento ciente de cache KV, orquestração multi-modelo e autoescalonamento em frotas de GPU mistas estão disponíveis através do Modular Cloud, não na Community Edition auto-hospedada

Comparação Direta

FuncionalidadeSGLangvLLMMAX (Modular)
Estrelas no GitHub~25.000~75.000~25.600
LicençaApache 2.0Apache 2.0Apache 2.0 + Exc. LLVM (kernels/stdlib/serviço); Modular Community License (compilador)
Entidade ComercialRadixArk (val. $400M)Inferact (captação $150M)Modular AI (val. $1.6B)
Inovação PrincipalRadixAttention (cache KV em árvore radix)PagedAttention (cache KV em memória virtual)Compilador MLIR full-stack, sem dependência de CUDA
Taxa de Transferência (H100, Llama 3.1 8B)~16.200 tok/s~12.500 tok/sCompetitiva (dependente de hardware)
Multi-Turno / Reutilização de PrefixoMelhor (ganho de 10–20%, até 6,4×)Bom (automático desde V1)Bom
Velocidade de Saída EstruturadaMais rápida (xgrammar, 3–10×)PadrãoPadrão
TTFT p99 (L40, Qwen3-8B)~18ms~23,6ms~13,1ms (melhor)
Escalonamento de Requisições SimultâneasLimitado pelo GIL acima de ~150Melhor (roteamento em C++)Bom
Suporte a Modelos60+ famílias LLM, 30+ multimodais, difusão, TTSMais amplo (texto, visão, áudio, embedding, omni)500+ modelos HuggingFace
Suporte a HardwareNVIDIA, AMD, TPU, Intel, Ascend, Apple SiliconNVIDIA, AMD, Intel, TPU, Trainium, ARM, IBM ZNVIDIA, AMD, Apple Silicon, CPU
Kubernetes / ImplantaçãoImpulsionado pela comunidadeProduction Stack + llm-dMammoth + BentoML
Tamanho do Contêiner~5–8 GB~5–8 GB<700 MB
Desenv. de Kernel Pers.Extensões FlashInferExtensões C++/CUDAMojo (ergonomia tipo PyTorch)
Suporte a Modelos de DifusãoSim (SGLang-Diffusion, Nov 2025)Sim (vLLM-Omni, Nov 2025)Sim (FLUX, 4,1× mais rápido que torch.compile)
Servidor de TTS / ÁudioSim (Fish Audio S2)Sim (vLLM-Omni, Fish Speech)Limitado
Integração de Treinamento RLSim (Miles pela RadixArk)NãoNão
Decodificação EspeculativaSimSim (Roblox: redução de 50% na latência)Sim
Pré-preenchimento/Decodificação DesagregadosSim (produção em 96 H100s)Sim (projeto llm-d)Sim (Apenas Modular Cloud)

Quando usar o quê

Escolha o SGLang se você estiver otimizando para chatbots multi-turno, pipelines de RAG, saída JSON estruturada ou serviço de TTS (especialmente com Fish Audio S2). O RadixAttention e o backend xgrammar do SGLang oferecem vantagens de desempenho mensuráveis nestas cargas de trabalho, e o apoio comercial da RadixArk garante suporte de longo prazo.

Escolha o vLLM se você precisar da opção mais segura e comprovada em produção, com a mais ampla compatibilidade de modelos e hardware. A comunidade de 75 mil estrelas do vLLM, a adoção corporativa (Amazon, Roblox, Stripe) e o suporte abrangente ao Kubernetes tornam-no a escolha de menor risco para o serviço de LLM de uso geral em escala.

Escolha o MAX se você estiver operando ambientes multi-hardware (NVIDIA + AMD + CPU), se preocupar com a pegada do contêiner e a simplicidade operacional, ou quiser investir no desenvolvimento de kernels personalizados com Mojo. A abordagem baseada em compilador do MAX oferece uma flexibilidade única, e a aquisição da BentoML oferece a plataforma de implantação mais completa entre os três.


O que está moldando a inferência em 2026

Três tendências estão remodelando o cenário competitivo:

Pré-preenchimento/decodificação desagregados deixaram de ser experimentais para se tornarem padrão. O SGLang demonstrou P/D em escala de produção em 96 H100s para o DeepSeek; o projeto llm-d do vLLM (Red Hat, Google Cloud, IBM, NVIDIA) impulsiona a desagregação nativa do Kubernetes; e o orquestrador Dynamo da NVIDIA integra-se com todos os principais motores.

O serviço multimodal está se expandindo rapidamente. O vLLM-Omni e o SGLang-Diffusion foram lançados no final de 2025, suportando modelos de difusão e TTS ao lado dos LLMs tradicionais. A linha entre "motor de LLM" e "servidor de modelos gerais" está se tornando tênue.

A consolidação comercial está acelerando. RadixArk (avaliação de US400milho~es),Inferact(captac\ca~odeUS 400 milhões), Inferact (captação de US 150 milhões para vLLM) e Modular (avaliação de US$ 1,6 bilhão + aquisição da BentoML) confirmam que a inferência de código aberto entrou em sua fase de monetização empresarial. O HuggingFace TGI entrou em modo de manutenção — deixando SGLang, vLLM e MAX como os três principais motores de inferência de código aberto rumo ao final de 2026.

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Leia mais de Sabrina Shu

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar