Entregando Inferência a 1,5M TPS no NVIDIA GB200 NVL72 para OpenAI gpt-oss
Sources: https://developer.nvidia.com/blog/delivering-1-5-m-tps-inference-on-nvidia-gb200-nvl72-nvidia-accelerates-openai-gpt-oss-models-from-cloud-to-edge, developer.nvidia.com
TL;DR
- NVIDIA e OpenAI otimizaram o gpt-oss-120b e o gpt-oss-20b para inferência FP4 acelerada na arquitetura NVIDIA Blackwell, entregando até 1,5 milhão de tokens por segundo (TPS) em um único sistema GB200 NVL72.
- Um rack GB200 NVL72 pode atender o gpt-oss-120b em 1,5M TPS, aproximadamente 50.000 usuários simultâneos, com desempenho Day 0 observado entre as plataformas Blackwell e Hopper.
- Os modelos gpt-oss utilizam uma arquitetura de especialistas mistos (MoE) com ativações SwigGLU, capacidades de raciocínio de texto, cadeia de pensamento e uso de ferramentas, atenção RoPE com contexto de 128k e alternância entre contexto completo e janela deslizante de 128 tokens.
- NVIDIA colaborou com OpenAI, vLLM, Hugging Face Transformers, Ollama e TensorRT-LLM para maximizar desempenho, acurácia e flexibilidade de implantação em nuvem e borda.
Contexto e histórico
NVIDIA e OpenAI têm uma parceria que remonta ao lançamento de sistemas DGX em 2016. Os modelos gpt-oss-20b e gpt-oss-120b representam modelos GPT de código aberto para acelerar pesquisa e implantação de LLMs além das opções de peso fechadas. Os modelos foram treinados em GPUs NVIDIA H100 Tensor Core; gpt-oss-120b exigiu mais de 2,1 milhões de horas de treinamento, enquanto gpt-oss-20b exigiu cerca de um décimo disso. Os modelos gpt-oss são LLMs de raciocínio textual com capacidades de cadeia de pensamento e chamada de ferramentas. Eles usam uma arquitetura de especialistas mistos (MoE) com ativações SwigGLU e atenção RoPE com contexto de 128k. O design alterna entre processamento de contexto completo e uma janela deslizante de 128 tokens para equilibrar raciocínio de longo alcance e throughput prático. NVIDIA alinhou o stack de software para suportar esses modelos em meios populares de código aberto, como Hugging Face Transformers, Ollama e vLLM, oferecendo kernels otimizados e melhorias de modelo por meio do TensorRT-LLM. A implantação também integra fluxos de trabalho com Docker e ferramentas de desenvolvimento para acesso Day 0 a desenvolvedores.
O que há de novo
A principal vantagem é alcançar até 1,5M TPS para gpt-oss-120b em um rack GB200 NVL72. Esse desempenho é viável Day 0 em ambos os ambientes NVIDIA Blackwell e Hopper, destacando as otimizações a nível de plataforma. Um único GB200 NVL72 pode atender o modelo mais pesado gpt-oss-120b nessa taxa, estimando cerca de 50 mil usuários simultâneos. Blackwell traz capacidades arquitetônicas que suportam esses ganhos, incluindo um Motor de Transformador de segunda geração com Núcleos FP4 e NVLink/ NVLink Switch de quinta geração. Assim, 72 GPUs Blackwell podem atuar como se fossem um único GPU massivo, possibilitando inferência de LLMs de grande porte com alta largura de banda. No lado de software, a implantação do gpt-oss-120b via TensorRT-LLM é suportada através de uma API Python em um notebook JupyterLab no OpenAI Cookbook, com integração NVIDIA Launchable no ambiente de construção para testar GPUs de vários provedores de nuvem. A NVIDIA também destaca o Dynamo como plataforma de serviço de inferência de código aberto para implantar modelos de fronteira como o gpt-oss em escala. O Dynamo utiliza uma arquitetura de serviço disaggregado que separa fases de inferência entre GPUs, permitindo roteamento LLM-aware, escalonamento elástico e transferência de dados com baixa latência. Em Dynamo, o modo de ISL de 32k demonstra melhoria de 4x na interatividade com entradas longas no Blackwell. Desenvolvedores podem rodar localmente com workstations RTX PRO ou PCs de IA GeForce RTX, com o gpt-oss-20b capaz de rodar em GPUs com pelo menos 16 GB de VRAM. Ambos os modelos são suportados nativamente em precisão MXFP4. O ecossistema de implantação inclui Ollama, Llama.cpp e Microsoft AI Foundry Local para experimentação local, além de microserviços NIM para uso empresarial. Empresas podem testar os modelos gpt-oss via NVIDIA NIM Preview API e o playground web no NVIDIA API Catalog. A NVIDIA oferece um caminho completo de implantação, incluindo microserviços NIM pré-empaquetados, guias de implantação no NVIDIA API Catalog UI ou no OpenAI Cookbook. O repositório TensorRT-LLM no GitHub contém as otimizações e guias de implantação para iniciar um servidor de alto desempenho, com checkpoints do modelo baixáveis no Hugging Face.
Por que isso importa (impacto para desenvolvedores/empresas)
Para desenvolvedores e empresas, a combinação de precisão FP4, hardware de ponta e uma pilha de software otimizada significa iteração mais rápida, menor custo por token e implantação escalável do data center à borda. O desempenho Day 0 da família gpt-oss indica que equipes podem começar a prototipar e implantar aplicações de alto throughput de LLMs imediatamente em sistemas Blackwell, com flexibilidade para rodar em data centers centrais ou em configurações tipo borda em rack. A integração com ferramentas consolidadas—TensorRT-LLM, Dynamo, Hugging Face Transformers, Ollama e a Cookbook OpenAI—oferece um caminho prático para produção. A abordagem de serviço disaggregado do Dynamo permite uso mais eficiente dos recursos de hardware ao separar estágios de inferência, melhorando throughput e latência para entradas longas. A disponibilidade de microserviços pré-empaquetados e APIs empresariais reduz barreiras para implantar grandes modelos de linguagem em escala, mantendo privacidade de dados e padrões de segurança corporativos.
Detalhes técnicos ou Implementação
| Recurso | Detalhe |
|---|---|
| Modelos | gpt-oss-120b e gpt-oss-20b |
| Throughput de inferência | Até 1,5M TPS (tokens por segundo) em GB200 NVL72 |
| Plataforma de hardware | Arquitetura Blackwell; 72 GPUs por rack (GB200 NVL72); FP4 Tensor Cores; NVLink/NVLink Switch de quinta geração |
| Contexto e atenção | RoPE com contexto de 128k; alterna entre contexto completo e janela deslizante de 128 tokens |
| Precisão | FP4 (MXFP4); cabe em uma GPU de data center com 80 GB; suporte nativo em Blackwell |
| Infraestrutura de treinamento | Treinado em GPUs NVIDIA H100 Tensor Core; gpt-oss-120b > 2,1 milhões de horas; gpt-oss-20b ~10x menos |
| Software e frameworks | TensorRT-LLM; Hugging Face Transformers; Ollama; vLLM; Dynamo; OpenAI Cookbook; repositório TensorRT-LLM no GitHub |
| Desempenho Day-0 | Demonstrado em Blackwell e Hopper |
| Opções de serviço | Dynamo (serviço disaggregado, roteamento LLM-aware, autoscaling elástico); TensorRT-LLM; implantações locais via Ollama, Llama.cpp e Microsoft AI Foundry Local |
| Variantes de implantação | Workstations RTX PRO; PC IA GeForce RTX com 16 GB VRAM para gpt-oss-20b; microserviços NIM para uso empresarial |
| Disponibilidade | Microserviços NIM pré-empaquetados; NVIDIA API Catalog; integração OpenAI Cookbook; implantação via Docker |
Pontos-chave
- A família gpt-oss alcança throughput sem precedentes em um único rack GB200 NVL72, suportando milhares de usuários simultâneos com alta taxa de transferência.
- A precisão FP4 e o Transformer Engine do Blackwell permitem inferência eficiente de LLMs de grande porte em escala para Day 0.
- O ecossistema de software robusto (Dynamo, TensorRT-LLM, frameworks abertos) fornece um caminho prático para produção do cloud até a borda.
- A colaboração entre NVIDIA, OpenAI e a comunidade enfatiza implantação rápida por meio de microserviços pré-empaquetados e ferramentas para desenvolvedores.
FAQ
-
Quais modelos são otimizados para inferência acelerada?
O gpt-oss-20b e o gpt-oss-120b são otimizados para inferência acelerada na arquitetura NVIDIA Blackwell.
-
ual é o throughput e em que hardware?
té 1,5M TPS em um rack GB200 NVL72 com GPUs Blackwell.
-
ual é o tamanho do contexto e como ele é gerido?
tenção RoPE com contexto de 128k; alterna entre contexto completo e janela deslizante de 128 tokens para equilibrar raciocínio de longo alcance e throughput.
-
uais são as opções de ferramenta e implantação para desenvolvedores?
TensorRT-LLM, Dynamo, Hugging Face Transformers, Ollama, vLLM, OpenAI Cookbook, com microserviços NIM para uso empresarial.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência
A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.
Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)
NVIDIA e o Lawrence Berkeley National Laboratory apresentam Huge Ensembles (HENS), uma ferramenta de IA de código aberto que prevê eventos climáticos raros e de alto impacto usando 27.000 anos de dados, com opções de código aberto ou prontos para uso.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos
RAPIDS 25.08 traz profiladores function-level e line-level para cuml.accel, executor streaming padrão no motor GPU Polars, suporte ampliado de tipos e strings, novo Spectral Embedding no cuML e acelerações com zero código para mais algoritmos.