Bem-vindo GPT OSS: a nova família de modelos Open-Source da OpenAI
TL;DR
- GPT OSS apresenta dois modelos abertos com pesos abertos e Mixture-of-Experts (MoE): GPT OSS 120B (gpt-oss-120b) e GPT OSS 20B (gpt-oss-20b), ambos usando quantização MXFP4 de 4 bits para acelerar a inferência com menos parâmetros ativos.
- O modelo 120B cabe em uma única GPU H100; o 20B funciona em sistemas com apenas 16 GB de RAM, viabilizando hardware de consumidor e aplicações no dispositivo.
- Os modelos são licenciados sob Apache 2.0 com uma política de uso mínima, visando uso seguro, responsável e democrático, com acesso via Hugging Face Inference Providers.
- A liberação é integrada a interfaces compatíveis com OpenAI (Responses API) e oferece opções de implantação via Azure, Dell e ambientes on-prem, com foco em otimizações de desempenho por meio de kernels, Flash Attention 3 do vLLM e suporte MXFP4 entre gerações CUDA.
Contexto e antecedentes
A OpenAI publicou o GPT OSS como um lançamento de pesos abertos amplamente aguardado, voltado a tarefas de raciocínio, uso de agentes e casos de uso para desenvolvedores. A equipe destaca dois modelos centrais sob o guarda-chuva GPT OSS: um grande, com aproximadamente 117 bilhões de parâmetros (designado gpt-oss-120b), e um menor, com cerca de 21 bilhões (designado gpt-oss-20b). Ambos são do tipo Mixture-of-Experts (MoE) e utilizam quantização em MXFP4. Essa combinação permite inferência mais rápida ao reduzir o número de parâmetros ativos, mantendo o uso de recursos relativamente baixo. O modelo de 120B cabe em um único GPU H100, enquanto o modelo de 20B foi desenhado para funcionar com 16 GB de memória, permitindo uso em hardware de consumo e em aplicações no dispositivo. A liberação está alinhada com a missão da OpenAI de ampliar os benefícios da IA por meio de ecossistemas de código aberto, e a Hugging Face posiciona o movimento como um passo significativo para a comunidade ao receber a OpenAI para a colaboração de código aberto. A acessibilidade ocorre via Inference Providers da Hugging Face, que permitem enviar requisições para provedores suportados usando código JavaScript ou Python padrão. Essa infraestrutura sustenta a demonstração oficial da OpenAI em gpt-oss.com e está disponível para integrar em projetos próprios.
O que há de novo
O GPT OSS marca uma expansão notável no ecossistema de modelos de código aberto para tarefas de raciocínio. Pontos-chave:
- Dois modelos, gpt-oss-120b (~117B parâmetros) e gpt-oss-20b (~21B parâmetros), ambos MoE, com quantização MXFP4 de 4 bits para inferência eficiente.
- Preparados para rodar em hardware diverso: 20B em GPUs com 16 GB de RAM usando MXFP4; 120B em uma única GPU H100 com MXFP4; suporte a múltiplas GPUs via accelerate ou torchrun.
- Licenciamento e política: licença Apache 2.0 com política de uso mínima, enfatizando uso seguro, responsável e democrático.
- Ecossistema de ferramentas: transformers (v4.55.1+), accelerate e kernels; configuração permite baixar kernels MXFP4 otimizados na primeira utilização, gerando economias significativas de memória.
- Otimizações e desempenho: kernels Flash Attention 3 do vLLM com sink attention, integradas para melhor desempenho; recomendado para placas Hopper (H100/H200) com PyTorch 2.7 ou 2.8. Suporte a AMD ROCm incluído via kernels para ampliar compatibilidade.
- Implantação e ecossistema: GPT OSS verificado em hardware AMD Instinct e disponível via Azure AI Model Catalog e Dell Enterprise Hub para implantações corporativas seguras; containers otimizados para on-prem.
- Ferramentas adicionais: MXFP4 nativo no Llama.cpp com Flash Attention entre Metal, CUDA e Vulkan via llama-server; Hugging Face Space demonstra compatibilidade com hardware AMD.
Por que isso importa (impacto para desenvolvedores/empresas)
A liberação do GPT OSS oferece caminhos práticos para equipes desenvolverem, avaliarem e implantarem modelos grandes de raciocínio com maior transparência e controle de dados. Implicações-chave:
- Caminhos de implantação on-device e on-prem aumentam a privacidade, conformidade e latência para cenários sensíveis, com o 20B adequado a hardware de consumo e o 120B adequado a ambientes de data center.
- Licenciamento Apache 2.0 com políticas mínimas facilita a experimentação e a integração, reduzindo entraves legais para equipes que desejam construir e testar modelos de grande escala.
- Combinação de arquiteturas MoE, quantização MXFP4, e aceleração por kernels oferece ganhos práticos de desempenho, com suporte a várias gerações de CUDA e ampla compatibilidade de hardware.
- Ecossistema corporativo é reforçado por parcerias e integrações com Azure e Dell, gerando pipelines de implantação seguras, com autos scaling e monitoramento dentro de infraestruturas corporativas.
- A ênfase em fluxos de trabalho de raciocínio, incluindo saídas com traços de raciocínio e canais, reflete uma abordagem prática de avaliação e uso responsável, ajudando equipes a calibrar prompts e métricas para tarefas complexas.
Detalhes técnicos ou Implementação
- Arquitetura e quantização: ambos os modelos são Mixture-of-Experts (MoE) e utilizam MXFP4, quantização de 4 bits que permite inferência rápida com menos parâmetros ativos. O modelo de 120B cabe em uma única GPU H100 com MXFP4; o de 20B funciona com 16 GB de RAM usando MXFP4, com BF16 como fallback, se MXFP4 não estiver disponível.
- Stack de hardware e software: é necessário usar transformers (versão 4.55.1+), accelerate e kernels. Para MXFP4 em hardware CUDA, Triton 3.4+ é recomendado para disponibilizar kernels MXFP4 otimizados na primeira utilização. Isso resulta em economias de memória substanciais e permite inferência de 20B em GPUs de consumo (p.ex., 3090, 4090) e plataformas como Colab e Kaggle.
- Kernels e aceleração: o projeto vLLM fornece kernels Flash Attention 3 otimizados que suportam sink attention; integrados para melhor desempenho. Em GPUs Hopper, é possível instalar os kernels mais recentes e baixar código de kernel pré-compilado do repositório kernels-community.
- Compatibilidade com GPU e fallback: se a GPU suportar MXFP4, esse é o caminho recomendado. Caso contrário, kernels MegaBlocks MoE podem ser usados, porém exigem bf16 e consomem mais memória. O suporte a AMD ROCm está incluído via kernels, ampliando a cobertura de hardware.
- Implantação e operações: GPT OSS pode ser executado via servidores com 2 GPUs H100 ou em configurações com várias GPUs usando accelerate. Os trechos de código exibem como iniciar um servidor com duas GPUs e fazer requisições via OpenAI-compatible Responses API ou via Coπmletions API padrão. Os modelos suportam integração com TRL, incluindo exemplos de fine-tuning com SFTTrainer.
- Ecossistema de implantação corporativa: a Hugging Face colabora com Azure para o Azure AI Model Catalog, trazendo modelos para endpoints online com infraestrutura corporativa, e com Dell para hubs empresariais com contêineres otimizados e recursos de segurança.
- Considerações de avaliação: GPT OSS é concebido para tarefas de raciocínio, e a geração máxima precisa ser considerável para avaliações confiáveis. Para avaliações, é comum remover traços de raciocínio da saída antes de métricas; os resultados publicados para o 20B incluem valores como IFEval e AIME25 sob condições específicas.
Tabela rápida de fatos
| Modelo | Parâmetros | RAM/GPU típicos | Observações |---|---:|---:|---| | GPT OSS 120B | ~117B | Cabe em uma H100 com MXFP4 | MoE, quantização 4 bits; suporte a multi-GPU via accelerate/torchrun |GPT OSS 20B | ~21B | ~16 GB RAM com MXFP4; fallback bf16 | hardware de consumo; implantação em dispositivos |
Por que isso importa (resumo para desenvolvedores e empresas)
O GPT OSS representa um passo concreto para ferramentas de IA abertas, auditáveis e implantáveis para tarefas de raciocínio. A combinação de arquitetura MoE, quantização MXFP4 e suporte de hardware amplo oferece um caminho prático para equipes experimentarem com modelos grandes sem depender exclusivamente de APIs fechadas. O licenciamento e o suporte do ecossistema pela Hugging Face, junto com opções de implantação em nuvem, on-prem e edge, reduzem barreiras para adoção em contextos corporativos que exigem governança, latência e privacidade. A parceria com Azure e Dell sinaliza foco em pipelines empresariais, com segurança, autoscaling e monitoramento integrados.
Principais aprendizados
- Dois modelos MoE abertos com quantização MXFP4 de 4 bits para equilíbrio entre desempenho e consumo de recursos.
- O 120B cabe em uma única H100; o 20B funciona em GPUs com 16 GB de RAM, abrindo caminho para hardware de consumo.
- Licença Apache 2.0 com política de uso mínima facilita experimentação e integração.
- Ecossistema de inferência e aceleração inclui kernels otimizados, suporte a ROCm da AMD e integração com serviços da Hugging Face.
- Parcerias com Azure e Dell fortalecem caminhos de implantação corporativa segura.
Perguntas frequentes
-
Quais são os modelos GPT OSS e seus tamanhos?
Existem dois modelos com pesos abertos: gpt-oss-120b (~117B parâmetros) e gpt-oss-20b (~21B parâmetros), ambos MoE com MXFP4.
-
Que hardware é recomendado para rodar esses modelos de forma eficaz?
O 120B pode rodar em uma única GPU H100 com MXFP4. O 20B pode rodar em GPUs com 16 GB de RAM usando MXFP4, com fallback bf16 se necessário.
-
Como acessar e implantar esses modelos?
Eles estão disponíveis via Hugging Face Inference Providers e são integrados ao OpenAI-compatible Responses API. Implantação via Azure AI Model Catalog e Dell Enterprise Hub está disponível.
-
Qual é o stack de software necessário para o melhor desempenho?
Use transformers (v4.55.1+), accelerate e kernels; Triton 3.4+ é recomendado para MXFP4 em CUDA. Se MXFP4 não estiver disponível, MegaBlocks MoE kernels são uma alternativa.
-
Existem notas sobre avaliação ou geração para esses modelos?
Os modelos são destinados a tarefas de raciocínio e exigem tamanha geração para avaliações confiáveis. Saídas costumam incluir traços de raciocínio em canais; a remoção desses traços pode ser necessária antes de métricas.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência
A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
Monitorar Bedrock batch inference da Amazon usando métricas do CloudWatch
Saiba como monitorar e otimizar trabalhos de bedrock batch inference com métricas do CloudWatch, alarmes e painéis para melhorar desempenho, custo e governança.