Bem-vindo ao GPT OSS: os modelos MoE 120B e 20B de código aberto da OpenAI chegam

TL;DR

A OpenAI lançou o GPT OSS, uma nova família de modelos com peso aberto baseados em MoE: gpt-oss-120b (120B parâmetros) e gpt-oss-20b (20B parâmetros).
Ambos os modelos usam MoE e quantização MXFP4 de 4 bits para acelerar a inferência, mantendo o uso de recursos baixo.
O modelo de 20B pode rodar em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100. Ambos estão acessíveis via os Inference Providers da Hugging Face e licenciados sob Apache 2.0 com política de uso mínimo.
A disponibilidade é via API compatível com OpenAI (Responses API) e integrações com Azure e Dell para implantações corporativas.
Os modelos utilizam uso de ferramentas na inferência para raciocínio, exigem tamanho de geração grande para avaliações e trazem orientações para lidar com traços de raciocínio nas saídas.

Contexto e antecedentes

O GPT OSS marca um passo significativo na missão da OpenAI de tornar os benefícios da IA amplamente acessíveis e contribuir com o ecossistema de código aberto. A lançá-los, a OpenAI disponibiliza duas pesos abertos com arquitetura MoE e quantização MXFP4, que reduz a quantidade de parâmetros ativos durante a inferência para melhorar o desempenho sem exigir grandes recursos. O licenciamento é Apache 2.0 com uma política de uso mínimo, enfatizando uso seguro, responsável, democrático e controle do desenvolvedor. As informações oficiais estão disponíveis no blog da Hugging Face e na demonstração em gpt-oss.com. Blog da Hugging Face • gpt-oss.com

O que há de novo

O GPT OSS traz duas versões abertas: gpt-oss-120b e gpt-oss-20b, ambas em MoE e quantizadas com MXFP4 (4 bits). A vantagem é reduzir parâmetros ativos durante a inferência, permitindo execução mais rápida e menor consumo de recursos. O modelo de 120B cabe em uma única GPU H100; o de 20B pode ser executado em hardware com apenas 16 GB de RAM, o que amplia bastante as possibilidades de uso local e em dispositivos. A disponibilidade ocorre por meio do serviço Inference Providers da Hugging Face, permitindo enviar solicitações para backends compatíveis com OpenAI usando o mesmo código Python ou JavaScript empregado com outros provedores. O blog também destaca uma API de Respostas compatível com OpenAI, voltada a interações de chat mais flexíveis, com exemplos usando o provedor Fireworks AI. A pilha de software inclui transformers (versão 4.55.1+), accelerate e kernels, com recomendação de instalar o Triton 3.4+ para desbloquear kernels MXFP4 em hardware CUDA. Caso MXFP4 não esteja disponível, há um caminho de fallback com bfloat16. Além disso, são discutidos kernels otimizados para atenção, o Flash Attention 3 com sink attention, e a opção de usar kernels MegaBlocks MoE em certos cenários, com trade-offs de memória. Do ponto de vista do ecossistema, os modelos GPT OSS foram verificados em hardware AMD Instinct, com suporte inicial a ROCm na biblioteca de kernels. Há também um espaço Hugging Face dedicado para testar em hardware AMD e trabalho contínuo para ampliar a compatibilidade de GPUs e cobertura de kernels. O post explica como rodar a configuração multi-GPU (por exemplo, com quatro GPUs) usando accelerate ou torchrun e fornece trechos de código para experimentação local com transformers serve e a API de Respostas. Os modelos foram desenhados para raciocínio orientado a uso de ferramentas durante as tarefas, com caminhos específicos para implantação empresarial via Azure e Dell.

Por que isso importa (impacto para desenvolvedores/empresas)

Acessibilidade e opções de implantação: o modelo de 20B, com apenas 16 GB de RAM, facilita implantações locais e em hardware de consumidor, viabilizando usos privados sem precisar de data center dedicado. O modelo de 120B, por sua vez, cabe em uma única GPU H100, com opções de escalabilidade via multi-GPU para cargas maiores.
Licenciamento e governança: a licença Apache 2.0 com política de uso mínimo busca promover uso aberto e responsável, mantendo o controle do usuário.
Integração com ecossistemas: a disponibilidade via Inference Providers da Hugging Face e compatibilidade com a API de Respostas OpenAI permitem construir aplicações com interfaces familiares, ao mesmo tempo em que se apoia em pesos abertos. Integrações empresariais com o Azure AI Model Catalog e o Dell Enterprise Hub expandem opções para ambientes gerenciados e on-prem.
Ecossistema de hardware e software: o lançamento está alinhado a um stack de inferência compatível com MXFP4, Flash Attention 3, e otimizações de kernels, com suporte a AMD ROCm e hardware NVIDIA CUDA, refletindo uma colaboração em torno de aceleração de kernels e desempenho.
Ênfase em avaliação de raciocínio: por serem modelos de raciocínio, exigem tamanhos de geração grandes para avaliações. O post oferece orientações para filtrar traços de raciocínio ao computar métricas, destacando práticas cuidadosas de avaliação para tarefas que envolvem raciocínio.

Detalhes técnicos ou Implementação

Família de modelos e quantização: GPT OSS compõe-se de dois modelos MoE, gpt-oss-120b e gpt-oss-20b, quantizados com MXFP4 (4 bits). A quantização reduz parâmetros ativos durante a inferência, possibilitando maior velocidade e menor uso de memória.
Requisitos de hardware e implantação: o modelo de 20B opera em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100, com possibilidade de escalonamento com várias GPUs via accelerate ou torchrun. Caso MXFP4 não esteja disponível para uma GPU, o modelo é carregado em bfloat16 a partir dos pesos quantizados.
Pilha de software e otimizações: a pilha inclui transformers (v4.55.1+), accelerate e kernels, com recomendação de Triton 3.4+ para destravar kernels MXFP4 em hardware CUDA. Existem kernels otimizados de atenção (Flash Attention 3) com suporte a sink attention. Em GPUs da família Hopper, o código já foi testado com PyTorch 2.7 e 2.8; há instruções para instalar kernels atualizados para acesso a código de kernel pré-compilado da comunidade kernels-community.
Caminhos de kernel alternativos: se MXFP4 não estiver disponível, os MegaBlocks MoE kernels oferecem alternativa com trade-offs de memória, exigindo que o modelo rode em bfloat16. A recomendação é escolher MXFP4 sempre que possível.
Caminhos de ecossistema e implantação: os modelos GPT OSS são acessíveis via Inference Providers da Hugging Face e são compatíveis com uma API de Respostas OpenAI, com exemplos de uso em Python e tratamento de casos de uso. Os modelos são elegíveis para uso em Azure AI Model Catalog (GPT OSS 20B e GPT OSS 120B) e no Dell Enterprise Hub para implantação on-prem. Isso demonstra um fluxo de evolução de pesos abertos para endpoints gerenciados e infraestrutura empresarial.
Saída, raciocínio e governança de uso: o conteúdo menciona o conceito de canais na saída (analytical vs final) para separar o raciocínio da resposta final, com a prática recomendada de anexar apenas o canal final na resposta ao usuário quando não houver uso de ferramentas externas.
Resultados de avaliação (exemplos): para o modelo de 20B, números de avaliação citados incluem IFEval (strict prompt) 69.5 ± 1.9 e AIME25 (pass@1) 63.3 ± 8.9. Esses dados aparecem como referência de desempenho em tarefas de raciocínio, dentro do espectro esperado para esse tamanho de modelo.

Principais conclusões

GPT OSS oferece duas opções abertas, MoE 120B e 20B, com quantização MXFP4 (4 bits) para equilíbrio entre desempenho e uso de recursos.
O modelo de 20B funciona em hardware comum com 16 GB de RAM; o de 120B requer uma GPU H100, com possibilidades de paralelismo entre GPUs.
A licença Apache 2.0 com política de uso mínimo reforça o compromisso com uso aberto e responsável, mantendo o controle do usuário.
Acesso e implantação via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI, facilita integração em aplicações existentes.
Integrações empresariais com Azure e Dell indicam um caminho viável para implantação corporativa, incluindo suporte inicial a ROCm/AMD e caminhos de kernel otimizados para várias GPUs.

FAQ

Quais modelos compõem o GPT OSS?

São dois modelos MoE abertos: gpt-oss-120b e gpt-oss-20b.
Que quantização é usada e por quê?

MXFP4, quantização em 4 bits, que reduz parâmetros ativos durante a inferência para acelerar a execução e reduzir o uso de memória.
Que hardware é necessário para rodar o GPT OSS?

O modelo de 20B funciona com 16 GB de RAM; o de 120B cabe em uma única GPU H100; há opções de multi-GPU para cargas maiores.
Em que licença os modelos são liberados?

Apache 2.0 com política de uso mínimo.
Como desenvolvedores acessam e implantam o GPT OSS?

Acesso via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI; integrações empresariais com Azure AI Model Catalog e Dell Enterprise Hub para deployments on-prem e gerenciados.

Bem-vindo ao GPT OSS: os modelos MoE 120B e 20B de código aberto da OpenAI chegam

TL;DR

Contexto e antecedentes

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Principais conclusões

FAQ

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo

Monitorar Bedrock batch inference da Amazon usando métricas do CloudWatch