Bem-vindo GPT OSS: a nova família de modelos Open-Source da OpenAI

TL;DR

GPT OSS apresenta dois modelos abertos com pesos abertos e Mixture-of-Experts (MoE): GPT OSS 120B (gpt-oss-120b) e GPT OSS 20B (gpt-oss-20b), ambos usando quantização MXFP4 de 4 bits para acelerar a inferência com menos parâmetros ativos.
O modelo 120B cabe em uma única GPU H100; o 20B funciona em sistemas com apenas 16 GB de RAM, viabilizando hardware de consumidor e aplicações no dispositivo.
Os modelos são licenciados sob Apache 2.0 com uma política de uso mínima, visando uso seguro, responsável e democrático, com acesso via Hugging Face Inference Providers.
A liberação é integrada a interfaces compatíveis com OpenAI (Responses API) e oferece opções de implantação via Azure, Dell e ambientes on-prem, com foco em otimizações de desempenho por meio de kernels, Flash Attention 3 do vLLM e suporte MXFP4 entre gerações CUDA.

Contexto e antecedentes

A OpenAI publicou o GPT OSS como um lançamento de pesos abertos amplamente aguardado, voltado a tarefas de raciocínio, uso de agentes e casos de uso para desenvolvedores. A equipe destaca dois modelos centrais sob o guarda-chuva GPT OSS: um grande, com aproximadamente 117 bilhões de parâmetros (designado gpt-oss-120b), e um menor, com cerca de 21 bilhões (designado gpt-oss-20b). Ambos são do tipo Mixture-of-Experts (MoE) e utilizam quantização em MXFP4. Essa combinação permite inferência mais rápida ao reduzir o número de parâmetros ativos, mantendo o uso de recursos relativamente baixo. O modelo de 120B cabe em um único GPU H100, enquanto o modelo de 20B foi desenhado para funcionar com 16 GB de memória, permitindo uso em hardware de consumo e em aplicações no dispositivo. A liberação está alinhada com a missão da OpenAI de ampliar os benefícios da IA por meio de ecossistemas de código aberto, e a Hugging Face posiciona o movimento como um passo significativo para a comunidade ao receber a OpenAI para a colaboração de código aberto. A acessibilidade ocorre via Inference Providers da Hugging Face, que permitem enviar requisições para provedores suportados usando código JavaScript ou Python padrão. Essa infraestrutura sustenta a demonstração oficial da OpenAI em gpt-oss.com e está disponível para integrar em projetos próprios.

O que há de novo

O GPT OSS marca uma expansão notável no ecossistema de modelos de código aberto para tarefas de raciocínio. Pontos-chave:

Dois modelos, gpt-oss-120b (~117B parâmetros) e gpt-oss-20b (~21B parâmetros), ambos MoE, com quantização MXFP4 de 4 bits para inferência eficiente.
Preparados para rodar em hardware diverso: 20B em GPUs com 16 GB de RAM usando MXFP4; 120B em uma única GPU H100 com MXFP4; suporte a múltiplas GPUs via accelerate ou torchrun.
Licenciamento e política: licença Apache 2.0 com política de uso mínima, enfatizando uso seguro, responsável e democrático.
Ecossistema de ferramentas: transformers (v4.55.1+), accelerate e kernels; configuração permite baixar kernels MXFP4 otimizados na primeira utilização, gerando economias significativas de memória.
Otimizações e desempenho: kernels Flash Attention 3 do vLLM com sink attention, integradas para melhor desempenho; recomendado para placas Hopper (H100/H200) com PyTorch 2.7 ou 2.8. Suporte a AMD ROCm incluído via kernels para ampliar compatibilidade.
Implantação e ecossistema: GPT OSS verificado em hardware AMD Instinct e disponível via Azure AI Model Catalog e Dell Enterprise Hub para implantações corporativas seguras; containers otimizados para on-prem.
Ferramentas adicionais: MXFP4 nativo no Llama.cpp com Flash Attention entre Metal, CUDA e Vulkan via llama-server; Hugging Face Space demonstra compatibilidade com hardware AMD.

Por que isso importa (impacto para desenvolvedores/empresas)

A liberação do GPT OSS oferece caminhos práticos para equipes desenvolverem, avaliarem e implantarem modelos grandes de raciocínio com maior transparência e controle de dados. Implicações-chave:

Caminhos de implantação on-device e on-prem aumentam a privacidade, conformidade e latência para cenários sensíveis, com o 20B adequado a hardware de consumo e o 120B adequado a ambientes de data center.
Licenciamento Apache 2.0 com políticas mínimas facilita a experimentação e a integração, reduzindo entraves legais para equipes que desejam construir e testar modelos de grande escala.
Combinação de arquiteturas MoE, quantização MXFP4, e aceleração por kernels oferece ganhos práticos de desempenho, com suporte a várias gerações de CUDA e ampla compatibilidade de hardware.
Ecossistema corporativo é reforçado por parcerias e integrações com Azure e Dell, gerando pipelines de implantação seguras, com autos scaling e monitoramento dentro de infraestruturas corporativas.
A ênfase em fluxos de trabalho de raciocínio, incluindo saídas com traços de raciocínio e canais, reflete uma abordagem prática de avaliação e uso responsável, ajudando equipes a calibrar prompts e métricas para tarefas complexas.

Detalhes técnicos ou Implementação

Arquitetura e quantização: ambos os modelos são Mixture-of-Experts (MoE) e utilizam MXFP4, quantização de 4 bits que permite inferência rápida com menos parâmetros ativos. O modelo de 120B cabe em uma única GPU H100 com MXFP4; o de 20B funciona com 16 GB de RAM usando MXFP4, com BF16 como fallback, se MXFP4 não estiver disponível.
Stack de hardware e software: é necessário usar transformers (versão 4.55.1+), accelerate e kernels. Para MXFP4 em hardware CUDA, Triton 3.4+ é recomendado para disponibilizar kernels MXFP4 otimizados na primeira utilização. Isso resulta em economias de memória substanciais e permite inferência de 20B em GPUs de consumo (p.ex., 3090, 4090) e plataformas como Colab e Kaggle.
Kernels e aceleração: o projeto vLLM fornece kernels Flash Attention 3 otimizados que suportam sink attention; integrados para melhor desempenho. Em GPUs Hopper, é possível instalar os kernels mais recentes e baixar código de kernel pré-compilado do repositório kernels-community.
Compatibilidade com GPU e fallback: se a GPU suportar MXFP4, esse é o caminho recomendado. Caso contrário, kernels MegaBlocks MoE podem ser usados, porém exigem bf16 e consomem mais memória. O suporte a AMD ROCm está incluído via kernels, ampliando a cobertura de hardware.
Implantação e operações: GPT OSS pode ser executado via servidores com 2 GPUs H100 ou em configurações com várias GPUs usando accelerate. Os trechos de código exibem como iniciar um servidor com duas GPUs e fazer requisições via OpenAI-compatible Responses API ou via Coπmletions API padrão. Os modelos suportam integração com TRL, incluindo exemplos de fine-tuning com SFTTrainer.
Ecossistema de implantação corporativa: a Hugging Face colabora com Azure para o Azure AI Model Catalog, trazendo modelos para endpoints online com infraestrutura corporativa, e com Dell para hubs empresariais com contêineres otimizados e recursos de segurança.
Considerações de avaliação: GPT OSS é concebido para tarefas de raciocínio, e a geração máxima precisa ser considerável para avaliações confiáveis. Para avaliações, é comum remover traços de raciocínio da saída antes de métricas; os resultados publicados para o 20B incluem valores como IFEval e AIME25 sob condições específicas.

Tabela rápida de fatos

| Modelo | Parâmetros | RAM/GPU típicos | Observações |---|---:|---:|---| | GPT OSS 120B | ~117B | Cabe em uma H100 com MXFP4 | MoE, quantização 4 bits; suporte a multi-GPU via accelerate/torchrun |GPT OSS 20B | ~21B | ~16 GB RAM com MXFP4; fallback bf16 | hardware de consumo; implantação em dispositivos |

Por que isso importa (resumo para desenvolvedores e empresas)

O GPT OSS representa um passo concreto para ferramentas de IA abertas, auditáveis e implantáveis para tarefas de raciocínio. A combinação de arquitetura MoE, quantização MXFP4 e suporte de hardware amplo oferece um caminho prático para equipes experimentarem com modelos grandes sem depender exclusivamente de APIs fechadas. O licenciamento e o suporte do ecossistema pela Hugging Face, junto com opções de implantação em nuvem, on-prem e edge, reduzem barreiras para adoção em contextos corporativos que exigem governança, latência e privacidade. A parceria com Azure e Dell sinaliza foco em pipelines empresariais, com segurança, autoscaling e monitoramento integrados.

Principais aprendizados

Dois modelos MoE abertos com quantização MXFP4 de 4 bits para equilíbrio entre desempenho e consumo de recursos.
O 120B cabe em uma única H100; o 20B funciona em GPUs com 16 GB de RAM, abrindo caminho para hardware de consumo.
Licença Apache 2.0 com política de uso mínima facilita experimentação e integração.
Ecossistema de inferência e aceleração inclui kernels otimizados, suporte a ROCm da AMD e integração com serviços da Hugging Face.
Parcerias com Azure e Dell fortalecem caminhos de implantação corporativa segura.

Perguntas frequentes

Quais são os modelos GPT OSS e seus tamanhos?

Existem dois modelos com pesos abertos: gpt-oss-120b (~117B parâmetros) e gpt-oss-20b (~21B parâmetros), ambos MoE com MXFP4.
Que hardware é recomendado para rodar esses modelos de forma eficaz?

O 120B pode rodar em uma única GPU H100 com MXFP4. O 20B pode rodar em GPUs com 16 GB de RAM usando MXFP4, com fallback bf16 se necessário.
Como acessar e implantar esses modelos?

Eles estão disponíveis via Hugging Face Inference Providers e são integrados ao OpenAI-compatible Responses API. Implantação via Azure AI Model Catalog e Dell Enterprise Hub está disponível.
Qual é o stack de software necessário para o melhor desempenho?

Use transformers (v4.55.1+), accelerate e kernels; Triton 3.4+ é recomendado para MXFP4 em CUDA. Se MXFP4 não estiver disponível, MegaBlocks MoE kernels são uma alternativa.
Existem notas sobre avaliação ou geração para esses modelos?

Os modelos são destinados a tarefas de raciocínio e exigem tamanha geração para avaliações confiáveis. Saídas costumam incluir traços de raciocínio em canais; a remoção desses traços pode ser necessária antes de métricas.