Bem-vindo ao GPT OSS: os modelos MoE 120B e 20B de código aberto da OpenAI chegam
TL;DR
- A OpenAI lançou o GPT OSS, uma nova família de modelos com peso aberto baseados em MoE: gpt-oss-120b (120B parâmetros) e gpt-oss-20b (20B parâmetros).
- Ambos os modelos usam MoE e quantização MXFP4 de 4 bits para acelerar a inferência, mantendo o uso de recursos baixo.
- O modelo de 20B pode rodar em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100. Ambos estão acessíveis via os Inference Providers da Hugging Face e licenciados sob Apache 2.0 com política de uso mínimo.
- A disponibilidade é via API compatível com OpenAI (Responses API) e integrações com Azure e Dell para implantações corporativas.
- Os modelos utilizam uso de ferramentas na inferência para raciocínio, exigem tamanho de geração grande para avaliações e trazem orientações para lidar com traços de raciocínio nas saídas.
Contexto e antecedentes
O GPT OSS marca um passo significativo na missão da OpenAI de tornar os benefícios da IA amplamente acessíveis e contribuir com o ecossistema de código aberto. A lançá-los, a OpenAI disponibiliza duas pesos abertos com arquitetura MoE e quantização MXFP4, que reduz a quantidade de parâmetros ativos durante a inferência para melhorar o desempenho sem exigir grandes recursos. O licenciamento é Apache 2.0 com uma política de uso mínimo, enfatizando uso seguro, responsável, democrático e controle do desenvolvedor. As informações oficiais estão disponíveis no blog da Hugging Face e na demonstração em gpt-oss.com. Blog da Hugging Face • gpt-oss.com
O que há de novo
O GPT OSS traz duas versões abertas: gpt-oss-120b e gpt-oss-20b, ambas em MoE e quantizadas com MXFP4 (4 bits). A vantagem é reduzir parâmetros ativos durante a inferência, permitindo execução mais rápida e menor consumo de recursos. O modelo de 120B cabe em uma única GPU H100; o de 20B pode ser executado em hardware com apenas 16 GB de RAM, o que amplia bastante as possibilidades de uso local e em dispositivos. A disponibilidade ocorre por meio do serviço Inference Providers da Hugging Face, permitindo enviar solicitações para backends compatíveis com OpenAI usando o mesmo código Python ou JavaScript empregado com outros provedores. O blog também destaca uma API de Respostas compatível com OpenAI, voltada a interações de chat mais flexíveis, com exemplos usando o provedor Fireworks AI. A pilha de software inclui transformers (versão 4.55.1+), accelerate e kernels, com recomendação de instalar o Triton 3.4+ para desbloquear kernels MXFP4 em hardware CUDA. Caso MXFP4 não esteja disponível, há um caminho de fallback com bfloat16. Além disso, são discutidos kernels otimizados para atenção, o Flash Attention 3 com sink attention, e a opção de usar kernels MegaBlocks MoE em certos cenários, com trade-offs de memória. Do ponto de vista do ecossistema, os modelos GPT OSS foram verificados em hardware AMD Instinct, com suporte inicial a ROCm na biblioteca de kernels. Há também um espaço Hugging Face dedicado para testar em hardware AMD e trabalho contínuo para ampliar a compatibilidade de GPUs e cobertura de kernels. O post explica como rodar a configuração multi-GPU (por exemplo, com quatro GPUs) usando accelerate ou torchrun e fornece trechos de código para experimentação local com transformers serve e a API de Respostas. Os modelos foram desenhados para raciocínio orientado a uso de ferramentas durante as tarefas, com caminhos específicos para implantação empresarial via Azure e Dell.
Por que isso importa (impacto para desenvolvedores/empresas)
- Acessibilidade e opções de implantação: o modelo de 20B, com apenas 16 GB de RAM, facilita implantações locais e em hardware de consumidor, viabilizando usos privados sem precisar de data center dedicado. O modelo de 120B, por sua vez, cabe em uma única GPU H100, com opções de escalabilidade via multi-GPU para cargas maiores.
- Licenciamento e governança: a licença Apache 2.0 com política de uso mínimo busca promover uso aberto e responsável, mantendo o controle do usuário.
- Integração com ecossistemas: a disponibilidade via Inference Providers da Hugging Face e compatibilidade com a API de Respostas OpenAI permitem construir aplicações com interfaces familiares, ao mesmo tempo em que se apoia em pesos abertos. Integrações empresariais com o Azure AI Model Catalog e o Dell Enterprise Hub expandem opções para ambientes gerenciados e on-prem.
- Ecossistema de hardware e software: o lançamento está alinhado a um stack de inferência compatível com MXFP4, Flash Attention 3, e otimizações de kernels, com suporte a AMD ROCm e hardware NVIDIA CUDA, refletindo uma colaboração em torno de aceleração de kernels e desempenho.
- Ênfase em avaliação de raciocínio: por serem modelos de raciocínio, exigem tamanhos de geração grandes para avaliações. O post oferece orientações para filtrar traços de raciocínio ao computar métricas, destacando práticas cuidadosas de avaliação para tarefas que envolvem raciocínio.
Detalhes técnicos ou Implementação
- Família de modelos e quantização: GPT OSS compõe-se de dois modelos MoE, gpt-oss-120b e gpt-oss-20b, quantizados com MXFP4 (4 bits). A quantização reduz parâmetros ativos durante a inferência, possibilitando maior velocidade e menor uso de memória.
- Requisitos de hardware e implantação: o modelo de 20B opera em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100, com possibilidade de escalonamento com várias GPUs via accelerate ou torchrun. Caso MXFP4 não esteja disponível para uma GPU, o modelo é carregado em bfloat16 a partir dos pesos quantizados.
- Pilha de software e otimizações: a pilha inclui transformers (v4.55.1+), accelerate e kernels, com recomendação de Triton 3.4+ para destravar kernels MXFP4 em hardware CUDA. Existem kernels otimizados de atenção (Flash Attention 3) com suporte a sink attention. Em GPUs da família Hopper, o código já foi testado com PyTorch 2.7 e 2.8; há instruções para instalar kernels atualizados para acesso a código de kernel pré-compilado da comunidade kernels-community.
- Caminhos de kernel alternativos: se MXFP4 não estiver disponível, os MegaBlocks MoE kernels oferecem alternativa com trade-offs de memória, exigindo que o modelo rode em bfloat16. A recomendação é escolher MXFP4 sempre que possível.
- Caminhos de ecossistema e implantação: os modelos GPT OSS são acessíveis via Inference Providers da Hugging Face e são compatíveis com uma API de Respostas OpenAI, com exemplos de uso em Python e tratamento de casos de uso. Os modelos são elegíveis para uso em Azure AI Model Catalog (GPT OSS 20B e GPT OSS 120B) e no Dell Enterprise Hub para implantação on-prem. Isso demonstra um fluxo de evolução de pesos abertos para endpoints gerenciados e infraestrutura empresarial.
- Saída, raciocínio e governança de uso: o conteúdo menciona o conceito de canais na saída (analytical vs final) para separar o raciocínio da resposta final, com a prática recomendada de anexar apenas o canal final na resposta ao usuário quando não houver uso de ferramentas externas.
- Resultados de avaliação (exemplos): para o modelo de 20B, números de avaliação citados incluem IFEval (strict prompt) 69.5 ± 1.9 e AIME25 (pass@1) 63.3 ± 8.9. Esses dados aparecem como referência de desempenho em tarefas de raciocínio, dentro do espectro esperado para esse tamanho de modelo.
Principais conclusões
- GPT OSS oferece duas opções abertas, MoE 120B e 20B, com quantização MXFP4 (4 bits) para equilíbrio entre desempenho e uso de recursos.
- O modelo de 20B funciona em hardware comum com 16 GB de RAM; o de 120B requer uma GPU H100, com possibilidades de paralelismo entre GPUs.
- A licença Apache 2.0 com política de uso mínimo reforça o compromisso com uso aberto e responsável, mantendo o controle do usuário.
- Acesso e implantação via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI, facilita integração em aplicações existentes.
- Integrações empresariais com Azure e Dell indicam um caminho viável para implantação corporativa, incluindo suporte inicial a ROCm/AMD e caminhos de kernel otimizados para várias GPUs.
FAQ
-
Quais modelos compõem o GPT OSS?
São dois modelos MoE abertos: gpt-oss-120b e gpt-oss-20b.
-
Que quantização é usada e por quê?
MXFP4, quantização em 4 bits, que reduz parâmetros ativos durante a inferência para acelerar a execução e reduzir o uso de memória.
-
Que hardware é necessário para rodar o GPT OSS?
O modelo de 20B funciona com 16 GB de RAM; o de 120B cabe em uma única GPU H100; há opções de multi-GPU para cargas maiores.
-
Em que licença os modelos são liberados?
Apache 2.0 com política de uso mínimo.
-
Como desenvolvedores acessam e implantam o GPT OSS?
Acesso via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI; integrações empresariais com Azure AI Model Catalog e Dell Enterprise Hub para deployments on-prem e gerenciados.
Referências
More news
NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado
O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.
Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência
A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.
Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares
Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.
Como reduzir gargalos do KV Cache com NVIDIA Dynamo
O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.
Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo
A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.
Monitorar Bedrock batch inference da Amazon usando métricas do CloudWatch
Saiba como monitorar e otimizar trabalhos de bedrock batch inference com métricas do CloudWatch, alarmes e painéis para melhorar desempenho, custo e governança.