Skip to content
Bem-vindo ao GPT OSS: os modelos MoE 120B e 20B de código aberto da OpenAI chegam
Source: huggingface.co

Bem-vindo ao GPT OSS: os modelos MoE 120B e 20B de código aberto da OpenAI chegam

Sources: https://huggingface.co/blog/welcome-openai-gpt-oss

TL;DR

  • A OpenAI lançou o GPT OSS, uma nova família de modelos com peso aberto baseados em MoE: gpt-oss-120b (120B parâmetros) e gpt-oss-20b (20B parâmetros).
  • Ambos os modelos usam MoE e quantização MXFP4 de 4 bits para acelerar a inferência, mantendo o uso de recursos baixo.
  • O modelo de 20B pode rodar em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100. Ambos estão acessíveis via os Inference Providers da Hugging Face e licenciados sob Apache 2.0 com política de uso mínimo.
  • A disponibilidade é via API compatível com OpenAI (Responses API) e integrações com Azure e Dell para implantações corporativas.
  • Os modelos utilizam uso de ferramentas na inferência para raciocínio, exigem tamanho de geração grande para avaliações e trazem orientações para lidar com traços de raciocínio nas saídas.

Contexto e antecedentes

O GPT OSS marca um passo significativo na missão da OpenAI de tornar os benefícios da IA amplamente acessíveis e contribuir com o ecossistema de código aberto. A lançá-los, a OpenAI disponibiliza duas pesos abertos com arquitetura MoE e quantização MXFP4, que reduz a quantidade de parâmetros ativos durante a inferência para melhorar o desempenho sem exigir grandes recursos. O licenciamento é Apache 2.0 com uma política de uso mínimo, enfatizando uso seguro, responsável, democrático e controle do desenvolvedor. As informações oficiais estão disponíveis no blog da Hugging Face e na demonstração em gpt-oss.com. Blog da Hugging Facegpt-oss.com

O que há de novo

O GPT OSS traz duas versões abertas: gpt-oss-120b e gpt-oss-20b, ambas em MoE e quantizadas com MXFP4 (4 bits). A vantagem é reduzir parâmetros ativos durante a inferência, permitindo execução mais rápida e menor consumo de recursos. O modelo de 120B cabe em uma única GPU H100; o de 20B pode ser executado em hardware com apenas 16 GB de RAM, o que amplia bastante as possibilidades de uso local e em dispositivos. A disponibilidade ocorre por meio do serviço Inference Providers da Hugging Face, permitindo enviar solicitações para backends compatíveis com OpenAI usando o mesmo código Python ou JavaScript empregado com outros provedores. O blog também destaca uma API de Respostas compatível com OpenAI, voltada a interações de chat mais flexíveis, com exemplos usando o provedor Fireworks AI. A pilha de software inclui transformers (versão 4.55.1+), accelerate e kernels, com recomendação de instalar o Triton 3.4+ para desbloquear kernels MXFP4 em hardware CUDA. Caso MXFP4 não esteja disponível, há um caminho de fallback com bfloat16. Além disso, são discutidos kernels otimizados para atenção, o Flash Attention 3 com sink attention, e a opção de usar kernels MegaBlocks MoE em certos cenários, com trade-offs de memória. Do ponto de vista do ecossistema, os modelos GPT OSS foram verificados em hardware AMD Instinct, com suporte inicial a ROCm na biblioteca de kernels. Há também um espaço Hugging Face dedicado para testar em hardware AMD e trabalho contínuo para ampliar a compatibilidade de GPUs e cobertura de kernels. O post explica como rodar a configuração multi-GPU (por exemplo, com quatro GPUs) usando accelerate ou torchrun e fornece trechos de código para experimentação local com transformers serve e a API de Respostas. Os modelos foram desenhados para raciocínio orientado a uso de ferramentas durante as tarefas, com caminhos específicos para implantação empresarial via Azure e Dell.

Por que isso importa (impacto para desenvolvedores/empresas)

  • Acessibilidade e opções de implantação: o modelo de 20B, com apenas 16 GB de RAM, facilita implantações locais e em hardware de consumidor, viabilizando usos privados sem precisar de data center dedicado. O modelo de 120B, por sua vez, cabe em uma única GPU H100, com opções de escalabilidade via multi-GPU para cargas maiores.
  • Licenciamento e governança: a licença Apache 2.0 com política de uso mínimo busca promover uso aberto e responsável, mantendo o controle do usuário.
  • Integração com ecossistemas: a disponibilidade via Inference Providers da Hugging Face e compatibilidade com a API de Respostas OpenAI permitem construir aplicações com interfaces familiares, ao mesmo tempo em que se apoia em pesos abertos. Integrações empresariais com o Azure AI Model Catalog e o Dell Enterprise Hub expandem opções para ambientes gerenciados e on-prem.
  • Ecossistema de hardware e software: o lançamento está alinhado a um stack de inferência compatível com MXFP4, Flash Attention 3, e otimizações de kernels, com suporte a AMD ROCm e hardware NVIDIA CUDA, refletindo uma colaboração em torno de aceleração de kernels e desempenho.
  • Ênfase em avaliação de raciocínio: por serem modelos de raciocínio, exigem tamanhos de geração grandes para avaliações. O post oferece orientações para filtrar traços de raciocínio ao computar métricas, destacando práticas cuidadosas de avaliação para tarefas que envolvem raciocínio.

Detalhes técnicos ou Implementação

  • Família de modelos e quantização: GPT OSS compõe-se de dois modelos MoE, gpt-oss-120b e gpt-oss-20b, quantizados com MXFP4 (4 bits). A quantização reduz parâmetros ativos durante a inferência, possibilitando maior velocidade e menor uso de memória.
  • Requisitos de hardware e implantação: o modelo de 20B opera em GPUs com 16 GB de RAM; o de 120B cabe em uma única GPU H100, com possibilidade de escalonamento com várias GPUs via accelerate ou torchrun. Caso MXFP4 não esteja disponível para uma GPU, o modelo é carregado em bfloat16 a partir dos pesos quantizados.
  • Pilha de software e otimizações: a pilha inclui transformers (v4.55.1+), accelerate e kernels, com recomendação de Triton 3.4+ para destravar kernels MXFP4 em hardware CUDA. Existem kernels otimizados de atenção (Flash Attention 3) com suporte a sink attention. Em GPUs da família Hopper, o código já foi testado com PyTorch 2.7 e 2.8; há instruções para instalar kernels atualizados para acesso a código de kernel pré-compilado da comunidade kernels-community.
  • Caminhos de kernel alternativos: se MXFP4 não estiver disponível, os MegaBlocks MoE kernels oferecem alternativa com trade-offs de memória, exigindo que o modelo rode em bfloat16. A recomendação é escolher MXFP4 sempre que possível.
  • Caminhos de ecossistema e implantação: os modelos GPT OSS são acessíveis via Inference Providers da Hugging Face e são compatíveis com uma API de Respostas OpenAI, com exemplos de uso em Python e tratamento de casos de uso. Os modelos são elegíveis para uso em Azure AI Model Catalog (GPT OSS 20B e GPT OSS 120B) e no Dell Enterprise Hub para implantação on-prem. Isso demonstra um fluxo de evolução de pesos abertos para endpoints gerenciados e infraestrutura empresarial.
  • Saída, raciocínio e governança de uso: o conteúdo menciona o conceito de canais na saída (analytical vs final) para separar o raciocínio da resposta final, com a prática recomendada de anexar apenas o canal final na resposta ao usuário quando não houver uso de ferramentas externas.
  • Resultados de avaliação (exemplos): para o modelo de 20B, números de avaliação citados incluem IFEval (strict prompt) 69.5 ± 1.9 e AIME25 (pass@1) 63.3 ± 8.9. Esses dados aparecem como referência de desempenho em tarefas de raciocínio, dentro do espectro esperado para esse tamanho de modelo.

Principais conclusões

  • GPT OSS oferece duas opções abertas, MoE 120B e 20B, com quantização MXFP4 (4 bits) para equilíbrio entre desempenho e uso de recursos.
  • O modelo de 20B funciona em hardware comum com 16 GB de RAM; o de 120B requer uma GPU H100, com possibilidades de paralelismo entre GPUs.
  • A licença Apache 2.0 com política de uso mínimo reforça o compromisso com uso aberto e responsável, mantendo o controle do usuário.
  • Acesso e implantação via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI, facilita integração em aplicações existentes.
  • Integrações empresariais com Azure e Dell indicam um caminho viável para implantação corporativa, incluindo suporte inicial a ROCm/AMD e caminhos de kernel otimizados para várias GPUs.

FAQ

  • Quais modelos compõem o GPT OSS?

    São dois modelos MoE abertos: gpt-oss-120b e gpt-oss-20b.

  • Que quantização é usada e por quê?

    MXFP4, quantização em 4 bits, que reduz parâmetros ativos durante a inferência para acelerar a execução e reduzir o uso de memória.

  • Que hardware é necessário para rodar o GPT OSS?

    O modelo de 20B funciona com 16 GB de RAM; o de 120B cabe em uma única GPU H100; há opções de multi-GPU para cargas maiores.

  • Em que licença os modelos são liberados?

    Apache 2.0 com política de uso mínimo.

  • Como desenvolvedores acessam e implantam o GPT OSS?

    Acesso via Hugging Face Inference Providers, com API de Respostas compatível com OpenAI; integrações empresariais com Azure AI Model Catalog e Dell Enterprise Hub para deployments on-prem e gerenciados.

Referências

More news