Skip to content
OpenAI GPT OSS: Modelos MoE abertos (120B/20B) com MXFP4 sob Apache 2.0
Source: huggingface.co

OpenAI GPT OSS: Modelos MoE abertos (120B/20B) com MXFP4 sob Apache 2.0

Sources: https://huggingface.co/blog/welcome-openai-gpt-oss, Hugging Face Blog

Visão geral

GPT OSS é um lançamento de pesos abertos da OpenAI, voltado para raciocínio potente, tarefas de agentes e casos de uso para desenvolvedores. Ele é composto por dois modelos: um grande com 117B de parâmetros (gpt-oss-120b) e um menor com 21B de parâmetros (gpt-oss-20b). Ambos são Mixture-of-Experts (MoEs) e usam uma quantização de 4 bits (MXFP4), permitindo inferência rápida com menos parâmetros ativos, mantendo o consumo de recursos baixo. O modelo maior cabe em um único GPU H100; o menor funciona com ~16GB de memória e é adequado para hardware de consumidor e aplicações em edge. O GPT OSS é lançado sob a licença Apache 2.0, com uma política de uso mínima que enfatiza uso seguro, responsável e democrático, ao mesmo tempo em que dá controle ao usuário sobre como implantar e usar os modelos. Ao utiliser o gpt-oss, você concorda em cumprir todas as leis aplicáveis. A OpenAI descreve o lançamento como um passo significativo para ampliar a acessibilidade da IA, e o Hugging Face dá as boas-vindas à OpenAI na comunidade. Os modelos estão acessíveis via o serviço de Inference Providers da Hugging Face, usando a mesma infraestrutura que alimenta o demo oficial no gpt-oss.com. Os modelos foram projetados para serem executados em ambientes diferentes com ferramentas flexíveis, incluindo inferência em apenas um GPU, setups com várias GPUs via accelerate ou torchrun, e em hardware de consumidor ou pontos finais empresariais.

Principais recursos

  • Dois modelos de peso aberto: gpt-oss-120b (aprox. 117B) e gpt-oss-20b (21B).
  • MoE (Mixture-of-Experts) com quantização MXFP4 de 4 bits para economia de memória e inferência mais rápida.
  • O modelo de 120B cabe em um único GPU H100; o de 20B funciona com ~16GB de RAM, viabilizando hardware de consumidor e edge.
  • Licença Apache 2.0 com política de uso mínima; foco em uso seguro, responsável e democrático; você concorda em cumprir a lei aplicável.
  • Disponível via Hugging Face Inference Providers; suporte à API de Respostas compatível com OpenAI para interações em estilo chat.
  • Prontos para integração: recomenda-se transformers (versão >= 4.55.1), accelerate e kernels; Triton 3.4+ recomendado para suporte a MXFP4 no CUDA.
  • Compatibilidade de hardware: MXFP4 foi originalmente para GPUs Hopper/Blackwell, mas agora funciona com Ada, Ampere e Tesla; suporte inicial para ROCm em AMD via kernels; MegaBlocks MoE kernels aceleram para AMD Instinct.
  • Em GPUs Hopper (H100/H200), pode ser necessário atualizar kernels e aplicar código de kernel otimizado disponível na comunidade kernels para habilitar kernels otimizados.
  • O modelo de 120B também pode ser executado em várias GPUs com accelerate ou torchrun; planos de paralelização padrão existem no ecossistema Transformers.
  • Llama.cpp oferece suporte nativo ao MXFP4 com Flash Attention para backends Metal, CUDA e Vulkan; disponível via llama-server para 120B e 20B.
  • O stack tem integração com trl para ajuste fino e com SFTTrainer; implantações empresariais via Azure AI Model Catalog e Dell Enterprise Hub.
  • Em termos de hardware, o GPT OSS foi verificado em AMD Instinct; ROCm está em fase inicial nos kernels; a aceleração com kernels para MI300 já é mencionada.
  • GPT OSS é voltado para raciocínio; avaliações destacam a necessidade de tamanhos grandes de geração para capturar traços de raciocínio; traços de raciocínio podem aparecer na saída e devem ser filtrados para avaliação.
  • A saída costuma usar canais (por exemplo, analysis e final); para usuário final sem uso de ferramentas, renderiza-se geralmente o canal final.

Casos de uso comuns

  • Implantações privadas/local e inferência em edge com hardware de consumidor.
  • Pontos finais em tempo real para chat/assistência com foco em tarefas de raciocínio.
  • Tarefas de raciocínio com uso de ferramentas, com geração estendida e foco no raciocínio.
  • Fine-tuning e experimentação com SFTTrainer em trl para adaptar modelos a domínios específicos.
  • Implantações via nuvem ou on-prem com Azure AI Model Catalog e Dell Enterprise Hub.
  • Execução em ambientes AMD ROCm com suporte inicial de kernels, e em hardware CUDA com MXFP4 e Flash Attention 3, quando disponível.
  • Fluxos de avaliação que exigem tamanhos grandes de geração para capturar traços de raciocínio antes de fornecer o resultado final.

Setup & instalação

pip install --upgrade transformers>=4.55.1 accelerate
pip install --upgrade kernels
pip install --upgrade triton>=3.4

Observação: para placas Hopper (H100/H200) pode ser necessário atualizar kernels e aplicar códigos de kernel otimizados descritos nos notas de release para habilitar kernels MXFP4 otimizados.

# Opcional: para habilitar sinks do Flash Attention 3 com kernels vLLM onde suportado
pip install --upgrade vllm-flash-attn3
# Exemplo rápido usando endpoint de API de Inference da Hugging Face
# Certifique-se de ter um token de API e usar o identificador do modelo GPT OSS 20B/120B

Quick start

Exemplo mínimo em Python usando um endpoint de API de Inference da Hugging Face para um modelo GPT OSS:

import os
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt-oss-20b"
headers = {"Authorization": f"Bearer {os.environ.get('HF_API_TOKEN')}"}
payload = {"inputs": "Explique como o GPT OSS usa MoE e quantização MXFP4."}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())

Substitua o URL do modelo pelo variante 120B conforme necessário e forneça seu token.

Prós e contras

  • Prós:
  • Lançamento de pesos abertos sob Apache 2.0; dois tamanhos de modelo oferecem trade-offs entre latência e capacidade.
  • MoE com quantização MXFP4 para economia de memória e inferência rápida em hardware compatível.
  • O modelo de 120B cabe em um único GPU H100; 20B roda em ~16GB, viabilizando hardware de consumidor e edge.
  • Amplo suporte de hardware (CUDA com MXFP4, Flash Attention 3, ROCm em AMD; otimizações via kernels da comunidade).
  • Integrações prontas com Hugging Face Inference Providers, API de Respostas compatível com OpenAI e caminhos empresariais (Azure, Dell).
  • Suporte a ajuste fino e fluxos de trabalho com trl e SFTTrainer; pronto para implantação empresarial.
  • Contras:
  • Modelo voltado para raciocínio; pode exigir tamanhos grandes de geração para avaliação e qualidade de inferência.
  • Algumas otimizações (MXFP4, Flash Attention 3) requerem hardware e versões de biblioteca compatíveis para obter ganhos de memória e velocidade.
  • Em GPUs/hardware não compatíveis com MXFP4, pode ocorrer fallback para bf16 com maior consumo de memória.
  • Traços de raciocínio precisam ser filtrados em avaliações para evitar parsing de métricas.

Alternativas (breve comparação)

| Abordagem | Característica chave | Prós | Contras |---|---|---|---| | GPT OSS (MoE + MXFP4) | Modelo com pesos abertos 120B/20B MoE com quantização MXFP4 | Economia de memória; inferência rápida; execução em uma única GPU | Requer hardware/software compatíveis para MXFP4; configuração especializada |MegaBlocks kernels MoE | kernels de aceleração MoE sem MXFP4 | Funciona quando MXFP4 não está disponível; pode acelerar em alguns GPUs | Memória maior sem MXFP4; requer bf16 |Llama.cpp com MXFP4 | Suporte nativo MXFP4 com Flash Attention | Amplo suporte de backends; caminhos simples de implantação | Pode exigir integração com famílias de modelos específicas |Cloud/OpenAI API | Alternativa hospedada | Gestão simplificada; sem infra local | Custos recorrentes; dados passam para a nuvem |

Licença

  • Licença: Apache 2.0. O GPT OSS é lançado sob Apache 2.0 com uma política de uso mínima. Ao usar o gpt-oss, você concorda em cumprir a lei aplicável. O lançamento enfatiza segurança, responsabilidade e acesso democrático, ao mesmo tempo em que maximiza o controle de implantação pelo usuário.

Referências

More resources