OpenAI GPT OSS: Modelos MoE abertos (120B/20B) com MXFP4 sob Apache 2.0

Visão geral

GPT OSS é um lançamento de pesos abertos da OpenAI, voltado para raciocínio potente, tarefas de agentes e casos de uso para desenvolvedores. Ele é composto por dois modelos: um grande com 117B de parâmetros (gpt-oss-120b) e um menor com 21B de parâmetros (gpt-oss-20b). Ambos são Mixture-of-Experts (MoEs) e usam uma quantização de 4 bits (MXFP4), permitindo inferência rápida com menos parâmetros ativos, mantendo o consumo de recursos baixo. O modelo maior cabe em um único GPU H100; o menor funciona com ~16GB de memória e é adequado para hardware de consumidor e aplicações em edge. O GPT OSS é lançado sob a licença Apache 2.0, com uma política de uso mínima que enfatiza uso seguro, responsável e democrático, ao mesmo tempo em que dá controle ao usuário sobre como implantar e usar os modelos. Ao utiliser o gpt-oss, você concorda em cumprir todas as leis aplicáveis. A OpenAI descreve o lançamento como um passo significativo para ampliar a acessibilidade da IA, e o Hugging Face dá as boas-vindas à OpenAI na comunidade. Os modelos estão acessíveis via o serviço de Inference Providers da Hugging Face, usando a mesma infraestrutura que alimenta o demo oficial no gpt-oss.com. Os modelos foram projetados para serem executados em ambientes diferentes com ferramentas flexíveis, incluindo inferência em apenas um GPU, setups com várias GPUs via accelerate ou torchrun, e em hardware de consumidor ou pontos finais empresariais.

Principais recursos

Dois modelos de peso aberto: gpt-oss-120b (aprox. 117B) e gpt-oss-20b (21B).
MoE (Mixture-of-Experts) com quantização MXFP4 de 4 bits para economia de memória e inferência mais rápida.
O modelo de 120B cabe em um único GPU H100; o de 20B funciona com ~16GB de RAM, viabilizando hardware de consumidor e edge.
Licença Apache 2.0 com política de uso mínima; foco em uso seguro, responsável e democrático; você concorda em cumprir a lei aplicável.
Disponível via Hugging Face Inference Providers; suporte à API de Respostas compatível com OpenAI para interações em estilo chat.
Prontos para integração: recomenda-se transformers (versão >= 4.55.1), accelerate e kernels; Triton 3.4+ recomendado para suporte a MXFP4 no CUDA.
Compatibilidade de hardware: MXFP4 foi originalmente para GPUs Hopper/Blackwell, mas agora funciona com Ada, Ampere e Tesla; suporte inicial para ROCm em AMD via kernels; MegaBlocks MoE kernels aceleram para AMD Instinct.
Em GPUs Hopper (H100/H200), pode ser necessário atualizar kernels e aplicar código de kernel otimizado disponível na comunidade kernels para habilitar kernels otimizados.
O modelo de 120B também pode ser executado em várias GPUs com accelerate ou torchrun; planos de paralelização padrão existem no ecossistema Transformers.
Llama.cpp oferece suporte nativo ao MXFP4 com Flash Attention para backends Metal, CUDA e Vulkan; disponível via llama-server para 120B e 20B.
O stack tem integração com trl para ajuste fino e com SFTTrainer; implantações empresariais via Azure AI Model Catalog e Dell Enterprise Hub.
Em termos de hardware, o GPT OSS foi verificado em AMD Instinct; ROCm está em fase inicial nos kernels; a aceleração com kernels para MI300 já é mencionada.
GPT OSS é voltado para raciocínio; avaliações destacam a necessidade de tamanhos grandes de geração para capturar traços de raciocínio; traços de raciocínio podem aparecer na saída e devem ser filtrados para avaliação.
A saída costuma usar canais (por exemplo, analysis e final); para usuário final sem uso de ferramentas, renderiza-se geralmente o canal final.

Casos de uso comuns

Implantações privadas/local e inferência em edge com hardware de consumidor.
Pontos finais em tempo real para chat/assistência com foco em tarefas de raciocínio.
Tarefas de raciocínio com uso de ferramentas, com geração estendida e foco no raciocínio.
Fine-tuning e experimentação com SFTTrainer em trl para adaptar modelos a domínios específicos.
Implantações via nuvem ou on-prem com Azure AI Model Catalog e Dell Enterprise Hub.
Execução em ambientes AMD ROCm com suporte inicial de kernels, e em hardware CUDA com MXFP4 e Flash Attention 3, quando disponível.
Fluxos de avaliação que exigem tamanhos grandes de geração para capturar traços de raciocínio antes de fornecer o resultado final.

Setup & instalação

pip install --upgrade transformers>=4.55.1 accelerate
pip install --upgrade kernels
pip install --upgrade triton>=3.4

Observação: para placas Hopper (H100/H200) pode ser necessário atualizar kernels e aplicar códigos de kernel otimizados descritos nos notas de release para habilitar kernels MXFP4 otimizados.

# Opcional: para habilitar sinks do Flash Attention 3 com kernels vLLM onde suportado
pip install --upgrade vllm-flash-attn3

# Exemplo rápido usando endpoint de API de Inference da Hugging Face
# Certifique-se de ter um token de API e usar o identificador do modelo GPT OSS 20B/120B

Quick start

Exemplo mínimo em Python usando um endpoint de API de Inference da Hugging Face para um modelo GPT OSS:

import os
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt-oss-20b"
headers = {"Authorization": f"Bearer {os.environ.get('HF_API_TOKEN')}"}
payload = {"inputs": "Explique como o GPT OSS usa MoE e quantização MXFP4."}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())

Substitua o URL do modelo pelo variante 120B conforme necessário e forneça seu token.

Prós e contras

Prós:
Lançamento de pesos abertos sob Apache 2.0; dois tamanhos de modelo oferecem trade-offs entre latência e capacidade.
MoE com quantização MXFP4 para economia de memória e inferência rápida em hardware compatível.
O modelo de 120B cabe em um único GPU H100; 20B roda em ~16GB, viabilizando hardware de consumidor e edge.
Amplo suporte de hardware (CUDA com MXFP4, Flash Attention 3, ROCm em AMD; otimizações via kernels da comunidade).
Integrações prontas com Hugging Face Inference Providers, API de Respostas compatível com OpenAI e caminhos empresariais (Azure, Dell).
Suporte a ajuste fino e fluxos de trabalho com trl e SFTTrainer; pronto para implantação empresarial.
Contras:
Modelo voltado para raciocínio; pode exigir tamanhos grandes de geração para avaliação e qualidade de inferência.
Algumas otimizações (MXFP4, Flash Attention 3) requerem hardware e versões de biblioteca compatíveis para obter ganhos de memória e velocidade.
Em GPUs/hardware não compatíveis com MXFP4, pode ocorrer fallback para bf16 com maior consumo de memória.
Traços de raciocínio precisam ser filtrados em avaliações para evitar parsing de métricas.

Alternativas (breve comparação)

| Abordagem | Característica chave | Prós | Contras |---|---|---|---| | GPT OSS (MoE + MXFP4) | Modelo com pesos abertos 120B/20B MoE com quantização MXFP4 | Economia de memória; inferência rápida; execução em uma única GPU | Requer hardware/software compatíveis para MXFP4; configuração especializada |MegaBlocks kernels MoE | kernels de aceleração MoE sem MXFP4 | Funciona quando MXFP4 não está disponível; pode acelerar em alguns GPUs | Memória maior sem MXFP4; requer bf16 |Llama.cpp com MXFP4 | Suporte nativo MXFP4 com Flash Attention | Amplo suporte de backends; caminhos simples de implantação | Pode exigir integração com famílias de modelos específicas |Cloud/OpenAI API | Alternativa hospedada | Gestão simplificada; sem infra local | Custos recorrentes; dados passam para a nuvem |

Licença

Licença: Apache 2.0. O GPT OSS é lançado sob Apache 2.0 com uma política de uso mínima. Ao usar o gpt-oss, você concorda em cumprir a lei aplicável. O lançamento enfatiza segurança, responsabilidade e acesso democrático, ao mesmo tempo em que maximiza o controle de implantação pelo usuário.