OpenAI GPT OSS: Modelos MoE abertos (120B/20B) com MXFP4 sob Apache 2.0
Sources: https://huggingface.co/blog/welcome-openai-gpt-oss, Hugging Face Blog
Visão geral
GPT OSS é um lançamento de pesos abertos da OpenAI, voltado para raciocínio potente, tarefas de agentes e casos de uso para desenvolvedores. Ele é composto por dois modelos: um grande com 117B de parâmetros (gpt-oss-120b) e um menor com 21B de parâmetros (gpt-oss-20b). Ambos são Mixture-of-Experts (MoEs) e usam uma quantização de 4 bits (MXFP4), permitindo inferência rápida com menos parâmetros ativos, mantendo o consumo de recursos baixo. O modelo maior cabe em um único GPU H100; o menor funciona com ~16GB de memória e é adequado para hardware de consumidor e aplicações em edge. O GPT OSS é lançado sob a licença Apache 2.0, com uma política de uso mínima que enfatiza uso seguro, responsável e democrático, ao mesmo tempo em que dá controle ao usuário sobre como implantar e usar os modelos. Ao utiliser o gpt-oss, você concorda em cumprir todas as leis aplicáveis. A OpenAI descreve o lançamento como um passo significativo para ampliar a acessibilidade da IA, e o Hugging Face dá as boas-vindas à OpenAI na comunidade. Os modelos estão acessíveis via o serviço de Inference Providers da Hugging Face, usando a mesma infraestrutura que alimenta o demo oficial no gpt-oss.com. Os modelos foram projetados para serem executados em ambientes diferentes com ferramentas flexíveis, incluindo inferência em apenas um GPU, setups com várias GPUs via accelerate ou torchrun, e em hardware de consumidor ou pontos finais empresariais.
Principais recursos
- Dois modelos de peso aberto: gpt-oss-120b (aprox. 117B) e gpt-oss-20b (21B).
- MoE (Mixture-of-Experts) com quantização MXFP4 de 4 bits para economia de memória e inferência mais rápida.
- O modelo de 120B cabe em um único GPU H100; o de 20B funciona com ~16GB de RAM, viabilizando hardware de consumidor e edge.
- Licença Apache 2.0 com política de uso mínima; foco em uso seguro, responsável e democrático; você concorda em cumprir a lei aplicável.
- Disponível via Hugging Face Inference Providers; suporte à API de Respostas compatível com OpenAI para interações em estilo chat.
- Prontos para integração: recomenda-se transformers (versão >= 4.55.1), accelerate e kernels; Triton 3.4+ recomendado para suporte a MXFP4 no CUDA.
- Compatibilidade de hardware: MXFP4 foi originalmente para GPUs Hopper/Blackwell, mas agora funciona com Ada, Ampere e Tesla; suporte inicial para ROCm em AMD via kernels; MegaBlocks MoE kernels aceleram para AMD Instinct.
- Em GPUs Hopper (H100/H200), pode ser necessário atualizar kernels e aplicar código de kernel otimizado disponível na comunidade kernels para habilitar kernels otimizados.
- O modelo de 120B também pode ser executado em várias GPUs com accelerate ou torchrun; planos de paralelização padrão existem no ecossistema Transformers.
- Llama.cpp oferece suporte nativo ao MXFP4 com Flash Attention para backends Metal, CUDA e Vulkan; disponível via llama-server para 120B e 20B.
- O stack tem integração com trl para ajuste fino e com SFTTrainer; implantações empresariais via Azure AI Model Catalog e Dell Enterprise Hub.
- Em termos de hardware, o GPT OSS foi verificado em AMD Instinct; ROCm está em fase inicial nos kernels; a aceleração com kernels para MI300 já é mencionada.
- GPT OSS é voltado para raciocínio; avaliações destacam a necessidade de tamanhos grandes de geração para capturar traços de raciocínio; traços de raciocínio podem aparecer na saída e devem ser filtrados para avaliação.
- A saída costuma usar canais (por exemplo, analysis e final); para usuário final sem uso de ferramentas, renderiza-se geralmente o canal final.
Casos de uso comuns
- Implantações privadas/local e inferência em edge com hardware de consumidor.
- Pontos finais em tempo real para chat/assistência com foco em tarefas de raciocínio.
- Tarefas de raciocínio com uso de ferramentas, com geração estendida e foco no raciocínio.
- Fine-tuning e experimentação com SFTTrainer em trl para adaptar modelos a domínios específicos.
- Implantações via nuvem ou on-prem com Azure AI Model Catalog e Dell Enterprise Hub.
- Execução em ambientes AMD ROCm com suporte inicial de kernels, e em hardware CUDA com MXFP4 e Flash Attention 3, quando disponível.
- Fluxos de avaliação que exigem tamanhos grandes de geração para capturar traços de raciocínio antes de fornecer o resultado final.
Setup & instalação
pip install --upgrade transformers>=4.55.1 accelerate
pip install --upgrade kernels
pip install --upgrade triton>=3.4
Observação: para placas Hopper (H100/H200) pode ser necessário atualizar kernels e aplicar códigos de kernel otimizados descritos nos notas de release para habilitar kernels MXFP4 otimizados.
# Opcional: para habilitar sinks do Flash Attention 3 com kernels vLLM onde suportado
pip install --upgrade vllm-flash-attn3
# Exemplo rápido usando endpoint de API de Inference da Hugging Face
# Certifique-se de ter um token de API e usar o identificador do modelo GPT OSS 20B/120B
Quick start
Exemplo mínimo em Python usando um endpoint de API de Inference da Hugging Face para um modelo GPT OSS:
import os
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt-oss-20b"
headers = {"Authorization": f"Bearer {os.environ.get('HF_API_TOKEN')}"}
payload = {"inputs": "Explique como o GPT OSS usa MoE e quantização MXFP4."}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())
Substitua o URL do modelo pelo variante 120B conforme necessário e forneça seu token.
Prós e contras
- Prós:
- Lançamento de pesos abertos sob Apache 2.0; dois tamanhos de modelo oferecem trade-offs entre latência e capacidade.
- MoE com quantização MXFP4 para economia de memória e inferência rápida em hardware compatível.
- O modelo de 120B cabe em um único GPU H100; 20B roda em ~16GB, viabilizando hardware de consumidor e edge.
- Amplo suporte de hardware (CUDA com MXFP4, Flash Attention 3, ROCm em AMD; otimizações via kernels da comunidade).
- Integrações prontas com Hugging Face Inference Providers, API de Respostas compatível com OpenAI e caminhos empresariais (Azure, Dell).
- Suporte a ajuste fino e fluxos de trabalho com trl e SFTTrainer; pronto para implantação empresarial.
- Contras:
- Modelo voltado para raciocínio; pode exigir tamanhos grandes de geração para avaliação e qualidade de inferência.
- Algumas otimizações (MXFP4, Flash Attention 3) requerem hardware e versões de biblioteca compatíveis para obter ganhos de memória e velocidade.
- Em GPUs/hardware não compatíveis com MXFP4, pode ocorrer fallback para bf16 com maior consumo de memória.
- Traços de raciocínio precisam ser filtrados em avaliações para evitar parsing de métricas.
Alternativas (breve comparação)
| Abordagem | Característica chave | Prós | Contras |---|---|---|---| | GPT OSS (MoE + MXFP4) | Modelo com pesos abertos 120B/20B MoE com quantização MXFP4 | Economia de memória; inferência rápida; execução em uma única GPU | Requer hardware/software compatíveis para MXFP4; configuração especializada |MegaBlocks kernels MoE | kernels de aceleração MoE sem MXFP4 | Funciona quando MXFP4 não está disponível; pode acelerar em alguns GPUs | Memória maior sem MXFP4; requer bf16 |Llama.cpp com MXFP4 | Suporte nativo MXFP4 com Flash Attention | Amplo suporte de backends; caminhos simples de implantação | Pode exigir integração com famílias de modelos específicas |Cloud/OpenAI API | Alternativa hospedada | Gestão simplificada; sem infra local | Custos recorrentes; dados passam para a nuvem |
Licença
- Licença: Apache 2.0. O GPT OSS é lançado sob Apache 2.0 com uma política de uso mínima. Ao usar o gpt-oss, você concorda em cumprir a lei aplicável. O lançamento enfatiza segurança, responsabilidade e acesso democrático, ao mesmo tempo em que maximiza o controle de implantação pelo usuário.
Referências
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecossistema Unificado de Arm e Mais
Kit de ferramentas CUDA unificado para Arm no Jetson Thor com coerência total de memória, compartilhamento de GPU entre processos, interoperabilidade OpenRM/dmabuf, suporte NUMA e melhorias de ferramentas para embarcados e servidores.
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Aprimorando a auto-tunagem de GEMM com nvMatmulHeuristics no CUTLASS 4.2
Apresenta nvMatmulHeuristics para escolher rapidamente um conjunto pequeno de configurações de kernels GEMM com alto potencial para o CUTLASS 4.2, reduzindo drasticamente o tempo de tuning enquanto se aproxima do desempenho da busca exaustiva.
Deixe os ZeroGPU Spaces mais rápidos com compilação ahead-of-time (AoT) do PyTorch
Descubra como a AoT do PyTorch acelera ZeroGPU Spaces exportando um modelo compilado e recarregando-o instantaneamente, com quantização FP8, formas dinâmicas e integração cuidadosa com o fluxo Spaces GPU.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas
Guia para implantar e escalar agentes baseados em LangGraph em produção usando o NeMo Agent Toolkit, testes de carga e rollout por fases para centenas a milhares de usuários.