Skip to content
OpenAI GPT OSS: modelos MoE abiertos (120B/20B) con MXFP4 bajo Apache 2.0
Source: huggingface.co

OpenAI GPT OSS: modelos MoE abiertos (120B/20B) con MXFP4 bajo Apache 2.0

Sources: https://huggingface.co/blog/welcome-openai-gpt-oss, Hugging Face Blog

Visión general

GPT OSS es un lanzamiento de pesos abiertos de OpenAI, diseñado para razonamiento poderoso, tareas con agentes y casos de uso versátiles para desarrolladores. Consta de dos modelos: uno grande con 117 mil millones de parámetros (gpt-oss-120b) y otro más pequeño con 21 mil millones de parámetros (gpt-oss-20b). Ambos son Mixture-of-Experts (MoEs) y utilizan una cuantización de 4 bits (MXFP4), lo que permite una inferencia rápida con menos parámetros activos y un uso de recursos reducido. El modelo grande cabe en un solo GPU H100; el de 20B funciona con ~16 GB de memoria y está optimizado para hardware de consumo y aplicaciones en el dispositivo. GPT OSS se libera bajo la licencia Apache 2.0, con una política de uso mínima que enfatiza un uso seguro, responsable y democrático, al mismo tiempo que ofrece a los usuarios mayor control sobre cómo implementan y usan los modelos. Al usar gpt-oss, aceptas cumplir con todas las leyes aplicables. OpenAI describe este lanzamiento como un paso significativo hacia una mayor accesibilidad de la IA, y Hugging Face da la bienvenida a OpenAI a la comunidad. Los modelos están accesibles a través del servicio Hugging Face Inference Providers, con la misma infraestructura que impulsa el demo oficial en gpt-oss.com. Los modelos están diseñados para ejecutarse en entornos diversos con herramientas flexibles, incluyendo inferencia en un solo GPU, configuraciones multi-GPU mediante accelerate o torchrun, y en hardware de consumo o puntos finales empresariales.

Características clave

  • Dos modelos de peso abierto: gpt-oss-120b (aprox. 117B parámetros) y gpt-oss-20b (21B parámetros).
  • MoE (Mixture-of-Experts) con cuantización MXFP4 de 4 bits para ahorro de memoria y mayor velocidad de inferencia.
  • El modelo de 120B cabe en un único GPU H100; el de 20B puede operar con ~16 GB de RAM, apto para hardware de consumo y despliegues en edge.
  • Licencia Apache 2.0 y política de uso mínimo; énfasis en un uso seguro, responsable y democrático, con control del usuario sobre despliegues.
  • Acceso mediante Hugging Face Inference Providers y API de Respuestas compatible con OpenAI para interacciones tipo chat.
  • Preparación para integración: transformers (versión >= 4.55.1), accelerate y kernels; se recomienda Triton 3.4+ para soporte MXFP4 en CUDA.
  • Compatibilidad de hardware: MXFP4 inicialmente para Hopper/Blackwell, pero ahora funciona con Ada, Ampere y Tesla; soporte inicial para ROCm en AMD vía kernels; kernels de MegaBlocks MoE aceleran en AMD Instinct.
  • En tarjetas Hopper (H100/H200), puede requerirse actualizar kernels y aplicar código de kernel optimizado disponible en kernels-community para activar kernels optimizados.
  • El modelo de 120B también puede ejecutarse en múltiples GPUs con accelerate o torchrun; existen planes de paralelización por defecto en el ecosistema de Transformers.
  • Llama.cpp ofrece soporte MXFP4 nativo con Flash Attention en backends Metal, CUDA y Vulkan; disponible mediante llama-server para 120B y 20B.
  • El stack soporta fine-tuning con trl y SFTTrainer; despliegues empresariales a través de Azure AI Model Catalog y Dell Enterprise Hub.
  • En hardware, GPT OSS ha sido verificado en AMD Instinct; soporte ROCm inicial en los kernels; aceleración MegaBlocks MoE ya disponible para MI300 de AMD.
  • GPT OSS es una familia centrada en razonamiento; las evaluaciones destacan la necesidad de un tamaño de generación mayor para capturar trazas de razonamiento; las trazas pueden aparecer en la salida y deben filtrarse para la evaluación.
  • La salida utiliza canales (p. ej., analysis y final); para interactuar con el usuario, normalmente se renderiza el canal final cuando no se usan herramientas.

Casos de uso comunes

  • Despliegues privados/locales e inferencia en edge con hardware de consumo.
  • Endpoints en tiempo real para chat y asistentes con foco en tareas de razonamiento.
  • Tareas de razonamiento con uso de herramientas y generación extensa, seguida de la entrega del resultado final.
  • Fine-tuning y experimentación con SFTTrainer en trl para adaptar modelos a dominios específicos.
  • Despliegues en la nube o en local mediante Azure AI Model Catalog y Dell Enterprise Hub.
  • Ejecución en entornos AMD ROCm con soporte inicial de kernels y en hardware CUDA con MXFP4 y Flash Attention 3 cuando esté disponible.
  • Flujo de evaluación que requiere tamaños de generación grandes para capturar trazas de razonamiento antes de entregar la respuesta final.

Instalación y configuración

pip install --upgrade transformers>=4.55.1 accelerate
pip install --upgrade kernels
pip install --upgrade triton>=3.4

Nota: para tarjetas Hopper, podría ser necesario actualizar kernels y aplicar código de kernel optimizado descrito en las notas de la versión para habilitar kernels MXFP4 optimizados.

pip install --upgrade vllm-flash-attn3
# Ejemplo rápido con API de Hugging Face

Inicio rápido

Ejemplo mínimo en Python usando un punto final de API de Hugging Face para un modelo GPT OSS:

import os
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt-oss-20b"
headers = {"Authorization": f"Bearer {os.environ.get('HF_API_TOKEN')}"}
payload = {"inputs": "Explain how GPT OSS uses MoE and MXFP4 quantization."}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())

Reemplace la URL del modelo por la variante 120B si es necesario y proporcione su token.

Ventajas y desventajas

  • Ventajas:
  • Modelo de peso abierto bajo Apache 2.0; dos tamaños para equilibrar latencia y capacidad.
  • MoE con cuantización MXFP4 para ahorro de memoria y una inferencia rápida en hardware compatible.
  • El modelo de 120B cabe en un solo GPU H100; 20B funciona en ~16 GB de RAM, habilitando hardware de consumo y edge.
  • Amplia compatibilidad de hardware e integración con Hugging Face Inference Providers y API de Respuestas compatible con OpenAI; despliegues en Azure y Dell.
  • Preparado para fine-tuning con trl y SFTTrainer; listo para flujos empresariales.
  • Desventajas:
  • El modelo está orientado al razonamiento y puede requerir tamaños de generación grandes para evaluaciones precisas.
  • Algunas optimizaciones dependen del hardware y de las versiones de bibliotecas; MXFP4 y Flash Attention 3 requieren stack compatible.
  • Si no hay soporte de MXFP4, puede haber fallback bf16 con mayor consumo de memoria.
  • Las evaluaciones deben filtrar trazas de razonamiento para evitar errores de parsing.

Alternativas (breve comparación)

| Enfoque | Característica clave | Pros | Contras |---|---|---|---| | GPT OSS (MoE + MXFP4) | Modelos abiertos 120B/20B con MXFP4 | Ahorro de memoria; inferencia rápida; ejecución en una sola GPU | Requiere hardware/stack compatibles para MXFP4 |MegaBlocks kernels MoE | Noyos MoE acelerados | Rendimiento cuando MXFP4 no está disponible | Mayor consumo de memoria sin MXFP4 |Llama.cpp con MXFP4 | Soporte MXFP4 nativo con Flash Attention | Amplia compatibilidad de backends | Puede requerir adaptación a familia de modelos |Cloud/OpenAI API | Ofertas hospedadas | Gestión simplificada; sin infraestructura local | Costos continuos; datos en la nube |

Licencia

  • Licencia: Apache 2.0. GPT OSS se publica bajo Apache 2.0 con una política de uso mínimo. Al usar gpt-oss, aceptas cumplir con las leyes aplicables. El lanzamiento enfatiza seguridad, responsabilidad y acceso democrático, a la vez que maximiza el control del usuario sobre los despliegues.

Referencias

More resources