OpenAI GPT OSS: modelos MoE abiertos (120B/20B) con MXFP4 bajo Apache 2.0
Sources: https://huggingface.co/blog/welcome-openai-gpt-oss, Hugging Face Blog
Visión general
GPT OSS es un lanzamiento de pesos abiertos de OpenAI, diseñado para razonamiento poderoso, tareas con agentes y casos de uso versátiles para desarrolladores. Consta de dos modelos: uno grande con 117 mil millones de parámetros (gpt-oss-120b) y otro más pequeño con 21 mil millones de parámetros (gpt-oss-20b). Ambos son Mixture-of-Experts (MoEs) y utilizan una cuantización de 4 bits (MXFP4), lo que permite una inferencia rápida con menos parámetros activos y un uso de recursos reducido. El modelo grande cabe en un solo GPU H100; el de 20B funciona con ~16 GB de memoria y está optimizado para hardware de consumo y aplicaciones en el dispositivo. GPT OSS se libera bajo la licencia Apache 2.0, con una política de uso mínima que enfatiza un uso seguro, responsable y democrático, al mismo tiempo que ofrece a los usuarios mayor control sobre cómo implementan y usan los modelos. Al usar gpt-oss, aceptas cumplir con todas las leyes aplicables. OpenAI describe este lanzamiento como un paso significativo hacia una mayor accesibilidad de la IA, y Hugging Face da la bienvenida a OpenAI a la comunidad. Los modelos están accesibles a través del servicio Hugging Face Inference Providers, con la misma infraestructura que impulsa el demo oficial en gpt-oss.com. Los modelos están diseñados para ejecutarse en entornos diversos con herramientas flexibles, incluyendo inferencia en un solo GPU, configuraciones multi-GPU mediante accelerate o torchrun, y en hardware de consumo o puntos finales empresariales.
Características clave
- Dos modelos de peso abierto: gpt-oss-120b (aprox. 117B parámetros) y gpt-oss-20b (21B parámetros).
- MoE (Mixture-of-Experts) con cuantización MXFP4 de 4 bits para ahorro de memoria y mayor velocidad de inferencia.
- El modelo de 120B cabe en un único GPU H100; el de 20B puede operar con ~16 GB de RAM, apto para hardware de consumo y despliegues en edge.
- Licencia Apache 2.0 y política de uso mínimo; énfasis en un uso seguro, responsable y democrático, con control del usuario sobre despliegues.
- Acceso mediante Hugging Face Inference Providers y API de Respuestas compatible con OpenAI para interacciones tipo chat.
- Preparación para integración: transformers (versión >= 4.55.1), accelerate y kernels; se recomienda Triton 3.4+ para soporte MXFP4 en CUDA.
- Compatibilidad de hardware: MXFP4 inicialmente para Hopper/Blackwell, pero ahora funciona con Ada, Ampere y Tesla; soporte inicial para ROCm en AMD vía kernels; kernels de MegaBlocks MoE aceleran en AMD Instinct.
- En tarjetas Hopper (H100/H200), puede requerirse actualizar kernels y aplicar código de kernel optimizado disponible en kernels-community para activar kernels optimizados.
- El modelo de 120B también puede ejecutarse en múltiples GPUs con accelerate o torchrun; existen planes de paralelización por defecto en el ecosistema de Transformers.
- Llama.cpp ofrece soporte MXFP4 nativo con Flash Attention en backends Metal, CUDA y Vulkan; disponible mediante llama-server para 120B y 20B.
- El stack soporta fine-tuning con trl y SFTTrainer; despliegues empresariales a través de Azure AI Model Catalog y Dell Enterprise Hub.
- En hardware, GPT OSS ha sido verificado en AMD Instinct; soporte ROCm inicial en los kernels; aceleración MegaBlocks MoE ya disponible para MI300 de AMD.
- GPT OSS es una familia centrada en razonamiento; las evaluaciones destacan la necesidad de un tamaño de generación mayor para capturar trazas de razonamiento; las trazas pueden aparecer en la salida y deben filtrarse para la evaluación.
- La salida utiliza canales (p. ej., analysis y final); para interactuar con el usuario, normalmente se renderiza el canal final cuando no se usan herramientas.
Casos de uso comunes
- Despliegues privados/locales e inferencia en edge con hardware de consumo.
- Endpoints en tiempo real para chat y asistentes con foco en tareas de razonamiento.
- Tareas de razonamiento con uso de herramientas y generación extensa, seguida de la entrega del resultado final.
- Fine-tuning y experimentación con SFTTrainer en trl para adaptar modelos a dominios específicos.
- Despliegues en la nube o en local mediante Azure AI Model Catalog y Dell Enterprise Hub.
- Ejecución en entornos AMD ROCm con soporte inicial de kernels y en hardware CUDA con MXFP4 y Flash Attention 3 cuando esté disponible.
- Flujo de evaluación que requiere tamaños de generación grandes para capturar trazas de razonamiento antes de entregar la respuesta final.
Instalación y configuración
pip install --upgrade transformers>=4.55.1 accelerate
pip install --upgrade kernels
pip install --upgrade triton>=3.4
Nota: para tarjetas Hopper, podría ser necesario actualizar kernels y aplicar código de kernel optimizado descrito en las notas de la versión para habilitar kernels MXFP4 optimizados.
pip install --upgrade vllm-flash-attn3
# Ejemplo rápido con API de Hugging Face
Inicio rápido
Ejemplo mínimo en Python usando un punto final de API de Hugging Face para un modelo GPT OSS:
import os
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt-oss-20b"
headers = {"Authorization": f"Bearer {os.environ.get('HF_API_TOKEN')}"}
payload = {"inputs": "Explain how GPT OSS uses MoE and MXFP4 quantization."}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json())
Reemplace la URL del modelo por la variante 120B si es necesario y proporcione su token.
Ventajas y desventajas
- Ventajas:
- Modelo de peso abierto bajo Apache 2.0; dos tamaños para equilibrar latencia y capacidad.
- MoE con cuantización MXFP4 para ahorro de memoria y una inferencia rápida en hardware compatible.
- El modelo de 120B cabe en un solo GPU H100; 20B funciona en ~16 GB de RAM, habilitando hardware de consumo y edge.
- Amplia compatibilidad de hardware e integración con Hugging Face Inference Providers y API de Respuestas compatible con OpenAI; despliegues en Azure y Dell.
- Preparado para fine-tuning con trl y SFTTrainer; listo para flujos empresariales.
- Desventajas:
- El modelo está orientado al razonamiento y puede requerir tamaños de generación grandes para evaluaciones precisas.
- Algunas optimizaciones dependen del hardware y de las versiones de bibliotecas; MXFP4 y Flash Attention 3 requieren stack compatible.
- Si no hay soporte de MXFP4, puede haber fallback bf16 con mayor consumo de memoria.
- Las evaluaciones deben filtrar trazas de razonamiento para evitar errores de parsing.
Alternativas (breve comparación)
| Enfoque | Característica clave | Pros | Contras |---|---|---|---| | GPT OSS (MoE + MXFP4) | Modelos abiertos 120B/20B con MXFP4 | Ahorro de memoria; inferencia rápida; ejecución en una sola GPU | Requiere hardware/stack compatibles para MXFP4 |MegaBlocks kernels MoE | Noyos MoE acelerados | Rendimiento cuando MXFP4 no está disponible | Mayor consumo de memoria sin MXFP4 |Llama.cpp con MXFP4 | Soporte MXFP4 nativo con Flash Attention | Amplia compatibilidad de backends | Puede requerir adaptación a familia de modelos |Cloud/OpenAI API | Ofertas hospedadas | Gestión simplificada; sin infraestructura local | Costos continuos; datos en la nube |
Licencia
- Licencia: Apache 2.0. GPT OSS se publica bajo Apache 2.0 con una política de uso mínimo. Al usar gpt-oss, aceptas cumplir con las leyes aplicables. El lanzamiento enfatiza seguridad, responsabilidad y acceso democrático, a la vez que maximiza el control del usuario sobre los despliegues.
Referencias
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecosistema Unificado de Arm y Más
Kit CUDA unificado para Arm en Jetson Thor con coherencia de memoria total, uso compartido de GPU entre procesos, interoperabilidad OpenRM/dmabuf, soporte NUMA y herramientas mejoradas para embebidos y servidores.
Reducir costos de implementación de modelos manteniendo el rendimiento con intercambio de memoria de GPU
Utiliza el intercambio de memoria de GPU (hot-swapping de modelos) para compartir GPUs entre varios LLM, reducir costos de GPU ociosas y mejorar el autoescalado manteniendo los SLA.
Mejora del autoajuste de GEMM con nvMatmulHeuristics en CUTLASS 4.2
Presenta nvMatmulHeuristics para seleccionar rápidamente un conjunto corto de configuraciones de kernels GEMM con alto potencial para CUTLASS 4.2, reduciendo drásticamente el tiempo de ajuste y acercándose al rendimiento de una búsqueda exhaustiva.
Haz ZeroGPU Spaces más rápido con la compilación ahead-of-time (AoT) de PyTorch
Descubre cómo la compilación AoT de PyTorch acelera ZeroGPU Spaces exportando un modelo compilado y recargándolo al instante, con cuantización FP8, formas dinámicas e integración con Spaces GPU.
Ajuste fino de gpt-oss para Precisión y Rendimiento con Entrenamiento Consciente de Cuantización (QAT)
Guía de afinado fino de gpt-oss usando SFT + QAT para recuperar precisión FP4 manteniendo la eficiencia, con upcasting a BF16, MXFP4, NVFP4 y despliegue con TensorRT-LLM.
Cómo detectar y resolver 5 cuellos de botella de rendimiento en pandas con cudf.pandas
Guía técnica para desarrolladores sobre cinco cuellos de botella comunes de pandas, soluciones CPU/GPU y aceleración GPU con cudf.pandas sin cambiar el código.