Bienvenido GPT OSS: los modelos MoE 120B y 20B de OpenAI llegan como código abierto
TL;DR
- OpenAI lanzó GPT OSS, una nueva familia de modelos con pesos abiertos basados en MoE: gpt-oss-120b (120 mil millones de parámetros) y gpt-oss-20b (20 mil millones de parámetros).
- Ambos modelos utilizan redes de expertos en mezcla (MoE) y cuantización MXFP4 en 4 bits para acelerar la inferencia manteniendo un uso de recursos razonable.
- El modelo de 20B puede ejecutarse en GPUs con 16 GB de RAM; el de 120B cabe en una única GPU H100. Ambos están disponibles a través de los Inference Providers de Hugging Face y bajo Apache 2.0 con una política de uso mínimo.
- El acceso se facilita a través de una API de Respuestas compatible con OpenAI y se integran con Azure y Dell para despliegues empresariales.
- El lanzamiento enfatiza el uso de herramientas durante el razonamiento, requiere tamaños de generación grandes para evaluaciones y ofrece pautas para tratar las trazas de razonamiento en las salidas.
Contexto y antecedentes
GPT OSS representa un paso significativo para que OpenAI cumpla su misión de hacer que los beneficios de la IA sean ampliamente accesibles y de contribuir al ecosistema de código abierto. Se presentan dos modelos MoE de peso abierto: gpt-oss-120b y gpt-oss-20b, todos cuantizados con MXFP4. Esta cuantización reduce la cantidad de parámetros activos durante la inferencia para mejorar el rendimiento sin requerir grandes recursos. El proyecto se publica bajo una licencia Apache 2.0 con una política de uso mínimo que enfatiza un uso seguro, responsable y democrático, manteniendo el control del usuario. Los detalles se pueden leer en el blog de Hugging Face y ver la demostración en gpt-oss.com. Blog de Hugging Face • gpt-oss.com
Qué hay de nuevo
GPT OSS trae dos modelos de peso abierto: gpt-oss-120b y gpt-oss-20b, ambos en MoE y cuantizados con MXFP4 (4 bits). Esta cuantificación reduce los parámetros activos durante la inferencia, permitiendo una ejecución más rápida y menor consumo de memoria. El modelo de 120B cabe en una sola GPU H100, mientras que el de 20B puede ejecutarse en hardware de consumo con 16 GB de RAM, ampliando así los casos de uso locales y en dispositivos. El acceso se realiza a través del servicio Inference Providers de Hugging Face, lo que permite enviar solicitudes a backends compatibles con OpenAI usando el mismo código Python o JavaScript utilizado con otros proveedores. La entrada también destaca una API de Respuestas compatible con OpenAI para interacciones de chat más flexibles, con ejemplos usando el proveedor Fireworks AI. El stack de software incluye transformers (versión 4.55.1 o superior), accelerate y kernels, con una recomendación de instalar Triton 3.4+ para desbloquear kernels MXFP4 en hardware CUDA. Si MXFP4 no está disponible, se propone MegaBlocks MoE kernels. En el plano del ecosistema, los GPT OSS han sido verificados en hardware AMD Instinct, con soporte inicial para ROCm en la biblioteca de kernels. Hay un espacio de Hugging Face para pruebas en hardware AMD, y se espera ampliar la compatibilidad de GPU y la cobertura de kernels. El artículo también explica cómo ejecutar una configuración multi-GPU (por ejemplo, con cuatro GPUs) usando accelerate o torchrun y ofrece ejemplos para pruebas locales con transformers serve y la API de Respuestas. Los modelos están diseñados para aprovechar la utilización de herramientas durante el razonamiento y son aptos para despliegues empresariales a través de Azure y Dell.
Por qué importa (impacto para desarrolladores/empresas)
- Accesibilidad y opciones de despliegue: el modelo de 20B, al requerir solo 16 GB de RAM, facilita despliegues en hardware de consumo y ejecuciones privadas fuera de un data center. El de 120B puede ejecutarse en una única GPU H100, con opciones multigpu para cargas mayores, ampliando el público.
- Licencia y gobernanza: Apache 2.0 con una política de uso mínimo promueve apertura y uso responsable, manteniendo control sobre el usuario.
- Integración de ecosistemas: el acceso mediante Hugging Face Inference Providers y la API de Respuestas compatible con OpenAI permite construir aplicaciones con interfaces familiares, respaldadas por pesos abiertos. Las asociaciones con Azure y Dell señalan un camino para despliegues empresariales gestionados y en sitio.
- Enfoque en hardware y software: el lanzamiento está diseñado alrededor de un stack de inferencia sensible al hardware — MXFP4, Flash Attention 3 y kernels optimizados — con soporte inicial a ROCm y AMD, además de compatibilidad con CUDA/NVIDIA. Esto refleja una colaboración continua para maximizar el rendimiento.
- Enfoque en razonamiento y evaluación: al tratarse de modelos de razonamiento, requieren tamaños de generación grandes para evaluaciones y el artículo ofrece pautas para filtrar trazas de razonamiento al calcular métricas, asegurando evaluaciones adecuadas para tareas de razonamiento.
Detalles técnicos o Implementación
- Familia y cuantificación: GPT OSS consta de dos modelos MoE, gpt-oss-120b y gpt-oss-20b, cuantizados con MXFP4 (4 bits). Esta cuantificación reduce los parámetros activos durante la inferencia, permitiendo mayor rapidez y menor consumo de memoria.
- Requisitos de hardware e implementación: el 20B funciona con GPUs de 16 GB de RAM; el 120B cabe en una única GPU H100, con opciones de multi-GPU mediante accelerate o torchrun. Si MXFP4 no está disponible, el modelo se carga en bfloat16 a partir de los pesos cuantizados.
- Pila de software y optimizaciones: la pila incluye transformers (v4.55.1+), accelerate y kernels, con Triton 3.4+ para activar kernels MXFP4 en hardware CUDA. Existen kernels optimizados de atención (Flash Attention 3) con soporte para sink attention. En GPUs de la familia Hopper, se han probado PyTorch 2.7 y 2.8; se indica cómo instalar kernels actualizados para obtener código de kernel precompilado de la comunidad kernels-community.
- Caminos de kernels alternativos: si MXFP4 no está disponible, MegaBlocks MoE kernels ofrecen una vía alternativa que exige bfloat16 y implica mayor consumo de memoria.
- Vías de ecosistema y despliegue: los modelos están disponibles a través de Hugging Face Inference Providers y son compatibles con una API de Respuestas OpenAI, con ejemplos en Python y casos de uso. Los modelos están disponibles en Azure AI Model Catalog (GPT OSS 20B y 120B) y en Dell Enterprise Hub para despliegues on-prem, evidenciando un camino de pesos abiertos hasta endpoints gestionados y infraestructuras empresariales.
- Salida, razonamiento y seguridad: el artículo describe que los GPT OSS utilizan canales en sus salidas, destacando que suele haber un canal de análisis y un canal final; se recomienda adjuntar únicamente el canal final a la respuesta al usuario cuando no se utilicen herramientas externas.
- Resultados de evaluación (ejemplos): para el modelo de 20B, se citan valores de IFEval de 69.5 ± 1.9 y AIME25 de 63.3 ± 8.9 (en token de paso@1), mostrando resultados consistentes con modelos de este tamaño de razonamiento.
Conclusiones clave
- GPT OSS ofrece dos modelos MoE de código abierto, 120B y 20B, con MXFP4 (4 bits) para equilibrar rendimiento y recursos.
- El 20B funciona en hardware de consumo con 16 GB de RAM; el 120B requiere una GPU H100, con opciones multi-GPU.
- La licencia Apache 2.0 con política de uso mínimo fomenta la apertura y el uso responsable, manteniendo el control del usuario.
- Acceso y despliegue mediante Hugging Face Inference Providers y una API de Respuestas compatible OpenAI facilitan la integración en aplicaciones existentes.
- Las integraciones con Azure y Dell ofrecen rutas claras para despliegues empresariales y on-prem, con soporte inicial a ROCm y caminos de kernels optimizados para distintas GPU.
FAQ
-
¿Qué modelos componen GPT OSS?
Dos modelos MoE abiertos: gpt-oss-120b y gpt-oss-20b.
-
¿Qué cuantización se usa y por qué?
MXFP4 (4 bits) para reducir parámetros activos y acelerar la inferencia sin perder rendimiento.
-
¿Qué hardware se necesita para GPT OSS?
El 20B funciona en GPUs con 16 GB de RAM; el 120B cabe en una GPU H100, con opciones multi-GPU.
-
¿En qué licencia se publican los modelos?
Apache 2.0 con una política de uso mínimo.
-
¿Cómo se accede y despliega GPT OSS?
A través de Hugging Face Inference Providers, con API de Respuestas compatible con OpenAI, y despliegues empresariales mediante Azure AI Model Catalog y Dell Enterprise Hub.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia
Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.