Bienvenido GPT OSS: la nueva familia de modelos Open-Source de OpenAI
TL;DR
- GPT OSS presenta dos modelos de pesos abiertos con Mixture-of-Experts (MoE): GPT OSS 120B (gpt-oss-120b) y GPT OSS 20B (gpt-oss-20b), ambos usando cuantización MXFP4 de 4 bits para acelerar la inferencia con menos parámetros activos.
- El modelo 120B cabe en una única GPU H100; el 20B puede funcionar con 16 GB de RAM, lo que facilita el uso en hardware de consumo y aplicaciones en el dispositivo.
- Los modelos están bajo licencia Apache 2.0 con una política de uso mínima, orientada a un uso seguro, responsable y democrático, con acceso a través de Hugging Face Inference Providers.
- La liberación se integra con interfaces compatibles con OpenAI (Responses API) y ofrece opciones de despliegue a través de Azure, Dell y entornos on-prem, con mejoras de rendimiento gracias a kernels, Flash Attention 3 de vLLM y soporte MXFP4 en varias generaciones de CUDA.
Contexto y antecedentes
OpenAI publicó GPT OSS como un lanzamiento de pesos abiertos muy esperado, enfocado en razonamiento sólido, tareas basadas en agentes y casos de uso para desarrolladores. Los dos modelos centrales son un modelo grande con aproximadamente 117 mil millones de parámetros (designado gpt-oss-120b) y un modelo más pequeño con unos 21 mil millones (designado gpt-oss-20b). Ambos usan Mixture-of-Experts (MoE) y cuantización MXFP4. Esta combinación facilita una inferencia rápida al reducir la cantidad de parámetros activos, manteniendo un consumo de recursos razonable. El modelo de 120B se puede ajustar en una única GPU H100, mientras que el de 20B está diseñado para funcionar con 16 GB de memoria, haciéndolo adecuado para hardware de consumo y aplicaciones en el dispositivo. La liberación está alineada con la misión de OpenAI de ampliar los beneficios de la IA a través de ecosistemas de código abierto, y Hugging Face presenta este movimiento como un paso significativo para la comunidad al darle la bienvenida a OpenAI. El acceso está facilitado a través de los Inference Providers de Hugging Face, que permiten enviar solicitudes a proveedores compatibles usando código JavaScript o Python estándar. Esta infraestructura alimenta la demo oficial de OpenAI en gpt-oss.com y está disponible para proyectos propios.
Novedades
GPT OSS marca una expansión notable en el ecosistema de modelos de código abierto para tareas de razonamiento. Puntos clave:
- Dos modelos MoE, gpt-oss-120b (~117B parámetros) y gpt-oss-20b (~21B parámetros), con cuantización MXFP4 en 4 bits para inferencia eficiente.
- Diseñados para ejecutarse en una variedad de hardware: el 20B puede funcionar en GPUs con 16 GB de RAM mediante MXFP4; el 120B puede ejecutarse en un solo H100 mediante MXFP4; soporte multi-GPU vía accelerate o torchrun.
- Licencias y políticas: licenciados con Apache 2.0 y política de uso mínima que enfatiza uso seguro, responsable y democrático.
- Ecosistema de herramientas: transformers (v4.55.1+), accelerate y kernels; la implementación permite descargar kernels MXFP4 optimizados en la primera utilización, logrando ahorros significativos de memoria.
- Optimización y rendimiento: kernels Flash Attention 3 de vLLM con soporte sink attention; recomendado para tarjetas Hopper (H100/H200) con PyTorch 2.7 o 2.8. El soporte ROCm de AMD está incluido para ampliar la compatibilidad.
- Integración y despliegue: GPT OSS está verificado en hardware AMD Instinct y disponible a través del Azure AI Model Catalog y Dell Enterprise Hub para despliegues empresariales seguros; contenedores optimizados para on-prem.
- Herramientas adicionales: MXFP4 nativo en Llama.cpp con Flash Attention entre Metal, CUDA y Vulkan mediante llama-server; Hugging Face Space demuestra compatibilidad con hardware AMD.
Por qué importa (impacto para desarrolladores y empresas)
La liberación de GPT OSS ofrece vías prácticas para que desarrolladores y empresas integren modelos de gran tamaño dedicados al razonamiento en sus pipelines, manteniendo el control sobre datos y la trazabilidad. Implicaciones clave:
- Opciones de despliegue on-device y on-prem para mejorar la privacidad, cumplimiento y latencia en escenarios sensibles, con el 20B adaptado a hardware de consumo y el 120B para entornos de data center.
- Licencia Apache 2.0 con una política de uso mínima facilita la experimentación e integración, reduciendo barreras para que equipos construyan y evalúen modelos de gran escala.
- La combinación de MoE, MXFP4 y kernels acelerados ofrece mejoras prácticas de rendimiento y amplia compatibilidad de hardware (CUDA, ROCm).
- El ecosistema empresarial se ve reforzado por asociaciones y catálogos como Azure AI Model Catalog y Dell Enterprise Hub para desplegar Endpoints seguros con autoscaling y monitoreo.
- El énfasis en flujos de razonamiento y salidas con trazas de razonamiento refleja un enfoque práctico para evaluación y uso responsable, ayudando a calibrar prompts y métricas para tareas complejas.
Detalles técnicos o Implementación
- Arquitectura y cuantización: ambos modelos son MoE y utilizan MXFP4, cuantización de 4 bits que permite inferencia rápida con menos parámetros activos. El 120B cabe en una sola GPU H100 con MXFP4, y el 20B puede funcionar en GPUs con 16 GB de RAM usando MXFP4, con BF16 como fallback.
- Stack de hardware y software: se requieren transformers (v4.55.1+), accelerate y kernels. Para MXFP4 en CUDA, se recomienda Triton 3.4+ para activar kernels MXFP4 optimizados desde la primera ejecución. Esto entrega ahorros de memoria sustanciales y permite la inferencia de 20B en GPUs de consumo (p. ej., 3090, 4090).
- Kernels y aceleración: los kernels Flash Attention 3 de vLLM ofrecen mejoras de rendimiento; en GPUs Hopper, se deben instalar los kernels más recientes y descargar código de kernel precompilado desde el repositorio kernels-community.
- Compatibilidad y alternativas de GPU: si la GPU admite MXFP4, es la ruta recomendada. Si no, pueden usarse kernels MegaBlocks MoE, aunque requieren BF16 y consumen más memoria. El soporte AMD ROCm está disponible para ampliar la cobertura.
- Despliegue y operación: GPT OSS puede ejecutarse en servidores con dos GPUs H100 o en configuraciones multi-GPU mediante accelerate. Los fragmentos de código muestran cómo iniciar un servidor y realizar solicitudes mediante la API de Respuestas compatible con OpenAI o mediante la API de Completions estándar. Los modelos se integran con TRL y muestran ejemplos de ajuste fino con SFTTrainer.
- Ecosistema y despliegue empresarial: Hugging Face colabora con Azure para el Azure AI Model Catalog y con Dell para hubs empresariales con contenedores optimizados y seguridad empresarial. Los modelos también están disponibles a través de Inference Providers y la API de Respuestas compatible con OpenAI.
Tabla rápida de hechos
| Modelo | Parámetros | RAM/GPU típico | Notas |---|---:|---:|---| | GPT OSS 120B | ~117B | Caben en un H100 con MXFP4 | MoE, cuantización 4 bits; multi-GPU vía accelerate/torchrun |GPT OSS 20B | ~21B | ~16 GB RAM con MXFP4; fallback bf16 | orientado a hardware de consumo; despliegue en dispositivos |
Por qué importa (resumen para desarrolladores y empresas)
GPT OSS representa un paso claro hacia herramientas de IA abiertas, auditables e implantables para tareas de razonamiento. Al combinar MoE, MXFP4 y soporte de hardware amplio, ofrece una ruta práctica para que equipos prueben y desplieguen modelos grandes sin depender exclusivamente de APIs cerradas. El marco de licencias y el soporte del ecosistema por parte de Hugging Face, junto con opciones de despliegue en Azure y Dell, facilitan la adopción en contextos corporativos donde la gobernanza, la latencia y la seguridad son críticas.
Puntos clave
- Dos modelos MoE abiertos con cuantización MXFP4 en 4 bits para equilibrio entre rendimiento y consumo.
- 120B puede ejecutarse en un solo H100; 20B puede ejecutarse en GPUs con 16 GB de RAM.
- Licencia Apache 2.0 y política de uso mínima para favorecer la experimentación responsable.
- Inferencia y optimización mediante kernels, ROCm y una integración amplia con ecosistemas empresariales.
- Compatibilidad y despliegue ampliados a través de OpenAI API y socios estratégicos.
Preguntas frecuentes
-
¿Qué modelos son GPT OSS y cuáles son sus tamaños?
Dos modelos abiertos MoE: gpt-oss-120b (~117B parámetros) y gpt-oss-20b (~21B parámetros), ambos con MXFP4.
-
¿Qué hardware se recomienda para un rendimiento óptimo?
El 120B funciona en un solo H100 con MXFP4; el 20B funciona en GPUs con 16 GB de RAM usando MXFP4, con BF16 como fallback.
-
¿Cómo acceder y desplegar estos modelos?
Disponibles a través de Hugging Face Inference Providers y integrados con la API de Respuestas compatible con OpenAI. Despliegue en Azure AI Model Catalog y Dell Enterprise Hub está soportado.
-
¿Qué stack de software es necesario para el mejor rendimiento?
Usar transformers (v4.55.1+), accelerate y kernels; se recomienda Triton 3.4+ para MXFP4 en CUDA. Si no hay MXFP4, se pueden usar kernels MegaBlocks MoE.
-
¿Qué notas hay sobre evaluación y generación?
Estos modelos son de razonamiento y requieren un tamaño de generación significativo para evaluaciones confiables. Las salidas pueden incluir trazas de razonamiento en canales y deben filtrarse para métricas.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia
Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.