Presentando gpt-oss: modelos open-weight gpt-oss-120b y 20b
Sources: https://openai.com/index/introducing-gpt-oss, openai.com
TL;DR
- OpenAI lanzó gpt-oss-120b y gpt-oss-20b, dos modelos de lenguaje open-weight de vanguardia.
- Bajo licencia Apache 2.0 y optimizados para implementación en hardware de consumo; compatible con uso de herramientas y razonamiento con esfuerzo ajustable.
- gpt-oss-120b puede ejecutarse en una sola GPU de 80 GB y gpt-oss-20b puede funcionar en dispositivos edge con 16 GB de RAM.
- Ambos modelos muestran un rendimiento destacado en codificación, matemáticas, salud y benchmarks de uso de herramientas, diseñados para flujos de trabajo agentivos a través de la API de Respuestas.
- Diseñados para funcionar con flujos de trabajo agentivos, con una longitud de contexto de hasta 128k y compatibilidad con herramientas.
Contexto y antecedentes
OpenAI presenta gpt-oss-120b y gpt-oss-20b como modelos de lenguaje open-weight para permitir a desarrolladores, empresas y gobiernos ejecutar y personalizar IA en su propia infraestructura. Estos modelos se inscriben en una trayectoria de modelos abiertos, con gpt-oss como los primeros modelos de peso abierto desde GPT-2. Fueron entrenados usando una mezcla de aprendizaje por refuerzo y técnicas informadas por los modelos internos más avanzados de OpenAI, incluyendo o3 y otros sistemas de frontera. El objetivo fue optimizar razonamiento, eficiencia y utilidad en una amplia gama de entornos de implementación, manteniendo estándares de seguridad robustos. Diseñados para uso práctico en el mundo real, los modelos gpt-oss son compatibles con la API de Respuestas y funcionan dentro de flujos de trabajo agentivos que incluyen búsqueda en la web y ejecución de código Python. El entrenamiento incluyó un proceso de post-entrenamiento similar al utilizado para o4-mini, con ajuste supervisado y una etapa RL de alta capacidad. La seguridad sigue siendo fundamental, con un programa de seguridad integral y una evaluación adicional mediante una versión adversarialmente ajustada probada bajo el Preparedness Framework. Socios externos, como AI Sweden, Orange y Snowflake, están explorando hospedaje on-premises para seguridad de datos y ajuste fino con conjuntos de datos especializados. El objetivo es ofrecer modelos open-weight de clase mundial para uso general, permitiendo a los usuarios elegir rendimiento, costo y latencia según sus necesidades.
Qué hay de nuevo
- Dos modelos open-weight: gpt-oss-120b (117B parámetros totales) y gpt-oss-20b (21B parámetros totales).
- Ambos usan un enfoque de mixtura de expertos (MoE) para reducir los parámetros activos por token.
- El modelo de 120b activa 5,1B parámetros por token; el de 20b activa 3,6B parámetros por token. Hay 128 expertos totales para el 120b y 32 para el 20b, con 4 expertos activos por token.
- Arquitectura: patrones de atención que alternan entre denso y spars local, similar a GPT-3, y atención multi-query agrupada con tamaño de grupo 8 para eficiencia.
- Codificación posicional RoPE y longitud de contexto hasta 128k.
- Especificaciones: 120b tiene 36 capas; 20b tiene 24 capas. Longitud de contexto de 128k para ambos.
- Entrenamiento: texto mayormente en inglés, con énfasis en STEM, codificación y conocimiento general; tokenización con o200k_harmony, también open-source.
- Implementación: 120b en una GPU de 80 GB; 20b en dispositivos con 16 GB de memoria.
- Tres métodos de razonamiento: bajo, medio y alto, permitiendo a los desarrolladores equilibrar latencia y rendimiento mediante un mensaje de sistema.
Por qué importa (impacto para desarrolladores/empresas)
La familia gpt-oss representa un paso importante para modelos de peso abierto, combinando razonamiento sólido, capacidades de uso de herramientas y opciones prácticas para la implementación. Al licenciarse bajo Apache 2.0 y con énfasis en implementaciones on-premises y en borde, las organizaciones pueden integrar IA sofisticada en su propia infraestructura sin depender exclusivamente de acceso a API alojadas. Para desarrolladores, gpt-oss ofrece:
- Opciones de implementación flexibles: ejecutar en hardware de consumo o en dispositivos edge, permitiendo inferencia local y gobernanza de datos.
- Oportunidades de personalización: pesos abiertos, CoT completo y salidas estructuradas para adaptar a flujos de trabajo existentes.
- Uso de herramientas integrado: búsqueda en la web y ejecución de código Python para ampliar la resolución de problemas y la automatización.
- Estándares de seguridad alineados con modelos de frontera: evaluación de seguridad completa y verificación adversarial mediante el Preparedness Framework. Para empresas y gobiernos, el enfoque open-weight puede reducir la dependencia de proveedores, facilitar la gobernanza de datos en sitio y apoyar iteraciones rápidas con conjuntos de datos locales. Colaboraciones con actores de la industria muestran aplicaciones prácticas, desde alojamiento on-prem para seguridad de datos hasta ajuste fino con datos especializados, ilustrando el potencial de integrar gpt-oss en flujos de IA existentes.
Detalles técnicos o Implementación
Los aspectos arquitectónicos y de entrenamiento se basan en la liberación y evaluación:
- Tamaños y parámetros: gpt-oss-120b – 36 capas; 117B parámetros totales. gpt-oss-20b – 24 capas; 21B parámetros totales.
- Expertos y activación: gpt-oss-120b activa 5,1B parámetros por token, 128 expertos totales y 4 activos por token; gpt-oss-20b activa 3,6B parámetros por token, 32 expertos totales y 4 activos por token.
- Longitud de contexto: 128k para ambos.
- MoE: reduce los parámetros activos por token para mayor eficiencia.
- Patrones de atención: denso y sparse local alternados, similar a GPT-3.
- Atención multi-query agrupada: grupo de 8 para mayor eficiencia de memoria y cómputo.
- Codificación posicional: RoPE.
- Tokenización: basada en inglés con el conjunto o200k_harmony, open-source.
- Entrenamiento: post-entrenamiento con fine-tuning supervisado y RL, alineación con el OpenAI Model Spec y enseñanza de CoT y uso de herramientas.
- Seguridad: evaluación de seguridad rigurosa y transparencia en el modelo y el paper asociado.
- Compatibilidad y flujos: diseñados para flujos agentivos e integración con la API de Respuestas. Soportan ajustes de nivel de razonamiento y salidas estructuradas.
- Hardware y despliegue: 120b en una GPU 80 GB; 20b en dispositivos con 16 GB de memoria.
Especificaciones rápidas (a simple vista)
| Modelo | Capas | Parámetros totales | Parámetros activos por token | Experts totales | Experts activos por token | Longitud de contexto |---|---|---|---|---|---|---| | gpt-oss-120b | 36 | 117B | 5,1B | 128 | 4 | 128k |gpt-oss-20b | 24 | 21B | 3,6B | 32 | 4 | 128k |
Conclusiones clave
- OpenAI lanza sus primeros modelos open-weight desde GPT-2, bajo Apache 2.0, con gpt-oss-120b y gpt-oss-20b.
- Ambos usan MoE para reducir los parámetros activos por token, con contextos de 128k y opción de despliegue en hardware de consumo y edge.
- Demuestran rendimiento sólido en razonamiento, codificación, matemáticas y tareas de salud, con capacidades avanzadas de uso de herramientas.
- La seguridad es central, con evaluación adversarial bajo el Preparedness Framework y documentación de seguridad en el modelo y el paper.
- Diseñados para uso on-premises, inferencia local e integración en flujos de trabajo mediante la API de Respuestas.
FAQ
-
: ¿Cuáles son los dos modelos y sus tamaños?
: gpt-oss-120b (117B parámetros totales) y gpt-oss-20b (21B parámetros totales).
-
: ¿Cuál es la licencia?
: Apache 2.0 para ambos modelos.
-
: ¿Cómo se logra la eficiencia?
: Mediante MoE para reducir parámetros activos por token, atención multi-query agrupada (tamaño de grupo 8).
-
: ¿Qué hardware puede ejecutar estos modelos?
: El 120b requiere una GPU de 80 GB; el 20b puede funcionar en dispositivos con 16 GB de memoria.
-
: ¿Qué medidas de seguridad existen?
: Evaluaciones de seguridad exhaustivas y uso del Preparedness Framework; detalles en el modelo y en el paper.
-
: ¿Cómo pueden los desarrolladores usar estos modelos?
: Integración con la API de Respuestas, soporte para uso de herramientas y niveles de razonamiento ajustables.
Referencias
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia
Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.
NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos
RAPIDS 25.08 introduce perfiles de nivel de función y de línea para cuml.accel, el ejecutor de streaming por defecto del motor Polars GPU, soporte ampliado de tipos y cadenas, Spectral Embedding en cuML y aceleraciones de cero código para varios estimadores.