TL;DR

OpenAI lanzó gpt-oss-120b y gpt-oss-20b, dos modelos de lenguaje open-weight de vanguardia.
Bajo licencia Apache 2.0 y optimizados para implementación en hardware de consumo; compatible con uso de herramientas y razonamiento con esfuerzo ajustable.
gpt-oss-120b puede ejecutarse en una sola GPU de 80 GB y gpt-oss-20b puede funcionar en dispositivos edge con 16 GB de RAM.
Ambos modelos muestran un rendimiento destacado en codificación, matemáticas, salud y benchmarks de uso de herramientas, diseñados para flujos de trabajo agentivos a través de la API de Respuestas.
Diseñados para funcionar con flujos de trabajo agentivos, con una longitud de contexto de hasta 128k y compatibilidad con herramientas.

Contexto y antecedentes

OpenAI presenta gpt-oss-120b y gpt-oss-20b como modelos de lenguaje open-weight para permitir a desarrolladores, empresas y gobiernos ejecutar y personalizar IA en su propia infraestructura. Estos modelos se inscriben en una trayectoria de modelos abiertos, con gpt-oss como los primeros modelos de peso abierto desde GPT-2. Fueron entrenados usando una mezcla de aprendizaje por refuerzo y técnicas informadas por los modelos internos más avanzados de OpenAI, incluyendo o3 y otros sistemas de frontera. El objetivo fue optimizar razonamiento, eficiencia y utilidad en una amplia gama de entornos de implementación, manteniendo estándares de seguridad robustos. Diseñados para uso práctico en el mundo real, los modelos gpt-oss son compatibles con la API de Respuestas y funcionan dentro de flujos de trabajo agentivos que incluyen búsqueda en la web y ejecución de código Python. El entrenamiento incluyó un proceso de post-entrenamiento similar al utilizado para o4-mini, con ajuste supervisado y una etapa RL de alta capacidad. La seguridad sigue siendo fundamental, con un programa de seguridad integral y una evaluación adicional mediante una versión adversarialmente ajustada probada bajo el Preparedness Framework. Socios externos, como AI Sweden, Orange y Snowflake, están explorando hospedaje on-premises para seguridad de datos y ajuste fino con conjuntos de datos especializados. El objetivo es ofrecer modelos open-weight de clase mundial para uso general, permitiendo a los usuarios elegir rendimiento, costo y latencia según sus necesidades.

Qué hay de nuevo

Dos modelos open-weight: gpt-oss-120b (117B parámetros totales) y gpt-oss-20b (21B parámetros totales).
Ambos usan un enfoque de mixtura de expertos (MoE) para reducir los parámetros activos por token.
El modelo de 120b activa 5,1B parámetros por token; el de 20b activa 3,6B parámetros por token. Hay 128 expertos totales para el 120b y 32 para el 20b, con 4 expertos activos por token.
Arquitectura: patrones de atención que alternan entre denso y spars local, similar a GPT-3, y atención multi-query agrupada con tamaño de grupo 8 para eficiencia.
Codificación posicional RoPE y longitud de contexto hasta 128k.
Especificaciones: 120b tiene 36 capas; 20b tiene 24 capas. Longitud de contexto de 128k para ambos.
Entrenamiento: texto mayormente en inglés, con énfasis en STEM, codificación y conocimiento general; tokenización con o200k_harmony, también open-source.
Implementación: 120b en una GPU de 80 GB; 20b en dispositivos con 16 GB de memoria.
Tres métodos de razonamiento: bajo, medio y alto, permitiendo a los desarrolladores equilibrar latencia y rendimiento mediante un mensaje de sistema.

Por qué importa (impacto para desarrolladores/empresas)

La familia gpt-oss representa un paso importante para modelos de peso abierto, combinando razonamiento sólido, capacidades de uso de herramientas y opciones prácticas para la implementación. Al licenciarse bajo Apache 2.0 y con énfasis en implementaciones on-premises y en borde, las organizaciones pueden integrar IA sofisticada en su propia infraestructura sin depender exclusivamente de acceso a API alojadas. Para desarrolladores, gpt-oss ofrece:

Opciones de implementación flexibles: ejecutar en hardware de consumo o en dispositivos edge, permitiendo inferencia local y gobernanza de datos.
Oportunidades de personalización: pesos abiertos, CoT completo y salidas estructuradas para adaptar a flujos de trabajo existentes.
Uso de herramientas integrado: búsqueda en la web y ejecución de código Python para ampliar la resolución de problemas y la automatización.
Estándares de seguridad alineados con modelos de frontera: evaluación de seguridad completa y verificación adversarial mediante el Preparedness Framework. Para empresas y gobiernos, el enfoque open-weight puede reducir la dependencia de proveedores, facilitar la gobernanza de datos en sitio y apoyar iteraciones rápidas con conjuntos de datos locales. Colaboraciones con actores de la industria muestran aplicaciones prácticas, desde alojamiento on-prem para seguridad de datos hasta ajuste fino con datos especializados, ilustrando el potencial de integrar gpt-oss en flujos de IA existentes.

Detalles técnicos o Implementación

Los aspectos arquitectónicos y de entrenamiento se basan en la liberación y evaluación:

Tamaños y parámetros: gpt-oss-120b – 36 capas; 117B parámetros totales. gpt-oss-20b – 24 capas; 21B parámetros totales.
Expertos y activación: gpt-oss-120b activa 5,1B parámetros por token, 128 expertos totales y 4 activos por token; gpt-oss-20b activa 3,6B parámetros por token, 32 expertos totales y 4 activos por token.
Longitud de contexto: 128k para ambos.
MoE: reduce los parámetros activos por token para mayor eficiencia.
Patrones de atención: denso y sparse local alternados, similar a GPT-3.
Atención multi-query agrupada: grupo de 8 para mayor eficiencia de memoria y cómputo.
Codificación posicional: RoPE.
Tokenización: basada en inglés con el conjunto o200k_harmony, open-source.
Entrenamiento: post-entrenamiento con fine-tuning supervisado y RL, alineación con el OpenAI Model Spec y enseñanza de CoT y uso de herramientas.
Seguridad: evaluación de seguridad rigurosa y transparencia en el modelo y el paper asociado.
Compatibilidad y flujos: diseñados para flujos agentivos e integración con la API de Respuestas. Soportan ajustes de nivel de razonamiento y salidas estructuradas.
Hardware y despliegue: 120b en una GPU 80 GB; 20b en dispositivos con 16 GB de memoria.

Especificaciones rápidas (a simple vista)

| Modelo | Capas | Parámetros totales | Parámetros activos por token | Experts totales | Experts activos por token | Longitud de contexto |---|---|---|---|---|---|---| | gpt-oss-120b | 36 | 117B | 5,1B | 128 | 4 | 128k |gpt-oss-20b | 24 | 21B | 3,6B | 32 | 4 | 128k |

Conclusiones clave

OpenAI lanza sus primeros modelos open-weight desde GPT-2, bajo Apache 2.0, con gpt-oss-120b y gpt-oss-20b.
Ambos usan MoE para reducir los parámetros activos por token, con contextos de 128k y opción de despliegue en hardware de consumo y edge.
Demuestran rendimiento sólido en razonamiento, codificación, matemáticas y tareas de salud, con capacidades avanzadas de uso de herramientas.
La seguridad es central, con evaluación adversarial bajo el Preparedness Framework y documentación de seguridad en el modelo y el paper.
Diseñados para uso on-premises, inferencia local e integración en flujos de trabajo mediante la API de Respuestas.

FAQ

: ¿Cuáles son los dos modelos y sus tamaños?

: gpt-oss-120b (117B parámetros totales) y gpt-oss-20b (21B parámetros totales).
: ¿Cuál es la licencia?

: Apache 2.0 para ambos modelos.
: ¿Cómo se logra la eficiencia?

: Mediante MoE para reducir parámetros activos por token, atención multi-query agrupada (tamaño de grupo 8).
: ¿Qué hardware puede ejecutar estos modelos?

: El 120b requiere una GPU de 80 GB; el 20b puede funcionar en dispositivos con 16 GB de memoria.
: ¿Qué medidas de seguridad existen?

: Evaluaciones de seguridad exhaustivas y uso del Preparedness Framework; detalles en el modelo y en el paper.
: ¿Cómo pueden los desarrolladores usar estos modelos?

: Integración con la API de Respuestas, soporte para uso de herramientas y niveles de razonamiento ajustables.