Skip to content
Open AI and NVIDIA logos.
Source: developer.nvidia.com

Entrega de 1,5M TPS de Inferencia en NVIDIA GB200 NVL72: Modelos gpt-oss de OpenAI Acelerados de la Nube al Edge

Sources: https://developer.nvidia.com/blog/delivering-1-5-m-tps-inference-on-nvidia-gb200-nvl72-nvidia-accelerates-openai-gpt-oss-models-from-cloud-to-edge, developer.nvidia.com

TL;DR

  • El modelo gpt-oss-120b puede lograr 1,5 millones de tokens por segundo (TPS) en un sistema GB200 NVL72 único.
  • Se pueden atender aproximadamente 50,000 usuarios concurrentes, demostrando alto rendimiento con baja latencia de punta a punta.
  • Los modelos funcionan en precisión FP4, caben en una sola GPU de 80 GB para data center y tienen soporte nativo por Blackwell.
  • 72 GPUs Blackwell actúan como una sola unidad gracias a NVLink de quinta generación, con RoPE para contexto de 128k y una ventana deslizante de 128 tokens.
  • NVIDIA colabora con OpenAI y la comunidad para optimizar el rendimiento mediante TensorRT-LLM, vLLM, Hugging Face Transformers, Ollama y Dynamo, permitiendo Day 0 en plataformas. NVIDIA y OpenAI comenzaron su colaboración mucho antes de los lanzamientos gpt-oss, con una historia que se remonta a la apertura de NVIDIA DGX en 2016. Los modelos gpt-oss-20b y gpt-oss-120b amplían esa alianza, optimizando la inferencia para pesos abiertos en la arquitectura Blackwell. Estos modelos de razonamiento de texto usan una arquitectura Mixture of Experts (MoE) con activaciones SwigGLU. Las capas de atención utilizan RoPE con un contexto de 128k, alternando entre un procesamiento de contexto completo y una ventana deslizante de 128 tokens. La precisión FP4 permite ejecutar el modelo en una GPU de 80 GB y es compatible de forma nativa con Blackwell. El entrenamiento se realizó en GPUs NVIDIA H100 Tensor Core, y gpt-oss-120b requirió más de 2,1 millones de horas de cómputo, mientras que gpt-oss-20b requirió aproximadamente 10 veces menos. NVIDIA trabajó con marcos de código abierto como Hugging Face Transformers, Ollama y vLLM, además de TensorRT-LLM para proporcionar kernels optimizados y mejoras del modelo. La integración a lo largo de la pila de software demuestra un camino práctico para desplegar gpt-oss tanto en la nube como en el edge, con herramientas comunes. La colaboración incluyó a OpenAI y la comunidad para maximizar el rendimiento, exactitud y la experiencia para desarrolladores. Con el apoyo de vLLM, NVIDIA verificó la exactitud mientras analizaba el rendimiento en arquitecturas Hopper y Blackwell. Los desarrolladores de centros de datos pueden acceder a kernels optimizados a través de la FlashInfer LLM serving kernel library, y vLLM recomienda usar uv para la gestión de dependencias en Python. vLLM facilita iniciar un servidor web compatible con OpenAI descargando el modelo y arrancando el servidor. Las optimizaciones están disponibles en el repositorio NVIDIA/TensorRT-LLM en GitHub, con una guía de despliegue que descarga los checkpoints desde Hugging Face. Un contenedor Docker y guías de configuración apoyan escenarios de baja latencia y mayor rendimiento. Ingenieros de NVIDIA trabajaron estrechamente con OpenAI para garantizar Day 0 en ambas plataformas, Blackwell y Hopper. En el lanzamiento, se espera que las métricas iniciales funcionen en las plataformas mencionadas. Para desarrolladores, el ecosistema permite ejecutar IA localmente con TensorRT-LLM vía Python en un cuaderno Jupyter del OpenAI Cookbook, ofreciendo un flujo NVIDIA Launchable en la plataforma de construcción para probar GPUs de diversas plataformas en la nube. Dynamo proporciona un enfoque de inferencia desagregado para mejorar la eficiencia de secuencias largas sin perder rendimiento. Los modelos gpt-oss-120b pueden desplegarse con Dynamo para mejorar la interactividad y la eficiencia en ISL largos. Los modelos también pueden ejecutarse localmente en estaciones de trabajo con GPUs RTX PRO y en PCs GeForce RTX AI con al menos 16 GB de VRAM para gpt-oss-20b, ambos en precisión MXFP4. Los desarrolladores pueden probarlos con Ollama, Llama.cpp o Microsoft AI Foundry Local. El RTX AI Garage ofrece exploración local, y los desarrolladores empresariales pueden probar los modelos gpt-oss de forma gratuita a través de NVIDIA NIM Preview API y el entorno de prueba en el NVIDIA API Catalog. Los modelos se empaquetan como microservicios NIM para facilitar su despliegue en infraestructuras aceleradas por GPU con privacidad de datos y seguridad empresarial. Referencias: (enlace) NVIDIA blog — Entrega de 1,5 M TPS para inferencia en GB200 NVL72 y aceleración de los modelos gpt-oss de OpenAI desde la nube al edge.

Contexto y antecedentes

NVIDIA y OpenAI iniciaron su colaboración desde el lanzamiento de DGX en 2016, con el objetivo de optimizar la inferencia para modelos gpt-oss-20b y gpt-oss-120b en la arquitectura Blackwell. Estos modelos de código abierto cuentan con una arquitectura MoE y activaciones SwigGLU; RoPE maneja un contexto de 128k. La precisión FP4 permite que quepan en una GPU de 80 GB. El entrenamiento se realizó en GPUs H100, con horas de cómputo reportadas para gpt-oss-120b. NVIDIA integró estas innovaciones con Hugging Face Transformers, Ollama y vLLM, además de TensorRT-LLM, para ofrecer una pila de software lista para Day 0. La colaboración con OpenAI y la comunidad busca maximizar rendimiento y experiencia del desarrollador. Dynamo se presenta como una plataforma de servicio de inferencia open-source que desagrega fases de inferencia entre GPUs, aumentando la eficiencia para secuencias largas sin comprometer el throughput.

Qué hay de nuevo

  • El gpt-oss-120b puede servirse a 1,5M TPS en un sistema GB200 NVL72, demostrando la viabilidad de inferencia escalable para modelos grandes.
  • La precisión FP4 cabe en una GPU de 80 GB, reforzando la eficiencia de la arquitectura.
  • Los 72 GPUs del rack funcionan como una única unidad gracias a NVLink de 5.ª generación.
  • Procesamiento de contextos largos con RoPE a 128k context y ventana deslizante de 128 tokens.
  • Dynamo ofrece ~4x mejora de interactividad en ISL de 32k mediante enrutamiento LLM-aware, autoscaling elástico y transferencia de datos de baja latencia.
  • Integración con Hugging Face Transformers, Ollama, vLLM y TensorRT-LLM facilita implantar mediante Docker, OpenAI Cookbook y microservicios NIM.
  • Day 0 disponible en Blackwell y Hopper.
MétricaValor
TPS gpt-oss-120b1,5M tokens/segundo
Usuarios concurrentes estimados~50,000
Longitud de contextoRoPE 128k; contexto completo y ventana deslizante 128 tokens
PrecisiónFP4
Memoria por GPU80 GB
GPUs por rack72
Por qué esto importa para desarrolladores y empresas
Esta demostración ilustra la viabilidad de inferencia para modelos extremadamente grandes a escala de centro de datos y edge cuando se combinan hardware avanzado (Blackwell), precisión eficiente (FP4) y una pila de software moderna (TensorRT-LLM, Dynamo). Para desarrolladores, proporciona un camino práctico para desplegar gpt-oss con Day 0 empleando herramientas familiares. Las empresas obtienen una solución robusta con opciones de despliegue flexibles, confidencialidad y seguridad, incluyendo microservicios NIM y flujos basados en contenedores. La colaboración demuestra compatibilidad con marcos populares, facilitando la adopción para equipos ya integrados en estos ecosistemas.

Detalles técnicos o implementación

  • Arquitectura: MoE con activaciones SwigGLU, RoPE para contexto largo (128k) y ventana deslizante de 128 tokens.
  • Precisión y hardware: FP4 en GPU de 80 GB, entrenamiento en GPUs H100.
  • Funciones del procesador: Transformer Engine de segunda generación con FP4 y NVLink de quinta generación, permitiendo 72 GPUs como una sola unidad.
  • Stack de software: TensorRT-LLM con colaboraciones en Hugging Face Transformers, Ollama y vLLM; guías de despliegue y contenedores Docker para escenarios de baja latencia y mayor rendimiento.
  • Servicio y despliegue: Dynamo ofrece enrutamiento LLM-aware, autoscaling elástico y transferencia de datos de baja latencia para secuencias largas.
  • Despliegues locales y empresariales: microservicios NIM para infraestructura acelerada por GPU con privacidad y seguridad empresarial.

Conclusiones clave

  • Alcanzar 1,5M TPS para gpt-oss-120b demuestra la factibilidad de inferencia a gran escala con FP4 en una GPU de 80 GB.
  • Un rack GB200 NVL72 puede agrupar 72 GPUs para formar una unidad de alto rendimiento para edge-to-cloud.
  • El ecosistema de software facilita la adopción con Day 0 gracias a TensorRT-LLM, vLLM, Hugging Face Transformers, Ollama y OpenAI Cookbook.
  • Dynamo mejora la interactividad para ISL largos sin incrementar el presupuesto de GPUs.
  • La colaboración con OpenAI y la comunidad refuerza la capacidad de entrega de soluciones empresariales a gran escala.

Preguntas frecuentes (FAQ)

  • P: ¿Qué son gpt-oss-20b y gpt-oss-120b? R: Son modelos LLM de código abierto con razonamiento de texto, cadena de pensamiento y llamadas de herramienta, usando una arquitectura MoE con activaciones SwigGLU.
  • P: ¿Qué hardware posibilita 1,5M TPS? R: Un sistema GB200 NVL72 con 72 GPUs Blackwell, memoria FP4 y NVLink 5. generación.
  • P: ¿Qué stacks de software soportan despliegues? R: TensorRT-LLM, Hugging Face Transformers, Ollama, vLLM y Dynamo, con guías de despliegue vía Docker y OpenAI Cookbook.
  • P: ¿Cómo mejora ISL 32k la interactividad? R: Dynamo ofrece alrededor de 4x más interactividad gracias al enrutamiento basado en LLM, autoscaling elástico y transferencia de datos de baja latencia.
  • P: ¿Cómo empezar a probar? R: Con microservicios NIM de NVIDIA, NVIDIA API Catalog y OpenAI Cookbook; use Dynamo y TensorRT-LLM para flujos de despliegue.

Referencias

More news