Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real

TL;DR

Dynamo 0.4 presenta un servicio desagregado que separa las fases de prefill y decode entre GPUs, permitiendo un uso de recursos más flexible y mayor eficiencia.
En benchmarks, se observa hasta 4x más interactividad para el modelo gpt-oss-120b en NVIDIA B200 con TensorRT-LLM, y 2.5x más throughput para el DeepSeek-R1 671B en GB200 NVL72, sin costos de inferencia adicionales. NVIDIA Dynamo 0.4 release.
Nueva herramienta AIConfigurator que recomienda configuraciones óptimas de PD desagregación y estrategias de paralelismo de modelo, ajustadas al modelo y al presupuesto de GPU, manteniendo SLO.
Planner con autoscalado basado en SLO: integración nativa con Kubernetes y mejoras de observabilidad, junto con características de tolerancia a fallos.
El release ofrece scripts de código abierto y guías de implementación para despliegues MoE en múltiples nodos y soporte inicial de TensorRT-LLM en Hopper, con soporte nativo para vLLM.

Contexto y antecedentes

El rápido auge de modelos frontera en código abierto, como gpt-oss de OpenAI y Kimi K2 de Moonshot AI, ha acelerado el interés en la inferencia a gran escala con costos razonables. Dynamo 0.4, lanzado hoy, avanza las capacidades para desplegar grandes modelos en configuraciones de servicio desagregado. La actualización se centra en mejoras de rendimiento, observabilidad y autoscalado basado en SLOs. Estas tendencias se alinean con la necesidad de una inferencia de IA de gran tamaño que sea confiable y predecible para entornos de producción. NVIDIA Dynamo 0.4 release. Dynamo utiliza un enfoque de servicio desagregado que reparte el flujo de inferencia entre GPUs distintas, permitiendo asignaciones más flexibles y paralelismo específico para cada fase, lo que incrementa la eficiencia general. Esta versión también enfatiza la observabilidad y la tolerancia a fallas como capacidades fundamentales para entornos multinodo de inferencia, donde las interrupciones pueden afectar la experiencia del usuario. El objetivo es facilitar la adopción de arquitecturas MoE con mayor previsibilidad y fiabilidad. NVIDIA Dynamo 0.4 release.

Novedades

Dynamo 0.4 trae varias capacidades para investigadores, ingenieros y empresas que buscan desplegar modelos grandes a escala con costo efectivo:

Servicio desagregado entre GPUs: las fases de prefill y decode se separan para permitir una asignación de recursos más flexible y paralelismo por etapa.
AIConfigurator: nueva herramienta que recomienda configuraciones óptimas de desagregación PD y estrategias de paralelismo, ajustadas al modelo y al presupuesto de GPU; puede generar automáticamente configuraciones backend Dynamo. Soporte inicial para TensorRT-LLM en NVIDIA Hopper.
Planner con autoscalado basado en SLO: continúa el trabajo de May 0.2 y añade escalado proactivo para cumplir objetivos de rendimiento. Integración nativa con Kubernetes y soporte inicial para vLLM, con más frameworks próximamente.
Observabilidad: Dynamo emite métricas de observabilidad a través de Prometheus; métricas pueden consumirse por Grafana y otras herramientas open-source; API para métricas personalizadas.
Tolerancia a fallas y resiliencia: re-enrutamiento de requests en vuelo hacia GPUs online, preservando cálculos intermedios y evitando trabajo redundante; detección de fallas más rápida al evitar etcd.
Scripts y guías de implementación: scripts de reproducción de resultados y guías para escenarios MoE en multi-nodo, incluyendo DeepSeek-R1 con SGLang y Llama4 Maverick con TensorRT-LLM en Dynamo. NVIDIA Dynamo 0.4 release.

Por qué importa (impacto para desarrolladores/empresas)

Para equipos que operan servicios de inferencia de IA a gran escala, Dynamo 0.4 ofrece mejoras tangibles en throughput, latencia, costo y confiabilidad. El servicio desagregado permite un uso más eficiente de recursos GPU, aumentando la utilización y facilitando el escalado para secuencias largas comunes en flujos de trabajo de agentes, generación de código y resúmenes. AIConfigurator y autoscalado basado en SLO ayudan a planificar capacidad con mayor precisión sin sobredimensionar. La observabilidad mejorada facilita diagnósticos en tiempo real y la resiliencia en entornos multinodo. En conjunto, estas actualizaciones permiten a investigadores, ingenieros y empresas explorar arquitecturas MoE y administrar grandes modelos con presupuestos más previsibles y rendimiento confiable, especialmente para entornos que ya trabajan con Kubernetes.

Detalles técnicos o Implementación

El núcleo sigue siendo el servicio desagregado: separar prefill y decode entre GPUs distintas para optimizar la asignación de recursos y el paralelismo del modelo según la carga. Esta separación mejora la eficiencia general y facilita estrategias de escalado basadas en la estructura del modelo y el tráfico. AIConfigurator propone un enfoque basado en datos: analiza rendimiento medido previamente por capas del modelo (atención, FFN, comunicaciones y memoria), compara batching estático, batching en vuelo y servicio desagregado, y produce configuraciones PD que satisfacen SLOs dentro del presupuesto de GPU. Puede generar configuraciones backend Dynamo automáticamente y ofrece interfaces CLI y web; soporte inicial para TensorRT-LLM en Hopper y expansión futura a otros marcos y hardware. Planner con autoscalado basado en SLO ofrece dimensionamiento proactivo monitorizando la profundidad de la cola de prefill y el uso de memoria de decode para ajustar dinámicamente el número de workers. La integración con Kubernetes facilita la adopción en entornos basados en containers. Planner añade soporte para vLLM y otros frameworks de inferencia en futuras versiones. Observabilidad: métricas emitidas por workers y componentes están disponibles a través de Prometheus; API para métricas personalizadas permite adaptar la observabilidad a entornos específicos. Estas capacidades sientan las bases para métricas más granulares y específicas de PD desagregado en futuras entregas. Tolerancia a fallas: mejoras en resiliencia con re-enrutamiento en vuelo para evitar pérdidas de cálculos y detección rápida de fallas al saltar el etcd cuando corresponde. Scripts y guías de implementación ayudan a reproducir resultados y desplegar MoE en escenarios multi-nodo. NVIDIA Dynamo 0.4 release.

Ideas clave (takeaways)

Servicio desagregado entre GPUs para una mayor eficiencia.
Benchmarks: hasta 4x más interactividad para gpt-oss-120b en B200 con TensorRT-LLM y 2,5x throughput para DeepSeek-R1 671B en NVL72, sin costos adicionales.
AIConfigurator ofrece recomendaciones de PD y estrategias de paralelismo con generación automática de configuraciones.
Planner con autoscalado basado en SLO e integración con Kubernetes para dimensionamiento proactivo.
Mejoras de observabilidad mediante Prometheus y API de métricas personalizadas.
Mejoras de tolerancia a fallas con re-enrutamiento en vuelo y detección más rápida.
Scripts y guías de implementación para despliegues MoE multi-nodo.

FAQ

¿Qué aporta principalmente Dynamo 0.4?

Servicio desagregado entre GPUs, AIConfigurator para PD, autoscalado basado en SLO con Planner, observabilidad y mejoras de tolerancia a fallas. [NVIDIA Dynamo 0.4 release](https://developer.nvidia.com/blog/dynamo-0-4-delivers-4x-faster-performance-slo-based-autoscaling-and-real-time-observability).
¿Cómo mejora la eficiencia el servicio desagregado?

Separa prefill y decode en GPUs diferentes, permitiendo asignaciones de recursos más flexibles y paralelismo de modelo específico para cada fase.
¿Qué es AIConfigurator y cómo ayuda?

Es una herramienta que recomienda configuraciones óptimas de desagregación PD y estrategias de paralelismo, basada en el modelo y el presupuesto de GPU, generando configuraciones de backend Dynamo automáticamente. Soporte CLI y web; soporte inicial para TensorRT-LLM en Hopper.
¿Qué beneficios ofrece el autoscalado basado en SLO?

Permite prever el impacto de cambios en longitudes de secuencia y dimensionar recursos de forma proactiva para cumplir objetivos de rendimiento, con integración nativa a Kubernetes.

Referencias

NVIDIA Dynamo 0.4 release

Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real

TL;DR

Contexto y antecedentes

Novedades

Por qué importa (impacto para desarrolladores/empresas)

Detalles técnicos o Implementación

Ideas clave (takeaways)

FAQ

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares