Skip to content
Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real
Source: developer.nvidia.com

Dynamo 0.4 ofrece 4x más rendimiento, autoscaling basado en SLO y observabilidad en tiempo real

Sources: https://developer.nvidia.com/blog/dynamo-0-4-delivers-4x-faster-performance-slo-based-autoscaling-and-real-time-observability, developer.nvidia.com

TL;DR

  • Dynamo 0.4 presenta un servicio desagregado que separa las fases de prefill y decode entre GPUs, permitiendo un uso de recursos más flexible y mayor eficiencia.
  • En benchmarks, se observa hasta 4x más interactividad para el modelo gpt-oss-120b en NVIDIA B200 con TensorRT-LLM, y 2.5x más throughput para el DeepSeek-R1 671B en GB200 NVL72, sin costos de inferencia adicionales. NVIDIA Dynamo 0.4 release.
  • Nueva herramienta AIConfigurator que recomienda configuraciones óptimas de PD desagregación y estrategias de paralelismo de modelo, ajustadas al modelo y al presupuesto de GPU, manteniendo SLO.
  • Planner con autoscalado basado en SLO: integración nativa con Kubernetes y mejoras de observabilidad, junto con características de tolerancia a fallos.
  • El release ofrece scripts de código abierto y guías de implementación para despliegues MoE en múltiples nodos y soporte inicial de TensorRT-LLM en Hopper, con soporte nativo para vLLM.

Contexto y antecedentes

El rápido auge de modelos frontera en código abierto, como gpt-oss de OpenAI y Kimi K2 de Moonshot AI, ha acelerado el interés en la inferencia a gran escala con costos razonables. Dynamo 0.4, lanzado hoy, avanza las capacidades para desplegar grandes modelos en configuraciones de servicio desagregado. La actualización se centra en mejoras de rendimiento, observabilidad y autoscalado basado en SLOs. Estas tendencias se alinean con la necesidad de una inferencia de IA de gran tamaño que sea confiable y predecible para entornos de producción. NVIDIA Dynamo 0.4 release. Dynamo utiliza un enfoque de servicio desagregado que reparte el flujo de inferencia entre GPUs distintas, permitiendo asignaciones más flexibles y paralelismo específico para cada fase, lo que incrementa la eficiencia general. Esta versión también enfatiza la observabilidad y la tolerancia a fallas como capacidades fundamentales para entornos multinodo de inferencia, donde las interrupciones pueden afectar la experiencia del usuario. El objetivo es facilitar la adopción de arquitecturas MoE con mayor previsibilidad y fiabilidad. NVIDIA Dynamo 0.4 release.

Novedades

Dynamo 0.4 trae varias capacidades para investigadores, ingenieros y empresas que buscan desplegar modelos grandes a escala con costo efectivo:

  • Servicio desagregado entre GPUs: las fases de prefill y decode se separan para permitir una asignación de recursos más flexible y paralelismo por etapa.
  • AIConfigurator: nueva herramienta que recomienda configuraciones óptimas de desagregación PD y estrategias de paralelismo, ajustadas al modelo y al presupuesto de GPU; puede generar automáticamente configuraciones backend Dynamo. Soporte inicial para TensorRT-LLM en NVIDIA Hopper.
  • Planner con autoscalado basado en SLO: continúa el trabajo de May 0.2 y añade escalado proactivo para cumplir objetivos de rendimiento. Integración nativa con Kubernetes y soporte inicial para vLLM, con más frameworks próximamente.
  • Observabilidad: Dynamo emite métricas de observabilidad a través de Prometheus; métricas pueden consumirse por Grafana y otras herramientas open-source; API para métricas personalizadas.
  • Tolerancia a fallas y resiliencia: re-enrutamiento de requests en vuelo hacia GPUs online, preservando cálculos intermedios y evitando trabajo redundante; detección de fallas más rápida al evitar etcd.
  • Scripts y guías de implementación: scripts de reproducción de resultados y guías para escenarios MoE en multi-nodo, incluyendo DeepSeek-R1 con SGLang y Llama4 Maverick con TensorRT-LLM en Dynamo. NVIDIA Dynamo 0.4 release.

Por qué importa (impacto para desarrolladores/empresas)

Para equipos que operan servicios de inferencia de IA a gran escala, Dynamo 0.4 ofrece mejoras tangibles en throughput, latencia, costo y confiabilidad. El servicio desagregado permite un uso más eficiente de recursos GPU, aumentando la utilización y facilitando el escalado para secuencias largas comunes en flujos de trabajo de agentes, generación de código y resúmenes. AIConfigurator y autoscalado basado en SLO ayudan a planificar capacidad con mayor precisión sin sobredimensionar. La observabilidad mejorada facilita diagnósticos en tiempo real y la resiliencia en entornos multinodo. En conjunto, estas actualizaciones permiten a investigadores, ingenieros y empresas explorar arquitecturas MoE y administrar grandes modelos con presupuestos más previsibles y rendimiento confiable, especialmente para entornos que ya trabajan con Kubernetes.

Detalles técnicos o Implementación

El núcleo sigue siendo el servicio desagregado: separar prefill y decode entre GPUs distintas para optimizar la asignación de recursos y el paralelismo del modelo según la carga. Esta separación mejora la eficiencia general y facilita estrategias de escalado basadas en la estructura del modelo y el tráfico. AIConfigurator propone un enfoque basado en datos: analiza rendimiento medido previamente por capas del modelo (atención, FFN, comunicaciones y memoria), compara batching estático, batching en vuelo y servicio desagregado, y produce configuraciones PD que satisfacen SLOs dentro del presupuesto de GPU. Puede generar configuraciones backend Dynamo automáticamente y ofrece interfaces CLI y web; soporte inicial para TensorRT-LLM en Hopper y expansión futura a otros marcos y hardware. Planner con autoscalado basado en SLO ofrece dimensionamiento proactivo monitorizando la profundidad de la cola de prefill y el uso de memoria de decode para ajustar dinámicamente el número de workers. La integración con Kubernetes facilita la adopción en entornos basados en containers. Planner añade soporte para vLLM y otros frameworks de inferencia en futuras versiones. Observabilidad: métricas emitidas por workers y componentes están disponibles a través de Prometheus; API para métricas personalizadas permite adaptar la observabilidad a entornos específicos. Estas capacidades sientan las bases para métricas más granulares y específicas de PD desagregado en futuras entregas. Tolerancia a fallas: mejoras en resiliencia con re-enrutamiento en vuelo para evitar pérdidas de cálculos y detección rápida de fallas al saltar el etcd cuando corresponde. Scripts y guías de implementación ayudan a reproducir resultados y desplegar MoE en escenarios multi-nodo. NVIDIA Dynamo 0.4 release.

Ideas clave (takeaways)

  • Servicio desagregado entre GPUs para una mayor eficiencia.
  • Benchmarks: hasta 4x más interactividad para gpt-oss-120b en B200 con TensorRT-LLM y 2,5x throughput para DeepSeek-R1 671B en NVL72, sin costos adicionales.
  • AIConfigurator ofrece recomendaciones de PD y estrategias de paralelismo con generación automática de configuraciones.
  • Planner con autoscalado basado en SLO e integración con Kubernetes para dimensionamiento proactivo.
  • Mejoras de observabilidad mediante Prometheus y API de métricas personalizadas.
  • Mejoras de tolerancia a fallas con re-enrutamiento en vuelo y detección más rápida.
  • Scripts y guías de implementación para despliegues MoE multi-nodo.

FAQ

  • ¿Qué aporta principalmente Dynamo 0.4?

    Servicio desagregado entre GPUs, AIConfigurator para PD, autoscalado basado en SLO con Planner, observabilidad y mejoras de tolerancia a fallas. [NVIDIA Dynamo 0.4 release](https://developer.nvidia.com/blog/dynamo-0-4-delivers-4x-faster-performance-slo-based-autoscaling-and-real-time-observability).

  • ¿Cómo mejora la eficiencia el servicio desagregado?

    Separa prefill y decode en GPUs diferentes, permitiendo asignaciones de recursos más flexibles y paralelismo de modelo específico para cada fase.

  • ¿Qué es AIConfigurator y cómo ayuda?

    Es una herramienta que recomienda configuraciones óptimas de desagregación PD y estrategias de paralelismo, basada en el modelo y el presupuesto de GPU, generando configuraciones de backend Dynamo automáticamente. Soporte CLI y web; soporte inicial para TensorRT-LLM en Hopper.

  • ¿Qué beneficios ofrece el autoscalado basado en SLO?

    Permite prever el impacto de cambios en longitudes de secuencia y dimensionar recursos de forma proactiva para cumplir objetivos de rendimiento, con integración nativa a Kubernetes.

Referencias

NVIDIA Dynamo 0.4 release

More news