Skip to content
Dynamo 0.4 entrega 4x mais desempenho, autoscaling baseado em SLO e observabilidade em tempo real
Source: developer.nvidia.com

Dynamo 0.4 entrega 4x mais desempenho, autoscaling baseado em SLO e observabilidade em tempo real

Sources: https://developer.nvidia.com/blog/dynamo-0-4-delivers-4x-faster-performance-slo-based-autoscaling-and-real-time-observability, developer.nvidia.com

TL;DR

  • Dynamo 0.4 oferece até 4x mais interatividade (tokens/segundo/usuário) para o modelo gpt-oss-120b usando Dynamo e TensorRT-LLM no NVIDIA B200, permitindo fluxos de trabalho mais rápidos sem comprometer a taxa de transferência [source].
  • DeepSeek-R1 671B com TensorRT-LLM e Dynamo atinge cerca de 2,5x maisThroughput (tokens/segundo/GPU) sem aumentar os custos de inferência em NVIDIA GB200 NVL72.
  • Atendimento disagregado divide as fases de prefill e decode entre GPUs distintas, aumentando a eficiência e a flexibilidade na paralelização de modelos.
  • AIConfigurator, nova ferramenta, recomenda configurações ideais de PD disaggregation e estratégias de paralelismo de modelo com base no modelo e no orçamento de GPU, respeitando SLOs.
  • Planner com autos scaling baseado em SLO, integração nativa com Kubernetes e observabilidade aprimorada permitem dimensionamento confiável e custo-efetivo com insights em tempo real.
  • Melhorias de tolerância a falhas reduzem trabalho desperdiçado com redirecionamento de requisições em voo e detecção de falhas mais rápida, fortalecendo ambientes multi-nó.
  • Recursos para pesquisadores e equipes: scripts de código aberto para reproduzir resultados, guias de implantação para ambientes multi-nó e suporte inicial para TensorRT-LLM no Hopper. Fonte: Dynamo 0.4 release notes.

Contexto e antecedentes

O Dynamo 0.4 foca em workloads de IA de fronteira que utilizam modelos grandes e arquiteturas de atendimento disagregado em centenas de GPUs. Ao priorizar desempenho, observabilidade e autos scaling com base em SLOs, o Dynamo 0.4 pretende tornar viável implantar modelos extremamente grandes com custo menor. O release enfatiza o atendimento disagregado, que separa as fases de prefill e decode para otimizar a alocação de recursos e a paralelização do modelo. O pacote também apresenta ferramentas para estimar ganhos de throughput, configurar GPUs e atender objetivos de serviço. A liberação enfatiza a importância de observabilidade para ambientes de inferência distribuídos, com métricas disponíveis via Prometheus, prontas para uso em Grafana e outras ferramentas de monitoramento de código aberto. O projeto também aponta para suporte inicial de TensorRT-LLM no Hopper, com planos de ampliar frameworks e hardware no futuro.

O que há de novo

  • Atendimento disagregado entre prefill e decode em GPUs distintas, possibilitando alocações mais flexíveis e maior eficiência.
  • AIConfigurator, ferramenta que recomenda configurações ótimas de PD disaggregation e paralelismo de modelo com base no modelo e no orçamento de GPU, respeitando SLOs.
  • Planner com autos scaling baseado em SLO, integrando-se nativamente ao Kubernetes para facilitar a implantação em ambientes conteinerizados.
  • Melhorias de observabilidade: métricas importantes emitidas por componentes do Dynamo via Prometheus, prontas para uso em Grafana; API para métricas personalizadas.
  • Tolerância a falhas: redirecionamento de requisições em voo para GPUs online, preservando computations intermediárias; detecção de falhas mais rápida ao contornar etcd em certos sinais de saúde.
  • Esforços para workloads de fronteira (MoE) e deployments multi-nó com maior resiliência, além de guias e scripts para pesquisadores.
  • Suporte inicial para TensorRT-LLM no NVIDIA Hopper e planos de ampliar frameworks/hardware.

Por que isso importa (impacto para desenvolvedores/empresas)

  • Escala e custo: o atendimento disagregado sustenta alto throughput para sequências muito longas, otimizando o uso de GPUs, reduzindo desperdício e custos de inferência.
  • Confiabilidade em larga escala: autos scaling preditivo baseado em SLO ajuda a cumprir metas de latência em cargas diversas, desde geração de código até resumo de documentos longos.
  • Observabilidade e controle: métricas integradas e API de telemetria permitem diagnosticar gargalos, validar desempenho frente a SLOs e ajustar configurações em tempo real.
  • Produtividade do desenvolvedor: integração nativa com Kubernetes e recomendações automatizadas do AIConfigurator facilitam a implantação de pipelines de inferência de modelos grandes em produção.
  • Ecossistema em movimento: scripts abertos, guias de implantação e referências a práticas de disaggregation encorajam adoção mais ampla.

Detalhes técnicos ou Implementação

Dynamo 0.4 avança o atendimento disagregado ao separar o prefill e o decode e distribuí-los entre GPUs distintas. Essa separação permite alocações mais flexíveis por fase e suporta paralelismo de modelo mais avançado, melhorando a eficiência para modelos grandes como gpt-oss-120b e DeepSeek-R1 671B. Para o gpt-oss-120b, executando com Dynamo e TensorRT-LLM no B200, obtém-se até 4x de ganho de interatividade (tokens/segundo) sem perder throughput. Para o DeepSeek-R1 671B, a combinação Dynamo + TensorRT-LLM + NVL72 atinge aproximadamente 2,5x mais throughput (tokens/segundo/GPU) sem custos adicionais de inferência. A AIConfigurator, nova ferramenta, utiliza dados de desempenho previamente medidos em várias camadas do modelo (atenção, FFN, comunicação, memória) e opções de agendamento (batching estático, batching em voo, atendimento disagregado). Ela modela diferentes configurações sob um orçamento de GPU e SLOs, recomendando configurações de disaggregation e estratégias de paralelismo que maximizam o throughput por GPU. O AIConfigurator vem com CLI e interface web, com suporte inicial para TensorRT-LLM no Hopper; suporte adicional para outros frameworks e hardware está por vir. O Planner, apresentado na Release 0.2, foi estendido para incluir autos scaling baseado em SLO. Ele monitora a fila de prefill e o uso de memória de decode para escalar trabalhadores de inferência, maximizando utilização de GPU e minimizando custos. O Planner integra-se nativamente ao Kubernetes, facilitando a implantação de Dynamo e o dimensionamento de workloads de IA. O suporte para vLLM está presente, com planos para adicionar mais frameworks no futuro. Observabilidade é um pilar da liberação 0.4. Métricas-chave são emitidas por trabalhadores e componentes do Dynamo por meio do toolkit Prometheus, prontas para consumo em Grafana e outras ferramentas abertas, sem personalização pesada. A API para métricas personalizadas oferece ainda mais flexibilidade para atender a necessidades específicas de time. Esse alicerce de observabilidade prepara o terreno para métricas mais granulares ligadas à disaggregation no futuro. Para ambientes com centenas de GPUs, Dynamo 0.4 introduz tolerância a falhas: re-routing de requisições em voo para GPUs online preserva o trabalho intermediário e evita retrabalho, reduzindo latência. A detecção de falhas também é mais rápida, com o router inteligente capaz de contornar etcd em sinais críticos de saúde, reduzindo a janela entre detecção e recuperação. Para pesquisadores e equipes, Dynamo 0.4 disponibiliza scripts abertos para reproduzir resultados e guias de implantação para ambientes multi-nó com DeepSeek-R1 e outros modelos usando Dynamo. Há demonstrações e recursos de office-hours para auxiliar na compreensão de conceitos de disaggregation e medição de ganhos de throughput.

Principais conclusões

  • O atendimento disagregado é central no Dynamo 0.4, permitindo alocações de GPU separadas para prefill e decode e paralelismo de modelo mais eficiente.
  • AIConfigurator automatiza recomendações de PD disaggregation e estratégias de paralelismo para atender SLOs dentro de um orçamento de GPU.
  • Planner com autos scaling baseado em SLO oferece dimensionamento proativo com integração nativa ao Kubernetes.
  • Observabilidade aprimorada com métricas Prometheus e API de telemetria facilita otimização em tempo real.
  • Melhorias de tolerância a falhas reduzem trabalho desperdiçado com redirecionamento em voo e detecção mais rápida de falhas.
  • Scripts abertos e guias de implantação aceleram a adoção pela comunidade.

FAQ

  • O que é atendimento disagregado no Dynamo 0.4?

    Ele divide prefill e decode entre GPUs diferentes, possibilitando alocações mais flexíveis e paralelismo de modelo aprimorado.

  • O que faz o autos scaling baseado em SLO?

    Ele antecipa impactos de comprimentos de sequências de entrada/saída e escala recursos antes que ocorram gargalos, para cumprir TTFT e ITL.

  • uais ferramentas auxiliam implantação e otimização?

    IConfigurator para recomendações de configuração e Planner para autos scaling, com integração a Kubernetes e API para métricas personalizadas.

  • uais modelos e hardware foram demonstrados?

    Demonstrações com gpt-oss-120b no NVIDIA B200 (4x mais rápido) e DeepSeek-R1 671B no NVL72 (2,5x mais throughput); TensorRT-LLM é a chave da integração.

  • Onde posso encontrar recursos para reproduzir os resultados?

    NVIDIA fornece scripts de código aberto e guias de implantação; os links do repositório estão mencionados nas notas da liberação.

Referências

More news