Dimensionando Agentes LangGraph em Produção: De um Usuário a 1.000 Colegas

TL;DR

A NVIDIA escalou um agente de pesquisa baseado em LangGraph (AI-Q) de um único usuário para centenas, usando o NeMo Agent Toolkit e uma pilha de produção em OpenShift.
O processo começou com avaliação e perfil para quantificar comportamento, tempo e uso de tokens, orientando a identificação de gargalos e decisões de hardware.
Testes de carga com o toolkit de dimensionamento exploraram 10–50 usuários simultâneos, permitindo prever hardware e planejar a replicação.
Observabilidade e implantação em fases, com OTEL e Datadog, forneceram traços, logs e visibilidade de desempenho por sessão.

Contexto e antecedentes

Você construiu um agente de IA poderoso e está pronto para compartilhá-lo com seus colegas, mas há uma grande dúvida: ele funcionará quando 10, 100 ou 1.000 colegas usarem ao mesmo tempo? Esta pergunta é central para levar um agente de IA à produção. A NVIDIA enfrentou esse desafio durante a implantação interna de um agente de pesquisa avançado, usando o AI-Q NVIDIA Blueprint. O blueprint é open source e foi criado para implantação on-premise, servindo como ponto de partida para a implantação de produção de um assistente de pesquisa profundo. O agente AI-Q permite que usuários enviem documentos e extraiam metadados, acessem fontes de dados internas e façam buscas na web para gerar relatórios de pesquisa. O blueprint é implementado com o NeMo Agent Toolkit e utiliza modelos NVIDIA NeMo Retriever para ingestão de documentos, recuperação e invocações de LLMs. Nosso ambiente de produção opera em um cluster OpenShift interno, seguindo a arquitetura de referência AI factory, com acesso a microserviços NVIDIA NIM hospedados localmente e a ferramentas de observabilidade de terceiros. O desafio central foi entender quais partes do sistema precisavam escalar para suportar centenas de usuários em diferentes equipes da NVIDIA. Adotamos uma abordagem em três etapas, aplicando o NeMo Agent Toolkit em cada fase. Não existe uma regra universal como “um GPU para 100 usuários”; cada aplicação agentic é diferente. A primeira etapa é entender como a aplicação se comporta para um único usuário e quantificar esse comportamento por meio de avaliação e perfil. O NeMo Agent Toolkit oferece um sistema de avaliação e perfil que facilita a coleta de dados e a compreensão quantitativa do comportamento da aplicação. Para usar a avaliação, adicionamos uma seção de avaliação no arquivo de configuração da aplicação, incluindo um conjunto de dados com entradas de usuários de exemplo. Aplicações agentic não são determinísticas, por isso é útil perfilar várias entradas para entender o desempenho sob uma variedade de usos plausíveis. O agente AI-Q, uma aplicação LangGraph, utiliza wrappers do NeMo Agent Toolkit que permitem ao profiler capturar automaticamente o tempo e o uso de tokens em diferentes partes da aplicação. Também podemos marcar subetapas adicionando decoradores simples às funções de interesse. O fluxo de avaliação executa o conjunto de dados de entrada e coleta métricas úteis. Uma saída é um gráfico de Gantt (ou Waterfall) que mostra quais funções estão em execução em cada parte da sessão do usuário, ajudando a identificar gargalos. No caso do AI-Q, o gargalo principal eram as chamadas ao LLM NVIDIA Llama Nemotron Super 49B, o que nos direcionou para replicar e escalar a implantação do NIM para esse LLM. Além de tempo de execução e uso de tokens, a ferramenta de avaliação pode computar métricas específicas do domínio. Comparamos diferentes versões do código para garantir que as otimizações não prejudicassem a qualidade do relatório. A ferramenta pode exportar métricas para plataformas como Weights and Biases para acompanhar experimentos ao longo do tempo. Essa combinação de perfil, avaliação e visualização ajudou a estabelecer uma linha de base para a experiência de um único usuário e a preparar a escalada para múltiplos usuários. Para orquestrar a implantação e observabilidade, usamos o OpenShift interno, juntamente com o NeMo Agent Toolkit OTEL collector e Datadog, para capturar logs, dados de desempenho e traços de LLM. O coletor OTEL permite traçar sessões de usuário individualmente, enquanto traços agregados fornecem uma visão abrangente do desempenho da plataforma e do comportamento do LLM durante a concorrência. Essa abordagem integrada foi essencial para entender o desempenho da aplicação e o comportamento do LLM durante a escalada. Trabalhamos com o NeMo Agent Toolkit e parceiros de referência da AI factory para implantar uma versão interna do AI-Q NVIDIA Blueprint e construir um agente de pesquisa com confiança. Source

O que há de novo

A abordagem em três etapas culminou em um plano de implantação escalável, apoiado por dados em vez de intuição. Os marcos-chave incluíram:

Entender profundamente o fluxo de um único usuário por meio de avaliação para quantificar tempo, uso de tokens e subetapas. O profiller do NeMo Agent Toolkit captura dados de temporização e tokens em wrappers de funções LangGraph; decorators simples ajudam a medir sub-etapas.
Identificar gargalos, principalmente as invocações ao LLM NVIDIA Llama Nemotron Super 49B, orientando a replicação e escala do deployment NIM para suportar a carga de LLM.
Teste de carga com 10, 20, 30, 40, 50 usuários simultâneos usando o NeMo Agent Toolkit sizing calculator para simular fluxos paralelos e coletar métricas, como p95 de invocações de LLM e do fluxo como um todo.
Utilizar o sizing calculator para projetar necessidades de hardware, extrapolando demandas de GPUs com base nos resultados de latência. No caso, um GPU pode atender aproximadamente 10 usuários simultâneos dentro do limiar de latência, o que orienta a necessidade de cerca de 10 GPUs para 100 usuários simultâneos.
Detecção e correção de problemas durante o teste de carga, incluindo uma falha de configuração no Helm Chart que limitava CPUs para um microserviço NIM, e a implementação de retries e melhor tratamento de falhas para evitar quedas totais durante falhas intermitentes.
Implantação em fases: iniciar com equipes pequenas e expandir gradualmente para mais usuários, observando desempenho para validar a escalabilidade.
Observabilidade: uso do coletor OTEL com Datadog para capturar traces, logs e dados de desempenho, permitindo ver desempenho por sessão e consolidar métricas de desempenho entre sessões. Essas etapas técnicas demonstram como uma implantação de produção pode ser planejada, testada e dimensionada com o NeMo Agent Toolkit e ferramentas associadas, mantendo o foco na qualidade do relatório e na experiência do usuário. A abordagem está alinhada com a arquitetura de referência AI factory da NVIDIA e com o blueprint de pesquisa aprofundada para implantação on-premise.

Por que isso importa (impacto para desenvolvedores/empresas)

Para desenvolvedores e empresas que entregam aplicativos baseados em agentes avançados, a estratégia da NVIDIA oferece um exemplo de como reduzir riscos na transição de protótipo para produção. Aspectos-chave:

Não existe uma regra universal para escalonamento de agentes; uma abordagem orientada por dados, baseada em perfil de um único usuário, informa planejamento realista de capacidade para múltiplos usuários.
Um fluxo de avaliação e perfil bem definido ajuda a identificar gargalos precocemente, permitindo ampliar apenas os componentes mais exigentes (por exemplo, chamadas a LLM) para atender a demanda de concorrência.
Ferramentas de dimensionamento que simulam fluxos paralelos e extraem métricas de latência fornecem orientação prática para investimentos em hardware e topologia de implantação, evitando superdimensionamento ou subdimensionamento.
Observabilidade é indispensável: traços de ponta a ponta, logs e dados de desempenho possibilitam entender o comportamento da aplicação e a dinâmica do LLM sob carga, apoiando degradação gradual e resposta a incidentes.
Implantações em fases, com monitoramento contínuo, reduzem riscos e permitem validar desempenho em escala antes de disponibilizar amplamente. Adotar essas práticas com ferramentas abertas como o NeMo Agent Toolkit, aliado ao blueprint da NVIDIA, capacita organizações a escalar aplicações complexas baseadas em agentes mantendo a qualidade de relatório e experiência do usuário.

Detalhes técnicos ou Implementação

A implementação prática seguiu um padrão repetível com base no NeMo Agent Toolkit e no compromisso com o blueprint de pesquisa avançada da NVIDIA. Os passos incluíram:

Estabelecer uma linha de base com avaliação: adicionar uma seção de avaliação no arquivo de configuração, prover um conjunto de dados com entradas representativas e executar a avaliação para coletar tempo, uso de tokens e métricas de subetapas. O profiler do LangGraph coleta dados de tempo e tokens em wrappers de funções; decoradores simples ajudam a medir subetapas.
Visualizar e interpretar os resultados: um gráfico de Gantt/Waterfall mostra as funções ativas durante cada sessão de usuário, ajudando a identificar onde os gargalos podem ocorrer sob concorrência.
Identificar gargalos: no caso do AI-Q, o gargalo principal era chamadas ao LLM NVIDIA Llama Nemotron Super 49B, o que orientou a replicação e escala do NIM para suportar esse workload de LLM.
Estender para testagem de múltiplos usuários: o NeMo Agent Toolkit sizing calculator executa fluxos simulados em paralelo em diferentes níveis de concorrência (10, 20, 30, 40, 50). O cálculo registra o tempo p95 para invocações de LLM e para o fluxo como um todo, permitindo planejamento de capacidade e projeção de desempenho.
Extrapolação de necessidades de hardware: usando um GPU como referência, a equipe concluiu que um GPU suporta cerca de 10 usuários simultâneos dentro do limiar de latência; isso orienta a necessidade de aproximadamente 10 GPUs para 100 usuários simultâneos, orientando replicação e design de implantação.
Abordagem de problemas identificados durante os testes: um erro de configuração no Helm Chart levou à alocação insuficiente de CPU para um microserviço NIM, e introduzimos retries e tratamento de erros aprimorado para evitar falhas em cenários de alta concorrência.
Observabilidade e monitoramento: o coletor OTEL, em conjunto com Datadog, captura traços por sessão e dados de desempenho agregados, permitindo visibilidade de desempenho da aplicação e do comportamento do LLM durante a implantação.
implantação em fases e observação: após validar o desempenho com equipes menores, a implantação ocorreu em fases, com observação de tendências de latência e contagem de sessões para garantir operação estável durante a escalada. Essas etapas técnicas demonstram como uma implantação orientada a dados pode ser planejada, testada e dimensionada usando o NeMo Agent Toolkit e ferramentas associadas, mantendo o foco na qualidade do relatório e na experiência do usuário. A abordagem está alinhada com a arquitetura de referência AI factory da NVIDIA e com o blueprint on-premise para aplicações de pesquisa.

Principais conclusões

Começar com uma avaliação detalhada de um único usuário para quantificar tempo, uso de tokens e subetapas.
Usar profilagem e visuais de Gantt para detectar gargalos precocemente, com foco em invocações de LLM ao escalar agentes LangGraph.
Empregar uma ferramenta de dimensionamento de carga para simular concorrência real e prever necessidades de hardware antes da implantação completa.
Planejar o dimensionamento de hardware em fases, com réplicas e observabilidade para validar o desempenho em cada etapa.
Implementar tratamento de erros robusto e retries para evitar que timeouts de LLM causem falhas em cascata.
Aproveitar OpenTelemetry e Datadog para obter visibilidade de ponta a ponta e monitorar desempenho da aplicação e comportamento do LLM.

FAQ

Qual ferramenta foi central no esforço de escalonamento?

O NeMo Agent Toolkit foi utilizado para avaliação, perfilamento e testes de carga, com o NVIDIA blueprint para implantação on-premise e OTEL com Datadog para observabilidade. [NVIDIA Dev Blog](https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/)
ual foi o principal gargalo identificado no AI-Q?

Chamadas ao NVIDIA Llama Nemotron Super 49B foram o gargalo principal, orientando a escalabilidade da implantação NIM para esse LLM. [NVIDIA Dev Blog](https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/)
Como foram estimadas as necessidades de hardware para maior concorrência?

O toolkit de dimensionamento executou fluxos simulados em diferentes níveis de concorrência (10, 20, 30, 40, 50) e extrapolou requerimentos de GPU com base em métricas de latência p95. [NVIDIA Dev Blog](https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/)
Como a observabilidade foi implementada durante a implantação?

O coletor OTEL com Datadog capturou traços, logs e dados de desempenho, permitindo traçar sessões individuais e analisar desempenho agregado. [NVIDIA Dev Blog](https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/)
ual foi um resultado prático importante dos testes de carga?

Os testes identificaram problemas de configuração e timeouts, que foram corrigidos com ajuste de CPU e melhor tratamento de erros para degradação suave sob alta concorrência. [NVIDIA Dev Blog](https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/)

Referências

NVIDIA Dev Blog: How to Scale Your LangGraph Agents in Production From A Single User to 1,000 Coworkers — https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/

Dimensionando Agentes LangGraph em Produção: De um Usuário a 1.000 Colegas

TL;DR

Contexto e antecedentes

O que há de novo

Por que isso importa (impacto para desenvolvedores/empresas)

Detalhes técnicos ou Implementação

Principais conclusões

FAQ

Referências

More news

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

Prever Eventos Climáticos Extremos em Minutos sem Supercomputador com Huge Ensembles (HENS)

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

NVIDIA RAPIDS 25.08 Adiciona Novo Profiler para cuML, Melhorias no Motor GPU Polars e Suporte Ampliado de Algoritmos

Decodificação Especulativa para Reduzir a Latência na Inferência de IA: EAGLE-3, MTP e Abordagens Draft-Target