Como Escalar seus Agentes LangGraph em Produção de um Único Usuário para 1.000 Colegas
Sources: https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers, https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/, NVIDIA Dev Blog
Visão geral
Você criou um agente de IA poderoso e está pronto para compartilhá-lo com seus colegas, mas há uma grande dúvida: ele funcionará à medida que mais usuários entrarem? Este artigo descreve uma abordagem em três etapas para implantar e escalar uma aplicação de agente LangGraph usando o NeMo Agent Toolkit, com uma implantação de produção baseada em um blueprint on-prem da NVIDIA e na arquitetura de referência de fábrica de IA. O agente de pesquisa AI-Q utilizado como exemplo suporta upload de documentos (e extração de metadados), acesso a fontes de dados internas e busca na web para gerar relatórios de pesquisa. O blueprint para essa aplicação de pesquisa profunda é open source e é implementado com o NeMo Agent Toolkit, aproveitando os modelos NVIDIA NeMo Retriever para ingestão de documentos, recuperação e invocações de LLM. Em produção, a implantação funciona em um cluster OpenShift interno e utiliza microserviços NVIDIA NIM junto com ferramentas de observabilidade de terceiros. Nosso desafio foi determinar quais componentes precisam escalar para suportar centenas de usuários em diferentes equipes da NVIDIA. Este artigo descreve as ferramentas e técnicas do NeMo Agent Toolkit usadas em cada fase de escalonamento e como elas orientaram a arquitetura e o plano de implantação. O agente de pesquisa AI-Q demonstra como uma aplicação LangGraph pode integrar ingestão de documentos, acesso a dados internos e busca na web para produzir resultados de pesquisa. O blueprint foi projetado para implantação on-premise e é construído com o NeMo Agent Toolkit, incluindo modelos de recuperação para manuseio de dados e invocações de LLM. A implantação de produção reforça observabilidade, perfilamento e escalabilidade como pilares do rollout bem-sucedido.
Principais recursos
- Sistema de avaliação e perfilamento no NeMo Agent Toolkit para coletar dados e quantificar o comportamento em cenários de uso comuns.
- Configuração de avaliação fácil de adicionar a uma aplicação, incluindo um conjunto de dados com entradas de usuário de exemplo para perfilar variabilidade e não determinismo.
- Disparadores de funções simples (wrappers) para capturar automaticamente tempo de execução e uso de tokens em partes-chave da aplicação.
- O fluxo de avaliação (eval) executa o conjunto de entradas e gera métricas, incluindo visualizações como gráfico de Gantt ou Waterfall que mostram quais funções são executadas durante uma sessão de usuário.
- Identificação de gargalos (por exemplo, chamadas ao NVIDIA Llama Nemotron Super 49B) para orientar onde escalar (por exemplo, replicação do back-end LLM com NIM).
- Métricas personalizadas e benchmark para comparar versões de código, assegurando que a qualidade do relatório permaneça alta.
- Resultados exportáveis para plataformas de visualização como Weights & Biases para acompanhar experimentos ao longo do tempo.
- Testes de carga com o NeMo Agent Toolkit sizing calculator, simulando workflows em paralelo para estimar requisitos de hardware.
- Métricas como tempo p95 para invocações de LLM e para o workflow como um todo para orientar o planejamento de capacidade.
- Observabilidade com OpenTelemetry (OTEL) e Datadog para capturar logs, dados de performance e traços de LLM, permitindo visibilidade por sessão.
- Abordagem de rollout por fases (iniciar com equipes pequenas e ampliar gradualmente) para observar desempenho, corrigir problemas e validar escalabilidade antes de uma implantação ampla.
- Arquitetura de fábrica de IA e integração com microserviços internos da NVIDIA (NIM) para suportar uma implantação de produção.
Casos de uso comuns
- O agente de pesquisa AI-Q permite que usuários façam upload de documentos, extraiam metadados e acessem fontes de dados internas, sintetizando em relatórios de pesquisa.
- Usuários podem realizar buscas na web para complementar dados internos, ajudando a gerar análises mais completas.
- Implantações on-premises permitem trabalhar com informações confidenciais mantendo controles de segurança.
- O NeMo Agent Toolkit fornece ferramentas de perfilamento, avaliação e observabilidade para melhorar desempenho e confiabilidade conforme a concorrência de usuários cresce.
- Um rollout por fases suporta adoção gradual entre equipes, possibilitando validar capacidade antes de escalar.
Configuração e instalação
O artigo enfatiza uma abordagem em três fases para escalonar, usando ferramentas do NeMo Agent Toolkit:
- Fase 1: Perfilamento e avaliação para um único usuário, para estabelecer uma linha de base de desempenho.
- Fase 2: Testes de carga com várias conexões simultâneas para prever necessidades de hardware e identificar gargalos.
- Fase 3: Implantação por fases entre equipes, com observabilidade para assegurar que o desempenho permaneça dentro das metas. A configuração envolve adicionar uma seção de avaliação (eval) na configuração da aplicação para habilitar o perfilamento, executar o fluxo de avaliação com um conjunto representativo de entradas e usar o sizing calculator do toolkit para planejar os requisitos de hardware. Os resultados de perfilamento capturam tempo de execução e uso de tokens, que podem ser reunidos em uma plataforma de visualização para análise. Ferramentas de observabilidade (OTEL com Datadog) são usadas para coletar traços e logs, incluindo insights por sessão.
Observação: o conteúdo cita essas etapas e componentes, mas não fornece sintaxe exata de comandos ou trechos de configuração no artigo.
Comandos exatos não são fornecidos no artigo de origem.
# Exemplo de espaço reservado: o artigo não fornece comandos
# de configuração exatos.
Quick start
Um exemplo mínimo executável não é fornecido como código utilizável no artigo. Em vez disso, o texto descreve um fluxo de escalonamento de uma aplicação de agente LangGraph usando o NeMo Agent Toolkit:
- Comece com uma execução de perfilamento para um único usuário adicionando uma seção de eval no config da aplicação e executando o fluxo de avaliação com um conjunto representativo de entradas.
- Use as métricas obtidas para identificar gargalos (por exemplo, invocações de LLM) e planejar a replicação de componentes críticos (como o backend LLM).
- Realize testes de carga com o calculador de dimensionamento do toolkit para estimar quantos GPUs ou réplicas são necessários para a concorrência alvo.
- Implemente com rollout por fases, monitorando traços e métricas via OTEL e Datadog para garantir desempenho ao expandir para mais usuários.
Vantagens e desvantagens
- Vantagens
- Escalonamento baseado em dados: perfilamento e testes de carga informam decisões de hardware e implantação.
- Identificação precoce de gargalos permite otimizações direcionadas (por exemplo, replicação do backend LLM).
- Observabilidade e rastreabilidade entre sessões de usuário melhoram confiabilidade e depuração.
- Rollout por fases reduz o risco ao ampliar para mais equipes.
- Implantação on-prem com arquitetura de fábrica de IA ajuda a proteger informações confidenciais.
- Desvantagens
- O artigo não lista explicitamente desvantagens; considerações implícitas incluem complexidade de configuração, integração com OpenShift e microserviços NIM, e a necessidade de profilamento antes de escalar.
Alternativas (comparações breves)
- O artigo apresenta uma abordagem de escalonamento baseada em perfilamento e teste de carga usando o NeMo Agent Toolkit. Não há documentação explícita de alternativas de implantação no texto. A abordagem foca em decisões baseadas em dados, identificação de gargalos e rollout por fases como princípios centrais para escalar agentes LangGraph em produção.
Preços ou Licença
- Detalhes de preço ou licenciamento não são explicitamente fornecidos no artigo.
Referências
More resources
CUDA Toolkit 13.0 para Jetson Thor: Ecossistema Unificado de Arm e Mais
Kit de ferramentas CUDA unificado para Arm no Jetson Thor com coerência total de memória, compartilhamento de GPU entre processos, interoperabilidade OpenRM/dmabuf, suporte NUMA e melhorias de ferramentas para embarcados e servidores.
Reduzir Custos de Implantação de Modelos Mantendo Desempenho com Swap de Memória de GPU
Utilize o swap de memória da GPU (hot-swapping de modelos) para compartilhar GPUs entre múltiplos LLMs, reduzir custos de ociosidade e melhorar o autoscaling mantendo os SLAs.
Aprimorando a auto-tunagem de GEMM com nvMatmulHeuristics no CUTLASS 4.2
Apresenta nvMatmulHeuristics para escolher rapidamente um conjunto pequeno de configurações de kernels GEMM com alto potencial para o CUTLASS 4.2, reduzindo drasticamente o tempo de tuning enquanto se aproxima do desempenho da busca exaustiva.
Fine-Tuning gpt-oss para Precisão e Desempenho com Treinamento de Quantização (QAT)
Guia de fine-tuning do gpt-oss com SFT + QAT para recuperar a precisão em FP4 mantendo a eficiência, incluindo upcasting para BF16, MXFP4, NVFP4 e implantação com TensorRT-LLM.
Como Modelos de Linguagem Pequenos são a Chave para IA Agentica Escalável
Explora como modelos de linguagem pequenos permitem IA agentica mais barata, flexível e escalável, ao lado de LLMs, com NVIDIA NeMo e Nemotron Nano 2.
Guia de Início com NVIDIA Isaac para Saúde: Fluxo de Telesurgery
Fluxo de telesurgery modular e pronto para produção do NVIDIA Isaac for Healthcare, unificando simulação e implantação clínica em uma arquitetura de baixo atraso com três máquinas. Abrange streaming de vídeo/sensores, controle de robô, haptics e simulação.