Escalando los agentes LangGraph en producción: de un usuario a 1,000 colegas

TL;DR

NVIDIA escaló un agente LangGraph (IA-Q) de un solo usuario a cientos de usuarios, usando NeMo Agent Toolkit y una pila de producción en OpenShift.
El enfoque comenzó con evaluación y perfilado para cuantificar comportamiento, tiempos y uso de tokens, guiando la identificación de cuellos de botella y decisiones de hardware.
Las pruebas de carga con la calculadora de dimensionamiento exploraron 10–50 usuarios simultáneos, permitiendo prever hardware y planificar la réplica.
Observabilidad y despliegue por fases, mediante OTEL y Datadog, proporcionaron trazas, logs y visibilidad del rendimiento por sesión.

Contexto y antecedentes

Has construido un potente agente de IA y estás listo para compartirlo con tus colegas, pero hay una gran duda: ¿funcionará cuando 10, 100 o 1.000 colegas lo utilicen al mismo tiempo? Esta pregunta es clave para llevar un agente de IA a producción. NVIDIA enfrentó este reto durante la implementación interna de un agente de investigación profundo, construido con LangGraph y utilizando el NVIDIA Blueprint AI‑Q. El blueprint es de código abierto y está diseñado para despliegue on-premise, sirviendo como punto de partida para la implementación en producción de un asistente de investigación. El agente AI‑Q admite la carga de documentos con extracción de metadatos, acceso a fuentes internas y búsquedas en la web para generar informes de investigación. El blueprint se implementa con el NeMo Agent Toolkit y utiliza modelos NVIDIA NeMo Retriever para la ingestión de documentos, recuperación y llamadas a LLMs. Nuestro entorno de producción opera en un clúster OpenShift interno, siguiendo una arquitectura de fábrica AI, con acceso a microservicios NVIDIA NIM desplegados localmente y herramientas de observabilidad de terceros. El desafío central fue entender qué partes del sistema necesitaban escalar para soportar cientos de usuarios en equipos NVIDIA distintos. Abordamos esto con un enfoque de tres etapas, aplicando las herramientas del NeMo Agent Toolkit en cada fase. No existe una regla universal como “un GPU por cada 100 usuarios”; cada aplicación basada en agentes tiene su propio comportamiento. El primer paso es entender cómo se comporta la aplicación para un usuario y cuantificar ese comportamiento mediante evaluación y perfilado. El NeMo Agent Toolkit ofrece un sistema de evaluación y perfilado que facilita la recopilación de datos y la comprensión cuantitativa del comportamiento de la aplicación. Para usar la evaluación, agregamos una sección de eval en el archivo de configuración de la aplicación, incluyendo un conjunto de datos con entradas de usuario de ejemplo. Las aplicaciones agenticas no son deterministas, por lo que es útil perfilar diversas entradas para entender el rendimiento ante una variedad de usos plausibles. La aplicación AI‑Q es una aplicación LangGraph que usa los wrappers de NeMo Agent Toolkit, lo que permite al perfilador capturar automáticamente tiempos y uso de tokens en las distintas partes de la aplicación. También podemos marcar subpasos dentro de la aplicación añadiendo decoradores simples a las funciones de interés. El flujo de evaluación ejecuta el workflow sobre el conjunto de datos y calcula métricas útiles. Un aporte es un gráfico de Gantt (o Waterfall) que muestra qué funciones se ejecutan durante cada parte de una sesión de usuario, ayudando a identificar posibles cuellos de botella. En AI‑Q, el cuello de botella principal eran las llamadas al LLM NVIDIA Llama Nemotron Super 49B, lo que nos permitió centrarnos en replicar y escalar la implementación de NIM para ese LLM. Además de capturar tiempos y uso de tokens, la herramienta de evaluación puede calcular métricas específicas del caso. Registramos métricas relevantes para nuestro caso de uso de investigación avanzada y utilizamos las capacidades de perfilado para comparar diferentes versiones del código, asegurando que las optimizaciones no afectaran la calidad de los informes. Las métricas pueden exportarse a plataformas como Weights and Biases para rastrear y visualizar experimentos a lo largo del tiempo. Esta combinación de perfilado, evaluación y observabilidad nos dio la certeza necesaria para entender el rendimiento de un solo usuario y prepararnos para la prueba de carga multiusuario. Para avanzar hacia multiusuario, utilizamos el colector OpenTelemetry (OTEL) junto con Datadog para capturar logs, datos de rendimiento y trazas de LLM. El coletor OTEL permite ver trazas específicas de sesiones individuales, y la agregación de trazas ayuda a entender el rendimiento de la aplicación y el comportamiento del LLM a lo largo de las sesiones. Esta observabilidad fue clave para describir con confianza una versión interna del NVIDIA Blueprint AI‑Q y construir un agente de investigación con confianza. Source

¿Qué hay de nuevo?

El enfoque en tres etapas resultó en un plan de despliegue escalable basado en datos, no en intuiciones. Los hitos clave incluyen:

Entender el flujo para un usuario único mediante evaluación para cuantificar tiempo, uso de tokens y subpasos. El profiler del NeMo Agent Toolkit captura tiempos y tokens dentro de los wrappers de LangGraph; los decoradores simples permiten medir subpasos.
Identificar cuellos de botella, principalmente las invocaciones al LLM NVIDIA Llama Nemotron Super 49B, lo que guío a la réplica y escalabilidad del NIM para manejar esa carga de LLM.
Pruebas de carga con niveles de concurrencia de 10, 20, 30, 40 y 50 usuarios, usando el NeMo Agent Toolkit sizing calculator para simular flujos paralelos y registrar métricas como el p95 de invocaciones al LLM y del flujo en su conjunto.
Usar el calculador de dimensionamiento para estimar necesidades de hardware y extrapolar GPUs requeridos para mayor concurrencia. Partiendo de un solo GPU, se concluyó que aproximadamente 10 usuarios simultáneos caben por GPU, lo que sugiere cerca de 10 GPUs para 100 usuarios simultáneos.
Detección y corrección de fallos durante las pruebas: se detectó un problema de configuración de CPU en un microservicio NIM y se añadieron reintentos y manejo de errores para evitar fallos ante timeouts de LLM.
Despliegue por fases: inicio con equipos pequeños y expansión gradual, con observación de desempeño para garantizar operación estable durante la escalada.
Observabilidad: uso del colector OTEL junto con Datadog para capturar trazas, logs y datos de rendimiento, permitiendo ver el rendimiento por sesión y agregar datos de rendimiento entre sesiones. Estas prácticas demostraron que la adopción de NeMo Agent Toolkit y herramientas asociadas puede facilitar la escalada de aplicaciones basadas en agentes, manteniendo la calidad del informe y la experiencia del usuario. El enfoque está alineado con la arquitectura de referencia AI factory de NVIDIA y el blueprint de investigación en sitio para aplicaciones de investigación profunda.

Por qué es importante (impacto para desarrolladores/empresas)

Para desarrolladores y empresas que entregan aplicaciones basadas en agentes avanzados, el enfoque de NVIDIA ilustra cómo reducir riesgos al pasar de prototipo a producción. Puntos clave:

No existe una regla universal para escalar agentes; una estrategia basada en datos, iniciando con una evaluación de un solo usuario, guía una planificación realista de capacidad para múltiples usuarios.
Un flujo de evaluación y perfil bien definido ayuda a detectar cuellos de botella tempranamente, permitiendo ampliar únicamente los componentes más exigentes (p. ej., llamadas al LLM) para sostener la demanda de concurrencia.
Herramientas de dimensionamiento que simulan flujos paralelos y extraen métricas de latencia ofrecen una guía práctica para inversiones en hardware y diseño de topologías de despliegue, evitando sobre o subdimensionamiento.
La observabilidad es esencial: trazas de extremo a extremo, logs y datos de rendimiento permiten entender el comportamiento de la aplicación y la dinámica del LLM bajo carga, facilitando degradación gradual y respuesta rápida a incidentes.
Despliegues en fases con monitoreo continuo minimizan riesgos y permiten validar el rendimiento a escala antes de una adopción general. Adoptando estas prácticas y aprovechando herramientas abiertas como NeMo Agent Toolkit y el blueprint de NVIDIA, las organizaciones pueden dimensionar aplicaciones basadas en agentes de forma rigurosa mientras conservan la calidad de los informes y la experiencia del usuario.

Detalles técnicos o Implementación

La implementación práctica siguió un patrón reproducible, basado en el NeMo Agent Toolkit y el blueprint de investigación avanzada de NVIDIA. Los pasos incluyeron:

Establecer una línea de base con evaluación: añadir una sección de evaluación en el archivo de configuración, proveer un conjunto de datos con entradas de usuarios representativas y ejecutar la evaluación para capturar tiempos, uso de tokens y métricas de subpasos. El profiler captura tiempos y tokens en los wrappers; los decoradores permiten medir subpasos.
Visualizar e interpretar resultados: un gráfico de Gantt/Waterfall muestra qué funciones están en ejecución durante una sesión, ayudando a identificar cuellos de botella ante mayor concurrencia.
Identificar cuellos de botella: en AI‑Q, el cuello de botella principal eran las llamadas al LLM NVIDIA Llama Nemotron Super 49B, lo que orientó la replicación y escalabilidad del NIM para soportar ese consumo de LLM.
Extender a pruebas multiusuario: el NeMo Agent Toolkit sizing calculator ejecuta flujos simulados en paralelo a diferentes niveles de concurrencia (10, 20, 30, 40, 50). Registra el p95 de invocaciones al LLM y del flujo global, facilitando el dimensionamiento y la proyección de rendimiento.
Extrapolar necesidades de hardware: partiendo de un máximo de 10 usuarios por GPU, se estimó la necesidad de aproximadamente 10 GPUs para 100 usuarios, orientando la réplica y el diseño de la infraestructura.
Resolver problemas detectados durante pruebas: una configuración errónea en el Helm Chart provocó una asignación de CPU insuficiente para un microservicio NIM; se añadieron reintentos y manejo de errores más robusto para evitar fallas ante timeouts de LLM.
Observabilidad y monitoreo: OTEL y Datadog capturan trazas por sesión y datos de rendimiento agregados, proporcionando visibilidad de desempeño de la aplicación y del comportamiento del LLM durante la escalada.
Despliegue por fases y observación: tras validar el rendimiento en equipos pequeños, la implantación avanzó en fases con vigilancia de las tendencias de latencia y del recuento de sesiones para garantizar operación estable al escalar. Estas prácticas demuestran cómo una implementación de producción puede planificarse, probarse y dimensionarse con NeMo Agent Toolkit y herramientas asociadas, manteniendo el enfoque en la calidad de los informes y la experiencia del usuario. El enfoque se alinea con la arquitectura de referencia AI factory de NVIDIA y el blueprint on‑premise para aplicaciones de investigación.

Conclusiones clave

Comienza con una evaluación detallada de un solo usuario para cuantificar tiempo, uso de tokens y subpasos.
Emplea perfilado y una vista tipo Gantt para detectar cuellos de botella temprano, enfocándote en invocaciones de LLM al escalar agentes LangGraph.
Usa una herramienta de dimensionamiento de carga para simular concurrencia real y prever necesidades de hardware antes del despliegue completo.
Planifica el crecimiento de hardware en fases, con réplicas y observabilidad para validar el rendimiento a cada etapa.
Implementa manejo de errores robusto y reintentos para evitar caídas cuando el LLM falla por timeouts.
Aprovecha OpenTelemetry y Datadog para obtener visibilidad de extremo a extremo y monitorear tanto el rendimiento de la aplicación como el comportamiento del LLM.

Preguntas frecuentes (FAQ)

P: ¿Qué herramientas fueron centrales en el esfuerzo de escalamiento? R: El NeMo Agent Toolkit para evaluación, perfilado y pruebas de carga, complementado por el NVIDIA blueprint para despliegue on-premise y OTEL con Datadog para observabilidad. NVIDIA Dev Blog
P: ¿Cuál fue el cuello de botella principal en AI‑Q? R: Las invocaciones al LLM NVIDIA Llama Nemotron Super 49B; esto guió la replicación y escalabilidad del NIM para soportar esa carga de LLM. NVIDIA Dev Blog
P: ¿Cómo se estimaron las necesidades de hardware para mayor concurrencia? R: Se usó el sizing calculator para simular flujos en presencia de 10, 20, 30, 40 y 50 usuarios y se extrapoló la demanda de GPUs basada en métricas de latencia p95. NVIDIA Dev Blog
P: ¿Cómo se implementó la observabilidad durante el despliegue? R: OTEL con Datadog captura trazas por sesión y datos de rendimiento agregados, permitiendo ver el rendimiento y el comportamiento del LLM durante la escalada. NVIDIA Dev Blog
P: ¿Qué resultado práctico surgió de las pruebas de carga? R: Se identificaron y corrigieron problemas de configuración y timeouts, con mejoras en la asignación de CPU y manejo de errores para degradación suave ante fallos de LLM. NVIDIA Dev Blog

Referencias

NVIDIA Dev Blog: How to Scale Your LangGraph Agents in Production From A Single User to 1,000 Coworkers — https://developer.nvidia.com/blog/how-to-scale-your-langgraph-agents-in-production-from-a-single-user-to-1000-coworkers/

Escalando los agentes LangGraph en producción: de un usuario a 1,000 colegas

TL;DR

Contexto y antecedentes

¿Qué hay de nuevo?

Por qué es importante (impacto para desarrolladores/empresas)

Detalles técnicos o Implementación

Conclusiones clave

Preguntas frecuentes (FAQ)

Referencias

More news

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

Predecir Eventos Climáticos Extremos en Minutos sin Supercomputadora: Huge Ensembles (HENS)

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

NVIDIA RAPIDS 25.08 Agrega Nuevo profiler para cuML, Mejoras en el motor GPU de Polars y Soporte Ampliado de Algoritmos

Decodificación especulativa para reducir la latencia en la inferencia de IA: EAGLE-3, MTP y enfoques Draft-Target