Cómo Escalar tus Agentes LangGraph en Producción de un Solo Usuario a 1,000 Compañeros

Visión general

Has construido un potente agente de IA y estás listo para compartirlo con tus colegas, pero te preguntas si funcionará a medida que se unan más usuarios. Este artículo describe un enfoque en tres etapas para desplegar y escalar una aplicación de agente LangGraph utilizando NeMo Agent Toolkit, con una configuración de producción basada en un blueprint de NVIDIA on-prem y la arquitectura de referencia de una fábrica de IA. El agente de investigación IA-Q utilizado como ejemplo permite a los usuarios subir documentos y extraer metadatos, acceder a fuentes de datos internas y realizar búsquedas en la web para crear informes de investigación. El blueprint para esta aplicación de investigación profunda es de código abierto e implementado con NeMo Agent Toolkit, utilizando modelos NVIDIA NeMo Retriever para ingestión de documentos, recuperación e invocaciones de LLM. En producción, el despliegue se ejecuta en un clúster OpenShift interno y utiliza microservicios NVIDIA NIM junto con herramientas de observabilidad de terceros. Nuestro desafío fue determinar qué partes del sistema necesitaban escalar para apoyar a cientos de usuarios en diferentes equipos de NVIDIA. Este artículo describe las herramientas y técnicas del NeMo Agent Toolkit utilizadas en cada fase y cómo informaron la arquitectura y el plan de despliegue. El agente de investigación IA-Q demuestra cómo una aplicación LangGraph puede integrar ingestión de documentos, acceso a fuentes internas y búsqueda en la web para producir resultados de investigación. El blueprint está diseñado para despliegue on-premise y se construye con NeMo Agent Toolkit, incluyendo modelos de recuperación para manejo de datos e invocaciones de LLM. El despliegue de producción hace hincapié en observabilidad, perfilado y escalabilidad como pilares de un rollout exitoso.

Características clave

Sistema de evaluación y perfilado integrado en el NeMo Agent Toolkit para recoger datos y cuantificar el comportamiento en escenarios de uso comunes.
Sección de evaluación fácil de añadir a la configuración de la aplicación, con un conjunto de datos de entradas de ejemplo para capturar variabilidad y no determinismo.
Wrappers de funciones y decoradores simples para capturar automáticamente el tiempo de ejecución y el uso de tokens en partes clave de la aplicación.
El flujo de evaluación (eval) se ejecuta sobre el conjunto de entradas y genera métricas, incluidas visualizaciones como gráficos de Gantt o Waterfall que muestran qué funciones se ejecutan durante una sesión de usuario.
Identificación de cuellos de botella (por ejemplo, llamadas al NVIDIA Llama Nemotron Super 49B para razonamiento LLM) para guiar dónde escalar (por ejemplo, replicar el backend LLM con NIM).
Métricas personalizadas y benchmarks para comparar versiones del código sin comprometer la calidad del informe.
Resultados exportables a plataformas de visualización como Weights & Biases para rastrear experimentos a lo largo del tiempo.
Pruebas de carga con el NeMo Agent Toolkit sizing calculator, simulando flujos de trabajo en paralelo para estimar requerimientos de hardware.
Métricas como el tiempo p95 para invocaciones LLM y para el flujo de trabajo en su conjunto para informar la planificación de capacidad.
Observabilidad con OpenTelemetry (OTEL) y Datadog para capturar logs, datos de rendimiento y trazas de LLM, permitiendo visibilidad por sesión.
Enfoque de despliegue por fases (empezar con equipos pequeños y ampliar gradualmente) para observar el rendimiento, corregir problemas y validar la escalabilidad antes de un despliegue amplio.
Arquitectura de fábrica de IA e integración con microservicios internos de NVIDIA (NIM) para soportar un despliegue de producción.

Casos de uso comunes

El agente de investigación IA-Q permite a los usuarios subir documentos, extraer metadatos y acceder a fuentes internas, para luego sintetizar resultados en informes de investigación.
Los usuarios pueden realizar búsquedas en la web para complementar datos internos, ayudando a generar análisis más completos.
Los despliegues on-prem permiten trabajar con información confidencial manteniendo controles de seguridad y acceso.
El NeMo Agent Toolkit proporciona herramientas de perfilado, evaluación y observabilidad para mejorar el rendimiento y la confiabilidad a medida que la concurrencia de usuarios crece.
Un rollout por fases facilita la adopción gradual entre equipos, permitiendo validar la capacidad antes de escalar.

Configuración e instalación

El artículo enfatiza un enfoque en tres fases para escalar una aplicación de agente LangGraph usando las herramientas de NeMo Agent Toolkit:

Fase 1: Perfilado y evaluación para un único usuario para establecer una línea base de rendimiento.
Fase 2: Pruebas de carga con múltiples usuarios simultáneos para prever necesidades de hardware e identificar cuellos de botella.
Fase 3: Despliegue por fases entre equipos, con observabilidad para asegurar que el rendimiento se mantenga dentro de los objetivos. La configuración implica añadir una sección de evaluación (eval) en el archivo de configuración de la aplicación para habilitar el perfilado, ejecutar el flujo de evaluación sobre un juego representativo de entradas y usar el calculador de dimensionamiento del toolkit para planificar los requerimientos de hardware. Los resultados de perfilado capturan tiempos de ejecución y uso de tokens, y pueden exportarse a plataformas de visualización para análisis. La observabilidad se gestiona con OTEL y Datadog para capturar trazas y logs, incluyendo insights por sesión.

Nota: El texto describe estas etapas y componentes, pero no proporciona sintaxis exacta de comandos o fragmentos de configuración en el artículo.

Los comandos exactos no se proporcionan en el artículo fuente.

# Ejemplo ficticio: el artículo no ofrece comandos reales.

Inicio rápido

Un ejemplo mínimo ejecutable no se ofrece como código funcional en el artículo. En su lugar, el texto describe un flujo de trabajo para escalar una aplicación de agente LangGraph con NeMo Agent Toolkit:

Comience con una ejecución de perfilado para un solo usuario añadiendo una sección de eval en la configuración y ejecutando el flujo de evaluación sobre un conjunto representativo de entradas.
Use las métricas obtenidas para identificar cuellos de botella (p. ej., invocaciones LLM) y planificar la réplica de componentes críticos (como el backend LLM).
Realice pruebas de carga con el calculador de dimensionamiento del toolkit para estimar cuántas GPUs o réplicas son necesarias para la concurrencia objetivo.
Despliegue con un rollout por fases, monitoreando trazas y métricas mediante OTEL y Datadog para garantizar el rendimiento al ampliar a más usuarios.

Ventajas y desventajas

Ventajas
Escalado basado en datos: perfilado y pruebas de carga guían decisiones de hardware y despliegue.
Detección temprana de cuellos de botella que permiten optimizaciones dirigidas (por ejemplo, replicación del backend LLM).
Observabilidad y trazabilidad a través de las sesiones de usuario mejoran la fiabilidad y el depurado.
El rollout por fases reduce el riesgo al ampliar a más equipos.
Despliegue on-prem con una arquitectura de fábrica de IA ayuda a proteger información sensible.
Desventajas
El artículo no lista explícitamente desventajas; se infieren consideraciones de complejidad de configuración, integración con OpenShift y NIM, y la necesidad de perfilado previo a la escalación.

Alternativas (comparaciones breves)

El artículo presenta un enfoque de escalado basado en perfilado y pruebas de carga con el NeMo Agent Toolkit. No hay descripciones explícitas de alternativas de implementación en el texto. El enfoque se centra en decisiones basadas en datos, identificación de cuellos y rollout por fases como principios para escalar agentes LangGraph en producción.