Lanza y escala agentes IA de forma segura con Amazon Bedrock AgentCore Runtime
Sources: https://aws.amazon.com/blogs/machine-learning/securely-launch-and-scale-your-agents-and-tools-on-amazon-bedrock-agentcore-runtime, aws.amazon.com
TL;DR
- AgentCore Runtime ofrece implementación independiente del marco y del modelo para agentes IA, permitiendo reutilizar código existente sin migraciones.
- Proporciona sesiones seguras en microVMs persistentes de hasta 8 horas, con un ciclo de vida en tres estados.
- El servicio admite múltiples proveedores de LLM (Bedrock, Claude, OpenAI, Gemini) y streaming para aplicaciones de chat, con memoria duradera vía AgentCore Memory.
- El aislamiento de sesión va más allá del simple aislamiento de contenedores para evitar filtraciones de datos entre sesiones.
- Las herramientas de inicio rápido y muestras de SDK ayudan a las equipes a pasar de concepto a producción más rápido.
Contexto y antecedentes
Las organizaciones están entusiasmadas con los agentes IA, pero muchos quedan atrapados en lo que llaman el “purgatorio de prueba de concepto” donde los prototipos prometedores no llegan a la producción. Los desafíos incluyen la necesidad de usar diferentes marcos y modelos para distintos casos de uso, lo que puede ralentizar la estandarización; la naturaleza estocástica de los agentes que exige una mayor seguridad entre sesiones; identidad y control de acceso para agentes que actúan en nombre de usuarios o acceden a sistemas sensibles; manejar entradas diversas y payloads grandes que superan los límites típicos sin servidor; no poder predecir los recursos de cómputo y caer en costos por sobredimensionamiento; y la necesidad de gestionar infraestructuras para cargas que pueden ser cortas o largas. Amazon Bedrock AgentCore Runtime aborda estos desafíos al ofrecer un hosting seguro y sin servidor, diseñado específicamente para agentes y herramientas de IA. A diferencia de los sistemas de hosting tradicionales, AgentCore Runtime gestiona la orquestación de contenedores, la gestión de sesiones, la escalabilidad y el aislamiento de seguridad, permitiendo a los desarrolladores centrarse en crear experiencias inteligentes en lugar de operar infraestructura. Este artículo describe cómo AgentCore Runtime atiende estas necesidades y cómo empezar. El artículo destaca un enfoque de implantación independiente del marco y el modelo. Ya sea que tu equipo use LangGraph para razonamiento complejo, CrewAI para colaboración entre múltiples agentes, o agentes personalizados creados con Strands, AgentCore Runtime puede ejecutar tu código existente sin migraciones arquitectónicas. También puedes integrar diferentes modelos de LLM de proveedores como los modelos gestionados de Bedrock, Claude, OpenAI o Gemini, asegurando portabilidad a medida que el panorama de LLM evoluciona. Esto permite a los equipos elegir el marco o el modelo más adecuado para su caso de uso, manteniendo un patrón de implementación unificado. El post también ofrece orientación práctica y muestras en GitHub que muestran cómo adaptar el código con el AgentCore SDK y desplegar con o sin el starter toolkit. Se destaca el soporte de streaming para aplicaciones de chat, con ejemplos y patrones de streaming. Un caso de seguridad importante que se cita es el aislamiento completo por microVM por sesión, que va más allá del simple aislamiento de recursos. Cada sesión recibe una microVM dedicada con recursos de cómputo, memoria y sistema de archivos aislados. Al finalizar la sesión, la microVM se termina y la memoria se purifica, reduciendo el riesgo de persistencia de datos y contaminación cruzada. Para necesidades de datos que deben perdurar más allá de una sesión, AgentCore Memory ofrece abstracciones de memoria a corto y largo plazo para mantener historiales de conversaciones, patrones aprendidos y insights entre sesiones. La documentación asociada ofrece pautas para empezar con memoria y gestión de estado duradero.
¿Qué hay de nuevo?
- Despliegue independiente del marco y del modelo: AgentCore Runtime puede ejecutar código existente sin migraciones de marco, soportando LangGraph, CrewAI, Strands y otros agentes, con proveedores de LLM variados.
- Integración multi-proveedor de LLM: despliega agentes que utilicen Bedrock, Claude, OpenAI o Gemini, manteniendo la portabilidad ante cambios en el panorama de modelos.
- Sesiones persistentes en microVM: hasta 8 horas de duración, permitiendo flujos complejos con contexto preservado entre llamadas.
- Ciclo de vida de sesión en tres estados: Active, Idle y Terminated, para gestionar recursos.
- Memoria durable con AgentCore Memory: abstracciones para conservar contexto entre sesiones.
- Streaming soportado: experiencias de chat con salidas en tiempo real.
- Starter toolkit y muestras SDK: aceleran el inicio local, con ejemplos de integración.
Por qué importa (impacto para desarrolladores/empresas)
- Reducción de complejidad de infraestructura: AgentCore Runtime gestiona orquestación de contenedores, gestiona sesiones, escalabilidad e aislamiento de seguridad.
- Preparación para producción de agentes: atiende necesidades de workloads de agentes (razonamiento con estado, aislamiento de sesiones, duración variable) para pasar de concepto a producción con más confianza.
- Mayor seguridad: aislamiento por sesión y purificación de memoria reducen riesgos de filtración de datos y exposición de credenciales.
- Flexibilidad de marco/modelo: permitir reutilizar código existente y adaptarse a modelos que evolucionan o cambian de costo.
- Mejor gestión del ciclo de vida: memoria durable facilita contextos persistentes sin depender de soluciones de estado externas complejas.
Detalles técnicos o Implementación
AgentCore Runtime introduce un paradigma de hosting sin servidor adaptado a agentes IA, con capacidades concretas descritas en la fuente:
- MicroVMs por sesión: cada sesión corre en una microVM dedicada con aislamiento; estas microVMs pueden persistir hasta 8 horas. Al finalizar la sesión, la microVM se termina y la memoria se purifica.
- Ciclo de vida de la sesión: Active (procesando solicitudes o tareas en segundo plano), Idle (listo para usar, reduciendo cold starts) y Terminated (inactividad de 15 minutos, duración máxima de 8 horas o fallo de verificación de salud).
- Datos efímeros de sesión: el contexto, las preferencias y el estado temporal se mantienen dentro de la sesión y se eliminan al término.
- Memoria durable con AgentCore Memory: abstracciones para conservar contexto y conocimientos entre sesiones.
- Despliegue sin migraciones: se puede conservar el código existente e integrar con frameworks soportados y proveedores de LLM.
- Streaming: salidas en tiempo real para agentes de chat.
- Starter toolkit y muestras SDK: aceleran el inicio y muestran patrones de integración. Este enfoque contrasta con los patrones serverless tradicionales y con contenedores genéricos que no resuelven completamente las necesidades de seguridad y estado de los agentes. El caso del Asana citado en el material ilustra la importancia de un aislamiento robusto para evitar filtraciones entre organizaciones, subrayando la relevancia de la isolación por sesión en entornos empresariales.
Visión general para comparar rápido
| Aspecto | Serverless tradicional | AgentCore Runtime (microVM por sesión) |---|---|---| | Modelo de ejecución | Funciones efímeras por invocación | Sesión dedicada en microVM con estado durante la sesión |Gestión del estado | Requiere persistencia externa | Estado gestionado dentro de la sesión |Nivel de aislamiento | Aislamiento de contenedores/procesos | Aislamiento completo por microVM por sesión |Ciclo de vida de la sesión | No estandarizado | Active, Idle, Terminated con umbrales definidos |Persistencia de datos | Persistencia vía almacenamiento externo | Datos eliminados al término; memoria durable posible con AgentCore Memory | Los enfoques de microVM por sesión, el ciclo de vida definido y las memorias durables buscan ofrecer resiliencia y seguridad para cargas de trabajo de agentes, alineadas con requisitos empresariales de protección de datos y costos predecibles. Los desarrolladores pueden usar ejemplos de código y patrones de integración con el SDK AgentCore para diversos marcos y modelos, además de herramientas de inicio rápido y demostraciones de streaming.
Puntos clave
- AgentCore Runtime acorta el paso del concepto a la producción para agentes IA al reducir la infraestructura necesaria.
- Enfoque independiente de marco/modelo permite reutilizar código existente y adaptarse a cambios en modelos.
- Las microVMs por sesión permiten flujos de trabajo complejos con contexto preservado.
- El aislamiento de sesión y la memoria durable satisfacen requisitos de seguridad y cumplimiento empresariales.
- Las herramientas de inicio rápido facilitan empezar rápido, con streaming para experiencias de chat.
Preguntas Frecuentes
-
¿Qué es AgentCore Runtime?
AgentCore Runtime es un entorno seguro de hosting sin servidor diseñado para agentes y herramientas de IA. Gestiona microVMs por sesión, ciclo de vida de sesión, escalabilidad e aislamiento de seguridad, permitiendo workloads con estado y simplificando la gestión de infraestructura.
-
¿Cómo funciona el aislamiento de sesiones?
Cada sesión recibe una microVM dedicada con recursos aislados (computación, memoria y sistema de archivos). Los datos permanecen dentro de la sesión y la memoria se purifica al terminar. Las sesiones pasan por Active, Idle y Terminated según actividad y verificaciones.
-
¿Qué modelos/proveedores son compatibles?
Soporta Bedrock (modelos gestionados), Claude, OpenAI y Gemini, con una implantación independiente del marco para conservar el código existente.
-
¿Qué hay de la memoria entre sesiones?
AgentCore Memory ofrece memoria de corto y largo plazo para conservar contexto entre sesiones.
-
¿Cómo comenzar con AgentCore Runtime?
Use el AgentCore Starter toolkit para desarrollo local y el SDK AgentCore con ejemplos como langgraph_agent_web_search.py y strands_openai_identity.py para adaptar su código y desplegar agentes. El artículo también menciona un recorrido en video y documentación para memoria y capacidades relacionadas.
Referencias
More news
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Monitorear la inferencia por lotes de Bedrock de AWS con métricas de CloudWatch
Descubra cómo monitorear y optimizar trabajos de inferencia por lotes de Bedrock con métricas, alarmas y paneles de CloudWatch para mejorar rendimiento, costos y operación.
Solicitando precisión con Stability AI Image Services en Amazon Bedrock
Bedrock incorpora Stability AI Image Services con nueve herramientas para crear y editar imágenes con mayor precisión. Descubre técnicas de prompting para uso empresarial.
Escala la producción visual con Stability AI Image Services en Amazon Bedrock
Stability AI Image Services ya está disponible en Amazon Bedrock, ofreciendo capacidades de edición de imágenes listas para usar a través de la API de Bedrock y ampliando los modelos Stable Diffusion 3.5 y Stable Image Core/Ultra ya presentes.
Usar AWS Deep Learning Containers con Amazon SageMaker AI MLflow gestionado
Vea cómo los AWS Deep Learning Containers (DLCs) se integran con SageMaker AI gestionado por MLflow para equilibrar el control de la infraestructura y una gobernanza de ML sólida. Un flujo de TensorFlow para predicción de edad de abalones ilustra el seguimiento de extremo a extremo y la trazabilidad