Construir Flujos de Trabajo Agenticos con GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore
Sources: https://aws.amazon.com/blogs/machine-learning/build-agentic-workflows-with-openai-gpt-oss-on-amazon-sagemaker-ai-and-amazon-bedrock-agentcore, https://aws.amazon.com/blogs/machine-learning/build-agentic-workflows-with-openai-gpt-oss-on-amazon-sagemaker-ai-and-amazon-bedrock-agentcore/, AWS ML Blog
TL;DR
- OpenAI lanzó dos modelos de peso abierto, gpt-oss-120b (117B parámetros) y gpt-oss-20b (21B parámetros), ambos con una ventana de contexto de 128K y un diseño MoE disperso.
- El artículo demuestra desplegar gpt-oss-20b en endpoints gestionados de SageMaker AI utilizando un contenedor vLLM, y orquestar un analizador de acciones multiagente con LangGraph, para luego desplegar en Amazon Bedrock AgentCore Runtime.
- Una arquitectura de tres agentes (Data Gathering Agent, Stock Performance Analyzer Agent, Stock Report Generation Agent) opera dentro de Bedrock AgentCore, mientras que GPT-OSS maneja la comprensión y generación de lenguaje a través de SageMaker AI.
- La cuantización de 4 bits (MXFP4) reduce los pesos a 63 GB (120B) o 14 GB (20B), permitiendo ejecutar en una única GPU H100, con opciones de implementación que incluyen BYOC (bring-your-own-container) y hosting totalmente gestionado por SageMaker AI.
- La solución enfatiza sistemas agenticos serverless, modulares y escalables con memoria persistente y orquestación de flujos de trabajo, además de pasos claros para implementación, invocación y limpieza. Consulte el blog de AWS para más detalles. Este artículo se basa en el enfoque descrito por AWS y OpenAI en documentación y demostraciones para construir flujos agenticos con GPT OSS en SageMaker AI y Bedrock AgentCore. AWS blog
More news
NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado
El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.
Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore
Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.
Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia
Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo
Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.
Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares
Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.