Construir Flujos de Trabajo Agenticos con GPT OSS de OpenAI en SageMaker AI y Bedrock AgentCore

TL;DR

OpenAI lanzó dos modelos de peso abierto, gpt-oss-120b (117B parámetros) y gpt-oss-20b (21B parámetros), ambos con una ventana de contexto de 128K y un diseño MoE disperso.
El artículo demuestra desplegar gpt-oss-20b en endpoints gestionados de SageMaker AI utilizando un contenedor vLLM, y orquestar un analizador de acciones multiagente con LangGraph, para luego desplegar en Amazon Bedrock AgentCore Runtime.
Una arquitectura de tres agentes (Data Gathering Agent, Stock Performance Analyzer Agent, Stock Report Generation Agent) opera dentro de Bedrock AgentCore, mientras que GPT-OSS maneja la comprensión y generación de lenguaje a través de SageMaker AI.
La cuantización de 4 bits (MXFP4) reduce los pesos a 63 GB (120B) o 14 GB (20B), permitiendo ejecutar en una única GPU H100, con opciones de implementación que incluyen BYOC (bring-your-own-container) y hosting totalmente gestionado por SageMaker AI.
La solución enfatiza sistemas agenticos serverless, modulares y escalables con memoria persistente y orquestación de flujos de trabajo, además de pasos claros para implementación, invocación y limpieza. Consulte el blog de AWS para más detalles. Este artículo se basa en el enfoque descrito por AWS y OpenAI en documentación y demostraciones para construir flujos agenticos con GPT OSS en SageMaker AI y Bedrock AgentCore. AWS blog

More news

19 sept 2025 developer.nvidia.com

NVIDIA HGX B200 reduce la intensidad de las emisiones de carbono incorporado

El HGX B200 de NVIDIA reduce la intensidad de carbono incorporado en un 24% frente al HGX H100, al tiempo que ofrece mayor rendimiento de IA y eficiencia energética. Este artículo resume los datos PCF y las novedades de hardware.

Nvidia Transformers GPU

19 sept 2025 aws.amazon.com

Llevar agentes de IA de concepto a producción con Amazon Bedrock AgentCore

Análisis detallado de cómo Amazon Bedrock AgentCore facilita la transición de aplicaciones de IA basadas en agentes desde un concepto de prueba hasta sistemas de producción empresariales, conservando memoria, seguridad, observabilidad y gestión escalable de herramientas.

Amazon

19 sept 2025 huggingface.co

Scaleway se une a los Proveedores de Inferencia de Hugging Face para Inferencia Serverless y de Baja Latencia

Scaleway es ahora un Proveedor de Inferencia soportado en Hugging Face Hub, lo que permite inferencia serverless directamente en las páginas de modelos con los SDK de JS y Python. Accede a modelos open-weight populares y disfruta de flujos de IA escalables y de baja latencia.

Hugging Face Open Source

18 sept 2025 developer.nvidia.com

Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo

NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.

Nvidia LLM GPU

Microsoft’s Fairwater AI data center in Wisconsin.

18 sept 2025 theverge.com

Microsoft transforma el sitio de Foxconn en el data center Fairwater AI, descrito como el más poderoso del mundo

Microsoft anuncia planes para un data center Fairwater AI de 1,2 millones de pies cuadrados en Wisconsin, con cientos de miles de GPU Nvidia GB200. El proyecto de 3.3 mil millones de dólares promete un entrenamiento de IA sin precedentes.

Theverge GPU Data Centers

18 sept 2025 developer.nvidia.com

Manual de los Grandmasters de Kaggle: 7 Técnicas de Modelado para Datos Tabulares

Un análisis detallado de siete técnicas probadas por los Grandmasters de Kaggle para resolver rápidamente conjuntos de datos tabulares mediante aceleración por GPU, desde baselines variados hasta ensamblaje y pseudo-etiquetado.

Nvidia GPU