Créer des flux de travail agentiques avec GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore

TL;DR

OpenAI a publié deux modèles à poids ouvert, gpt-oss-120b (117B paramètres) et gpt-oss-20b (21B paramètres), tous deux dotés d’une fenêtre de contexte de 128K et d’une architecture MoE creuse.
L’article montre le déploiement de gpt-oss-20b sur des endpoints gérés par SageMaker AI via un conteneur vLLM, puis l’orchestration d’un analyseur d’actions multi-agents avec LangGraph, et le déploiement sur Amazon Bedrock AgentCore Runtime.
Une architecture à trois agents (Data Gathering Agent, Stock Performance Analyzer Agent, Stock Report Generation Agent) fonctionne dans Bedrock AgentCore, tandis que GPT-OSS gère la compréhension et la génération via SageMaker AI.
La quantification 4 bits (MXFP4) réduit les poids à 63 Go (120B) ou 14 Go (20B), permettant l’exécution sur un seul GPU H100, avec des options de déploiement incluant BYOC (bring-your-own-container) et un hébergement entièrement géré par SageMaker AI.
La solution privilégie des systèmes agentiques sans serveur, modulaires et évolutifs avec mémoire persistante et orchestration des flux de travail, ainsi que des étapes claires pour le déploiement, l’invocation et le nettoyage. Reportez-vous au blog AWS pour les détails. Cet article s’appuie sur l’approche décrite par AWS et OpenAI dans leurs documents et démonstrations sur la construction de flux agentiques avec GPT OSS sur SageMaker AI et Bedrock AgentCore. AWS blog

More news

19 sept. 2025 developer.nvidia.com

NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé

Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.

Nvidia Transformers GPU

19 sept. 2025 aws.amazon.com

Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore

Une exploration détaillée de la façon dont Amazon Bedrock AgentCore aide à faire passer des applications IA basées sur des agents du proof of concept à des systèmes de production de niveau entreprise, en préservant mémoire, sécurité, observabilité et gestion d’outils à l’échelle.

Amazon

19 sept. 2025 huggingface.co

Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence

Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.

Hugging Face Inference Open Source

19 sept. 2025 developer.nvidia.com

Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)

NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.

Nvidia Open Source

18 sept. 2025 developer.nvidia.com

Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo

NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.

Nvidia LLM GPU

18 sept. 2025 developer.nvidia.com

Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires

Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.

Nvidia GPU