Construir Fluxos de Trabalho Agenticos com GPT OSS da OpenAI no SageMaker AI e no Bedrock AgentCore

TL;DR

A OpenAI lançou dois modelos de peso aberto, gpt-oss-120b (117B parâmetros) e gpt-oss-20b (21B parâmetros), ambos com janela de contexto de 128K e design MoE esparso.
O post mostra a implantação do gpt-oss-20b em endpoints gerenciados do SageMaker AI usando um contêiner vLLM e a orquestração de um analisador de ações com LangGraph, seguido da implantação no Amazon Bedrock AgentCore Runtime.
Uma arquitetura de três agentes (Data Gathering Agent, Stock Performance Analyzer Agent e Stock Report Generation Agent) opera no Bedrock AgentCore, enquanto o GPT-OSS lida com compreensão e geração de linguagem via SageMaker AI.
A quantização de 4 bits (MXFP4) reduz os pesos para 63 GB (120B) ou 14 GB (20B), permitindo uso em GPUs H100 únicas, com opções de implantação incluindo BYOC (bring-your-own-container) e hospedagem totalmente gerenciada pelo SageMaker AI.
A solução enfatiza sistemas agentics serverless, modulares e escaláveis com memória persistente e orquestração de fluxos de trabalho, além de etapas claras para implantação, invocação e limpeza. Consulte o blog da AWS para detalhes. Este artigo baseia-se na abordagem descrita pela AWS e pela OpenAI em documentação e demonstrações sobre a construção de fluxos agentic com GPT OSS no SageMaker AI e no Bedrock AgentCore. AWS blog

More news

Sep 19, 2025 developer.nvidia.com

NVIDIA HGX B200 reduz a Intensidade de Emissões de Carbono Incorporado

O HGX B200 da NVIDIA reduz 24% da intensidade de carbono incorporado em relação ao HGX H100, ao mesmo tempo em que aumenta o desempenho de IA e a eficiência energética. Esta análise resume os dados de PCF e as novidades de hardware.

Nvidia Transformers GPU

Sep 19, 2025 aws.amazon.com

Levar agentes de IA do conceito à produção com Amazon Bedrock AgentCore

Análise detalhada de como o Amazon Bedrock AgentCore ajuda a transformar aplicações de IA baseadas em agentes de conceito em sistemas de produção de nível empresarial, mantendo memória, segurança, observabilidade e gerenciamento de ferramentas escalável.

Amazon

Sep 19, 2025 huggingface.co

Scaleway Como Novo Fornecedor de Inferência no Hugging Face para Inferência serverless de Baixa Latência

A Scaleway é agora um Fornecedor de Inferência compatível no Hugging Face Hub, permitindo inferência serverless diretamente nas páginas de modelo com as SDKs JS e Python. Acesse modelos abertos populares com operações escaláveis e baixa latência.

Hugging Face Open Source

Sep 18, 2025 developer.nvidia.com

Playbook dos Grandmasters do Kaggle: 7 Técnicas de Modelagem Testadas para Dados Tabulares

Análise detalhada de sete técnicas testadas por Grandmasters do Kaggle para resolver grandes conjuntos de dados tabulares com aceleração por GPU, desde baselines diversificados até ensemble avançado e pseudo-rotulagem.

Nvidia GPU

Sep 18, 2025 developer.nvidia.com

Como reduzir gargalos do KV Cache com NVIDIA Dynamo

O Dynamo da NVIDIA transfere o KV Cache da memória da GPU para armazenamento de custo mais baixo, permitindo janelas de contexto maiores, maior concorrência e menor custo de inferência em grandes modelos.

Nvidia LLM GPU

Microsoft’s Fairwater AI data center in Wisconsin.

Sep 18, 2025 theverge.com

Microsoft transforma site da Foxconn no data center Fairwater AI, considerado o mais poderoso do mundo

A Microsoft divulga planos para um data center Fairwater AI de 1,2 milhão de pés quadrados no Wisconsin, com centenas de milhares de GPUs Nvidia GB200. projeto de US$ 3,3 bilhões promete treinamento de IA em escala sem precedentes.

Theverge GPU Data Centers