Amazon SageMaker HyperPod amplia infraestrutura de ML com escalabilidade e personalização
TL;DR
- O SageMaker HyperPod passa a oferecer provisionamento contínuo para iniciar treinamentos e deploy com a capacidade disponível, enquanto a provisão restante ocorre em segundo plano. AWS
- Também foi introduzida a funcionalidade de AMI personalizado para ambientes corporativos com segurança e software específicos. AWS
- O HyperPod continua suportando o Amazon EKS e mantém clusters persistentes com resiliência, além de permitir SSH nas instâncias EC2 subjacentes. AWS
- A combinação de provisionamento contínuo e AMIs personalizados ajuda equipes a acelerar a inovação em IA mantendo políticas e padrões organizacionais. AWS
Contexto e antecedentes
O SageMaker HyperPod é uma infraestrutura criada para otimizar o treinamento e a inferência de modelos de base (FM) em escala. Ao eliminar parte do trabalho pesado de construir e otimizar a infraestrutura de ML, o HyperPod pode reduzir o tempo de treinamento em até 40% e oferecer clusters persistentes com resiliência embutida. Além disso, oferece controle profundo da infraestrutura, permitindo SSH nas instâncias EC2 subjacentes. Esse arranjo facilita o dimensionamento de tarefas de desenvolvimento e implantação de modelos em clusters com centenas ou milhares de aceleradores de IA, reduzindo, ao mesmo tempo, o esforço operacional de gerenciar such clusters. O HyperPod também é compatível com o Amazon Elastic Kubernetes Service (Amazon EKS), atendendo às necessidades empresariais de governança e segurança. Conforme a IA avança para produção em domínios variados, cresce a necessidade de flexibilidade e controle. Empresas desejam que clusters de GPU sigam políticas organizacionais e regras de segurança. Cargas de trabalho críticas exigem ambientes especializados que se alinhem ao stack de software e aos padrões operacionais da organização. O SageMaker HyperPod apresenta, neste contexto, duas novas capacidades para melhorar o controle e a configuração de implantações de grande escala. AWS
O que há de novo
O HyperPod destaca duas capacidades coordenadas para melhorar escalabilidade e personalização:
Provisionamento contínuo
O provisionamento contínuo representa um avanço para equipes que lidam com cargas de ML intensas. Ele oferece provisionamento de recursos flexível, permitindo iniciar treinamento e deploy com a compute disponível no momento, enquanto o sistema provisiona o restante em segundo plano. Em prática, isso reduz consideravelmente os tempos de espera por recursos e acelera o tempo até o treinamento. A arquitetura introduz um parâmetro prático para controlar a escala diretamente: —node-provisioning-mode. Essa capacidade visa maximizar a utilização de recursos e a agilidade operacional em um cluster HyperPod. Detalhes adicionais incluem:
- Os nós em um cluster SageMaker HyperPod são lançados com AWS Deep Learning AMIs (DLAMIs), AMIs otimizados para cargas de trabalho de aprendizado profundo. Essas imagens vêm com frameworks de DL populares e ferramentas já instaladas, simplificando a inicialização e a gestão de treinamentos e deploys. AWS
- O provisionamento contínuo é projetado para reduzir a sobrecarga administrativa e acelerar o desenvolvimento de IA, permitindo que equipes comecem a trabalhar com recursos disponíveis enquanto a capacidade restante é provisionada. AWS
Recurso AMI personalizado
O recurso AMI personalizado oferece controle granular e excelência operacional para cargas de trabalho corporativas. Organizações podem construir AMIs personalizadas usando as AMIs HyperPod de base otimizadas como fundamento e, em seguida, pré-instalar agentes de segurança, ferramentas de conformidade, software proprietário e bibliotecas especializadas diretamente nas imagens otimizadas. Isso conecta requisitos de computação de alto desempenho a padrões de segurança e operações empresariais. O texto descreve uma abordagem passo a passo para criar um AMI personalizado e utilizá-lo em um cluster HyperPod. Também mostra como recuperar a AMI base do HyperPod a partir do console EC2 ou via AWS CLI com AWS Systems Manager (SSM) e, então, usar essa base para construir a AMI personalizada. AWS Antes de usar AMIs personalizados, é necessário garantir que as políticas IAM adequadas estejam configuradas (por exemplo, incluir políticas para o usuário ClusterAdmin). Para implantar um cluster com uma AMI personalizada, utilize o comando aws sagemaker create-cluster e especifique ImageId com a sua AMI; inclua outras configurações de cluster conforme necessário. O artigo também descreve como dimensionar um grupo de instâncias e observa que existem requisitos e limitações ao usar AMIs personalizados. Também há orientações para limpar recursos para evitar cobranças contínuas. AWS
Abordagem prática (alto nível)
- Decida entre o console EC2 ou AWS CLI/SSM para recuperar a AMI base do HyperPod. 2) Construa sua própria AMI personalizada usando a base do HyperPod como fundamento, incluindo agentes de segurança e bibliotecas específicas. 3) Garanta que as políticas IAM necessárias estejam em vigor (por exemplo, para o usuário Administrador do Cluster). 4) Crie um cluster SageMaker com ImageId apontando para a sua AMI personalizada. 5) Escale o grupo de instâncias conforme a demanda de carga de trabalho. 6) Monitore, verifique e, se necessário, limite recursos para evitar cobranças.
Como recuperar a AMI base (duas opções)
- Usando o console Amazon EC2
- Usando a AWS CLI com AWS Systems Manager (SSM) para buscar a última AMI base do HyperPod Essas opções permitem selecionar a AMI base do HyperPod e, em seguida, iniciar a personalização. AWS
Limpeza e governança
O texto enfatiza a importância de limpar recursos quando não são mais necessários para evitar cobranças contínuas, prática comum na gestão de infraestrutura em nuvem em escala. AWS
Principais pontos
A mensagem central é que o provisionamento contínuo e AMIs personalizados ampliam a flexibilidade e o controle do SageMaker HyperPod, permitindo alinhamento com padrões de segurança organizacionais enquanto aceleram fluxos de ML. AWS
Principais conclusões
- O provisionamento contínuo reduz o tempo de espera por recursos e acelera treinamentos e deploys. AWS
- DLAMIs fornecem imagens otimizadas e prontas para uso para workloads de DL, simplificando a inicialização e reprodutibilidade. AWS
- AMIs personalizados permitem alinhamento com políticas de segurança e requisitos de software, mantendo desempenho. AWS
- O HyperPod é compatível com Amazon EKS, apoiando orquestração de nível de produção e aplicação de políticas. AWS
- Configurações de IAM adequadas e uma estratégia de limpeza de recursos são essenciais ao usar AMIs personalizados. AWS
FAQ
-
O que é o foco do SageMaker HyperPod?
Trata-se de uma infraestrutura criada para otimizar o treinamento e a inferência de modelos de base em escala, com clusters persistentes e controle de infraestrutura. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
O que o provisionamento contínuo faz para cargas de ML?
Oferece provisionamento de recursos flexível, permitindo iniciar treinamento e deploy com a capacidade disponível, enquanto o restante é provisionado em segundo plano. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
Como os AMIs personalizados ajudam ambientes empresariais?
Permitem construir imagens que atendem às políticas de segurança e requisitos de software, incluindo agentes de segurança e bibliotecas proprietárias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
Como implantar um cluster com uma AMI personalizada?
Use aws sagemaker create-cluster com ImageId apontando para a sua AMI personalizada, além de outras configurações necessárias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
-
Quais são as considerações ao usar AMIs personalizados?
Existem requisitos e limitações, incluindo políticas IAM e práticas de governança, além de orientações para limpeza de recursos para evitar cobranças. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
Referências
More news
Levar agentes de IA do conceito à produção com Amazon Bedrock AgentCore
Análise detalhada de como o Amazon Bedrock AgentCore ajuda a transformar aplicações de IA baseadas em agentes de conceito em sistemas de produção de nível empresarial, mantendo memória, segurança, observabilidade e gerenciamento de ferramentas escalável.
Monitorar Bedrock batch inference da Amazon usando métricas do CloudWatch
Saiba como monitorar e otimizar trabalhos de bedrock batch inference com métricas do CloudWatch, alarmes e painéis para melhorar desempenho, custo e governança.
Prompting para precisão com Stability AI Image Services no Amazon Bedrock
O Bedrock now oferece Stability AI Image Services com nove ferramentas para criar e editar imagens com maior precisão. Veja técnicas de prompting para uso empresarial.
Aumente a produção visual com Stability AI Image Services no Amazon Bedrock
Stability AI Image Services já estão disponíveis no Amazon Bedrock, oferecendo capacidades de edição de mídia prontas para uso via Bedrock API, ampliando os modelos Stable Diffusion 3.5 e Stable Image Core/Ultra já existentes no Bedrock.
Use AWS Deep Learning Containers com o SageMaker AI gerenciado MLflow
Explore como os AWS Deep Learning Containers (DLCs) se integram ao SageMaker AI gerenciado pelo MLflow para equilibrar controle de infraestrutura e governança robusta de ML. Um fluxo de trabalho de predição de idade de ostra com TensorFlow demonstra rastreamento de ponta a ponta, governança de model
Construir Fluxos de Trabalho Agenticos com GPT OSS da OpenAI no SageMaker AI e no Bedrock AgentCore
Visão geral de ponta a ponta para implantar modelos GPT OSS da OpenAI no SageMaker AI e no Bedrock AgentCore, alimentando um analisador de ações com múltiplos agentes usando LangGraph, incluindo quantização MXFP4 de 4 bits e orquestração serverless.