Amazon SageMaker HyperPod amplia infraestrutura de ML com escalabilidade e personalização

TL;DR

O SageMaker HyperPod passa a oferecer provisionamento contínuo para iniciar treinamentos e deploy com a capacidade disponível, enquanto a provisão restante ocorre em segundo plano. AWS
Também foi introduzida a funcionalidade de AMI personalizado para ambientes corporativos com segurança e software específicos. AWS
O HyperPod continua suportando o Amazon EKS e mantém clusters persistentes com resiliência, além de permitir SSH nas instâncias EC2 subjacentes. AWS
A combinação de provisionamento contínuo e AMIs personalizados ajuda equipes a acelerar a inovação em IA mantendo políticas e padrões organizacionais. AWS

Contexto e antecedentes

O SageMaker HyperPod é uma infraestrutura criada para otimizar o treinamento e a inferência de modelos de base (FM) em escala. Ao eliminar parte do trabalho pesado de construir e otimizar a infraestrutura de ML, o HyperPod pode reduzir o tempo de treinamento em até 40% e oferecer clusters persistentes com resiliência embutida. Além disso, oferece controle profundo da infraestrutura, permitindo SSH nas instâncias EC2 subjacentes. Esse arranjo facilita o dimensionamento de tarefas de desenvolvimento e implantação de modelos em clusters com centenas ou milhares de aceleradores de IA, reduzindo, ao mesmo tempo, o esforço operacional de gerenciar such clusters. O HyperPod também é compatível com o Amazon Elastic Kubernetes Service (Amazon EKS), atendendo às necessidades empresariais de governança e segurança. Conforme a IA avança para produção em domínios variados, cresce a necessidade de flexibilidade e controle. Empresas desejam que clusters de GPU sigam políticas organizacionais e regras de segurança. Cargas de trabalho críticas exigem ambientes especializados que se alinhem ao stack de software e aos padrões operacionais da organização. O SageMaker HyperPod apresenta, neste contexto, duas novas capacidades para melhorar o controle e a configuração de implantações de grande escala. AWS

O que há de novo

O HyperPod destaca duas capacidades coordenadas para melhorar escalabilidade e personalização:

Provisionamento contínuo

O provisionamento contínuo representa um avanço para equipes que lidam com cargas de ML intensas. Ele oferece provisionamento de recursos flexível, permitindo iniciar treinamento e deploy com a compute disponível no momento, enquanto o sistema provisiona o restante em segundo plano. Em prática, isso reduz consideravelmente os tempos de espera por recursos e acelera o tempo até o treinamento. A arquitetura introduz um parâmetro prático para controlar a escala diretamente: —node-provisioning-mode. Essa capacidade visa maximizar a utilização de recursos e a agilidade operacional em um cluster HyperPod. Detalhes adicionais incluem:

Os nós em um cluster SageMaker HyperPod são lançados com AWS Deep Learning AMIs (DLAMIs), AMIs otimizados para cargas de trabalho de aprendizado profundo. Essas imagens vêm com frameworks de DL populares e ferramentas já instaladas, simplificando a inicialização e a gestão de treinamentos e deploys. AWS
O provisionamento contínuo é projetado para reduzir a sobrecarga administrativa e acelerar o desenvolvimento de IA, permitindo que equipes comecem a trabalhar com recursos disponíveis enquanto a capacidade restante é provisionada. AWS

Recurso AMI personalizado

O recurso AMI personalizado oferece controle granular e excelência operacional para cargas de trabalho corporativas. Organizações podem construir AMIs personalizadas usando as AMIs HyperPod de base otimizadas como fundamento e, em seguida, pré-instalar agentes de segurança, ferramentas de conformidade, software proprietário e bibliotecas especializadas diretamente nas imagens otimizadas. Isso conecta requisitos de computação de alto desempenho a padrões de segurança e operações empresariais. O texto descreve uma abordagem passo a passo para criar um AMI personalizado e utilizá-lo em um cluster HyperPod. Também mostra como recuperar a AMI base do HyperPod a partir do console EC2 ou via AWS CLI com AWS Systems Manager (SSM) e, então, usar essa base para construir a AMI personalizada. AWS Antes de usar AMIs personalizados, é necessário garantir que as políticas IAM adequadas estejam configuradas (por exemplo, incluir políticas para o usuário ClusterAdmin). Para implantar um cluster com uma AMI personalizada, utilize o comando aws sagemaker create-cluster e especifique ImageId com a sua AMI; inclua outras configurações de cluster conforme necessário. O artigo também descreve como dimensionar um grupo de instâncias e observa que existem requisitos e limitações ao usar AMIs personalizados. Também há orientações para limpar recursos para evitar cobranças contínuas. AWS

Abordagem prática (alto nível)

Decida entre o console EC2 ou AWS CLI/SSM para recuperar a AMI base do HyperPod. 2) Construa sua própria AMI personalizada usando a base do HyperPod como fundamento, incluindo agentes de segurança e bibliotecas específicas. 3) Garanta que as políticas IAM necessárias estejam em vigor (por exemplo, para o usuário Administrador do Cluster). 4) Crie um cluster SageMaker com ImageId apontando para a sua AMI personalizada. 5) Escale o grupo de instâncias conforme a demanda de carga de trabalho. 6) Monitore, verifique e, se necessário, limite recursos para evitar cobranças.

Como recuperar a AMI base (duas opções)

Usando o console Amazon EC2
Usando a AWS CLI com AWS Systems Manager (SSM) para buscar a última AMI base do HyperPod Essas opções permitem selecionar a AMI base do HyperPod e, em seguida, iniciar a personalização. AWS

Limpeza e governança

O texto enfatiza a importância de limpar recursos quando não são mais necessários para evitar cobranças contínuas, prática comum na gestão de infraestrutura em nuvem em escala. AWS

Principais pontos

A mensagem central é que o provisionamento contínuo e AMIs personalizados ampliam a flexibilidade e o controle do SageMaker HyperPod, permitindo alinhamento com padrões de segurança organizacionais enquanto aceleram fluxos de ML. AWS

Principais conclusões

O provisionamento contínuo reduz o tempo de espera por recursos e acelera treinamentos e deploys. AWS
DLAMIs fornecem imagens otimizadas e prontas para uso para workloads de DL, simplificando a inicialização e reprodutibilidade. AWS
AMIs personalizados permitem alinhamento com políticas de segurança e requisitos de software, mantendo desempenho. AWS
O HyperPod é compatível com Amazon EKS, apoiando orquestração de nível de produção e aplicação de políticas. AWS
Configurações de IAM adequadas e uma estratégia de limpeza de recursos são essenciais ao usar AMIs personalizados. AWS

FAQ

O que é o foco do SageMaker HyperPod?

Trata-se de uma infraestrutura criada para otimizar o treinamento e a inferência de modelos de base em escala, com clusters persistentes e controle de infraestrutura. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
O que o provisionamento contínuo faz para cargas de ML?

Oferece provisionamento de recursos flexível, permitindo iniciar treinamento e deploy com a capacidade disponível, enquanto o restante é provisionado em segundo plano. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
Como os AMIs personalizados ajudam ambientes empresariais?

Permitem construir imagens que atendem às políticas de segurança e requisitos de software, incluindo agentes de segurança e bibliotecas proprietárias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
Como implantar um cluster com uma AMI personalizada?

Use aws sagemaker create-cluster com ImageId apontando para a sua AMI personalizada, além de outras configurações necessárias. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)
Quais são as considerações ao usar AMIs personalizados?

Existem requisitos e limitações, incluindo políticas IAM e práticas de governança, além de orientações para limpeza de recursos para evitar cobranças. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)