Skip to content
Anunciando a nova experiência de criação de cluster para o Amazon SageMaker HyperPod
Source: aws.amazon.com

Anunciando a nova experiência de criação de cluster para o Amazon SageMaker HyperPod

Sources: https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod, https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod/, AWS ML Blog

TL;DR

  • O SageMaker HyperPod agora oferece uma experiência de criação de cluster validada com um clique que Provisiona prerequisitos da AWS e aplica padrões prescritivos automaticamente.
  • Duas opções de implantação estão disponíveis no Console de Gerenciamento da AWS para clusters orquestrados por Slurm ou Amazon EKS: configuração rápida (quick setup) e configuração personalizada (custom setup).
  • A implantação cria um stack do CloudFormation para implantar o cluster e os recursos de suporte, permitindo IaC (infraestrutura como código) e implantações consistentes entre ambientes.
  • Configuração rápida enfatiza padrões automáticos, provisão de infraestrutura e recuperação automática de instâncias, enquanto a configuração personalizada oferece controle granular e flexibilidade para configurações avançadas.
  • A solução suporta cargas de trabalho de IA em larga escala com rede e armazenamento de alto desempenho, incluindo EFA e FSx for Lustre, além de checagens de integridade e provisionamento contínuo. Para mais detalhes, veja o post oficial da AWS anunciando o recurso: AWS Blog – Anunciando a nova experiência de criação de cluster para o Amazon SageMaker HyperPod.

Contexto e antecedentes

O Amazon SageMaker HyperPod permite treinamento e inferência distribuídos em clusters com centenas ou milhares de aceleradores de IA, usando orquestração via Slurm ou Amazon Elastic Kubernetes Service (Amazon EKS). Anteriormente, a configuração de um cluster HyperPod exigia a configuração de múltiplos recursos prerequisitos da AWS—como VPC, bucket S3, roles IAM e outros componentes—inclusive em um processo de várias etapas suscetível a erros de configuração. A nova experiência de criação de cluster muda isso ao permitir a criação em um clique com padrões prescritivos aplicados automaticamente, reduzindo pontos de falha manuais. As opções de implantação do HyperPod aparecem no Console de Gerenciamento da AWS junto aos controles de AI do SageMaker, oferecendo dois caminhos: configuração rápida (quick setup) e configuração personalizada (custom setup). Cada caminho, ao final, cria um stack do CloudFormation para provisionar o cluster e seus recursos de suporte, permitindo uma abordagem de IaC declarativa que pode ser reutilizada e versionada entre ambientes. A abordagem está alinhada com as melhores práticas para implantações repetíveis e auditáveis na nuvem.

O que há de novo

As principais melhorias concentram-se em uma experiência de criação de cluster validada e com um clique, incluindo os prerequisitos necessários. As duas opções de implantação são voltadas para casos de uso comuns:

  • Configuração rápida (quick setup): utiliza padrões prescritivos para grupos de instâncias, rede, orquestração, configuração de ciclo de vida, permissões e armazenamento. Também habilita a recuperação automática de instâncias.
  • Configuração personalizada (custom setup): oferece controle granular sobre configurações e a capacidade de reutilizar recursos existentes. Os elementos de infraestrutura criados ou configurados durante o processo incluem:
  • Uma nova VPC com sub-redes distribuídas entre zonas de disponibilidade, incluindo uma sub-rede pública /24 para acesso à Internet via NAT, uma sub-rede privada /24 para comunicações do plano de controle do EKS e uma sub-rede privada /16 para suportar grande capacidade de acomodar instâncias aceleradoras.
  • Um novo grupo de segurança configurado para tráfego de Elastic Fabric Adapter (EFA) e FSx for Lustre.
  • Um cluster Amazon EKS com a versão Kubernetes mais recente compatível, com operadores e plugins habilitados (EFA, Neuron, plugins de dispositivos NVIDIA), agente de monitoramento de saúde (HMA), operadores Kubeflow de treinamento e o operador de inferência do SageMaker HyperPod.
  • Um novo bucket S3 para armazenar scripts de ciclo de vida padrão e um novo papel IAM com as permissões necessárias ao cluster HyperPod.
  • Um novo FSx for Lustre para armazenamento de alto desempenho. Para quem prefere reutilizar recursos existentes, a configuração personalizada permite referenciar VPC existente, grupo de segurança ou cluster EKS, e conectar-se a um FSx for Lustre já existente. Também é possível especificar um CIDR personalizado para a VPC e direcionar sub-redes para disponibilidade específica.

Por que isso importa (impacto para desenvolvedores/empresas)

Ao eliminar etapas manuais de provisão e oferecer padrões pré-estabelecidos, a nova experiência de criação de cluster reduz o risco de configurações incorretas durante a configuração do HyperPod. Isso acelera o tempo de entrega para equipes que executam treinamentos de IA em larga escala, ajuste fino ou inferência usando clusters com muitos aceleradores. A solução suporta workloads robustos e escaláveis e está alinhada às práticas de IaC, permitindo que engenheiros expressem estados desejados de forma declarativa via templates do CloudFormation. A capacidade de exportar um template do CloudFormation pré-configurado facilita a integração com pipelines de CI/CD (ex.: CodePipeline) para validação automatizada e promoção de mudanças entre ambientes de desenvolvimento, teste e produção, melhorando governança e consistência das implantações.

Detalhes técnicos ou Implementação

A experiência de criação de cluster utiliza o AWS CloudFormation para provisionar um cluster HyperPod e seus prerequisitos em uma única operação declarativa. Ao iniciar a criação do cluster, o sistema implanta um stack do CloudFormation que orquestra a configuração de rede, armazenamento, identidade e recursos computacionais necessários para o HyperPod, assegurando um estado consistente entre ambientes. Essa abordagem de IaC facilita composições complexas com múltiplos serviços gerenciados em uma única solicitação. Dois modos de implantação são oferecidos:

  • Configuração rápida: aplica padrões seguros para grupos de instâncias, rede, orquestração, scripts de ciclo de vida, permissões e armazenamento. Também oferece visibilidade sobre quais configurações podem ser editadas após a implantação e quais exigiriam recriar recursos da AWS. A recuperação automática de instâncias vem habilitada por padrão.
  • Configuração personalizada: fornece controle granular sobre as configurações e permite desativar seletivamente a recuperação automática de nós, se necessário para resolução de problemas ou testes. Também suporta modo de provisionamento contínuo, permitindo iniciar várias operações simultaneamente, mesmo que nem todas as instâncias solicitadas estejam disponíveis de imediato. Detalhes de rede e capacidade incluem:
  • A configuração rápida cria uma VPC com sub-redes distribuídas entre AZs, incluindo uma sub-rede pública /24 para acesso à Internet, uma sub-rede privada /24 para comunicações do plano de controle do EKS e uma sub-rede privada /16 para suportar capacidade de instâncias aceleradoras.
  • O /16 privado padrão comporta mais de 65.000 IPs privados, facilitando clusters com muitos hosts que requerem múltiplos IPs por nó.
  • Para orquestração do EKS, a configuração rápida provisiona um cluster EKS com a versão Kubernetes mais recente e habilita operadores e plugins selecionados (EFA, Neuron, plugins de dispositivos NVIDIA), o agente de monitoramento de saúde (HMA), operadores Kubeflow de treinamento e o operador de inferência do SageMaker HyperPod.
  • A provisão de armazenamento inclui FSx for Lustre e um bucket S3 para scripts de ciclo de vida. A configuração personalizada oferece flexibilidade adicional:
  • Criar uma nova VPC com CIDR personalizado ou reutilizar uma VPC existente e um grupo de segurança.
  • Escolher um cluster EKS existente ou provisionar um novo com versões Kubernetes configuráveis e sub-redes para conectividade entre o API server Kubernetes e a VPC.
  • Anexar FSx for Lustre existente ou provisionar um novo com várias opções de throughput e capacidade.
  • Adicionar ou personalizar grupos de instâncias, incluindo grupos padrão e restritos, com modelos de capacidade alinhados a workloads pontuais ou planos de treinamento flexíveis para grandes escala de job.
  • Controle fino sobre operadores opcionais instalados no cluster EKS via Helm charts.
  • Scripts de ciclo de vida avançados podem ser fornecidos a partir de um bucket S3 existente para configurações personalizadas de ML. Para observabilidade e resiliência, o sistema oferece checagens de integridade profundas (stress e connectivity) além das checagens básicas aplicadas pelo orquestrador. Você também pode ajustar o número de threads por núcleo de CPU para influenciar o desempenho, com opções entre uma thread por núcleo ou duas threads por núcleo. Você pode baixar uma cópia do template CloudFormation usado para implantar a configuração selecionada diretamente no console do SageMaker AI e reutilizá-lo com ferramentas de CD/CI. Overrides de parâmetros podem ser definidos em um arquivo de configuração de template para suportar promoções entre ambientes de dev, teste e prod.

Principais aprendizados

  • A nova experiência de criação de cluster do SageMaker HyperPod simplifica a implantação com provisionamento em um clique e padrões prescritivos.
  • A configuração rápida prioriza velocidade e segurança com recuperação automática e novas componentes de rede, armazenamento e cluster.
  • A configuração personalizada oferece controle granular para usuários avançados e ambientes que requerem recursos existentes.
  • IaC baseado em CloudFormation permite implantações declarativas, reutilização de templates e integração com pipelines de CI/CD.
  • Modo de provisionamento contínuo e checagens de integridade ajudam a entregar cargas de trabalho de IA em larga escala com maior confiabilidade.
  • A opção de exportar e reutilizar templates do CloudFormation facilita implantações consistentes entre múltiplos ambientes.

Perguntas frequentes

  • Qual é o objetivo da nova experiência de criação de cluster para o SageMaker HyperPod?

    Fornece um caminho validado com um clique para criar clusters HyperPod com os recursos prerequisitos e padrões prescritivos, reduzindo erros de configuração e o tempo de configuração.

  • ue recursos são criados automaticamente na configuração rápida?

    Uma nova VPC com sub-redes multi-AZ, um grupo de segurança para tráfego de EFA e FSx, um cluster EKS com operadores necessários, um bucket S3 para scripts de ciclo de vida, um papel IAM, e um FSx for Lustre.

  • Posso reutilizar recursos existentes?

    Sim, a configuração personalizada permite referenciar VPC existente, grupo de segurança, cluster EKS e FSx for Lustre já existentes.

  • O que é o modo de provisionamento contínuo?

    Permite iniciar várias operações simultaneamente, como escalonamento e atualizações de AMI, dentro de um único grupo de instâncias, acelerando implantações mesmo quando nem todas as instâncias solicitadas estão disponíveis de imediato.

  • Como reutilizar o template do CloudFormation?

    Você pode baixar o template do console do SageMaker AI e usar overrides de parâmetros com o CodePipeline para automação de build, teste e promoção entre ambientes.

Referências

More news

aws.amazon.com

Use AWS Deep Learning Containers com o SageMaker AI gerenciado MLflow

Explore como os AWS Deep Learning Containers (DLCs) se integram ao SageMaker AI gerenciado pelo MLflow para equilibrar controle de infraestrutura e governança robusta de ML. Um fluxo de trabalho de predição de idade de ostra com TensorFlow demonstra rastreamento de ponta a ponta, governança de model