Annonçant la nouvelle expérience de création de cluster pour Amazon SageMaker HyperPod

TL;DR

SageMaker HyperPod propose désormais une expérience de création de cluster validée en un clic qui provisionne les ressources prérequis et applique des valeurs par défaut prescriptives automatiquement.
Deux options de déploiement sont disponibles dans la Console de gestion AWS pour les clusters orchestrés par Slurm ou Amazon EKS: configuration rapide (quick setup) et configuration personnalisée (custom setup).
Le déploiement crée une pile CloudFormation pour déployer le cluster et ses ressources de support, permettant l’IaC et des déploiements cohérents entre environnements.
La configuration rapide privilégie les paramètres par défaut automatiques et la récupération automatique des instances, tandis que la configuration personnalisée offre un contrôle granulaire pour des configurations avancées.
La solution prend en charge des charges de travail IA à grande échelle avec des réseaux et stockages haute performance (EFA et FSx for Lustre) et propose des vérifications d’intégrité et un provisionnement continu. Pour plus de détails, consultez le post officiel AWS annonçant la fonctionnalité : AWS Blog – Annonçant la nouvelle expérience de création de cluster pour Amazon SageMaker HyperPod.

Contexte et antécédents

Amazon SageMaker HyperPod permet l’entraînement et l’inférence distribués sur des clusters comptant des centaines ou des milliers d’accélérateurs d’IA, via l’orchestration Slurm ou Amazon Elastic Kubernetes Service (Amazon EKS). Précédemment, la configuration d’un cluster HyperPod nécessitait la configuration de multiples ressources AWS prérequis—telles qu’un VPC, un bucket S3, des rôles IAM et d’autres composants—dans un processus multi-étapes sujet aux erreurs. La nouvelle expérience de création de cluster change cela en permettant une création en un clic avec des valeurs par défaut prescriptives appliquées automatiquement, réduisant les points d’erreur manuels. Les options de déploiement d’HyperPod apparaissent dans la Console AWS aux côtés des contrôles AI du SageMaker, offrant deux parcours: configuration rapide et configuration personnalisée. Chaque chemin crée, au final, une pile CloudFormation pour provisionner le cluster et ses ressources de support, permettant une approche IaC déclarative réutilisable entre environnements. Cette approche s’aligne sur les meilleures pratiques pour des déploiements reproductibles et traçables dans le cloud.

Quoi de neuf

Les améliorations principales tournent autour d’une expérience de création de cluster HyperPod validée et en un clic, incluant les ressources prerequis. Les deux modes de déploiement visent des cas d’usage courants:

Configuration rapide (quick setup): applique des valeurs par défaut sûres pour les groupes d’instances, le réseau, l’orchestration, les scripts de cycle de vie, les autorisations et le stockage. Elle active également la récupération automatique des instances.
Configuration personnalisée (custom setup): offre un contrôle granulaire sur les configurations et permet de réutiliser des ressources existantes. Les éléments d’infrastructure créés ou configurés lors du processus incluent:
Un nouveau VPC avec des sous-réseaux répartis sur plusieurs zones de disponibilité, incluant un sous-réseau public /24 pour l’accès Internet via NAT, un sous-réseau privé /24 pour les communications du plan de contrôle EKS, et un sous-réseau privé /16 pour accueillir une grande capacité d’instances accélératrices.
Un nouveau groupe de sécurité configuré pour le trafic EFA et FSx for Lustre.
Un cluster Amazon EKS avec la dernière version Kubernetes prise en charge, avec les opérateurs et plugins activés (EFA, Neuron, plugins NVIDIA), l’agent de surveillance de santé (HMA), les opérateurs Kubeflow pour l’entraînement et l’opérateur d’inférence SageMaker HyperPod.
Un nouveau bucket S3 pour stocker les scripts de cycle de vie par défaut et un nouveau rôle IAM avec les permissions requises pour le cluster HyperPod.
Un FSx for Lustre pour le stockage haute performance. Pour ceux qui préfèrent réutiliser des ressources existantes, l’option personnalisée permet de référencer un VPC existant, un groupe de sécurité ou un cluster EKS, et de connecter un FSx for Lustre existant. On peut aussi spécifier un CIDR personnalisé pour le VPC et cibler des AZ spécifiques pour la création des sous-réseaux.

Pourquoi cela compte (impact pour les développeurs/entreprises)

En éliminant les étapes manuelles de provisionnement et en offrant des valeurs par défaut, la nouvelle expérience de création de cluster réduit les risques d’erreurs de configuration lors de la mise en place d’HyperPod. Cela accélère le time-to-value pour les équipes travaillant sur des entraînements IA à grande échelle, le fine-tuning et l’inférence sur des clusters avec un grand nombre d’accélérateurs. La solution prend en charge des charges de travail robustes et scalables et s’aligne sur les pratiques IaC, permettant aux ingénieurs d’exprimer l’état souhaité de manière déclarative via des templates CloudFormation et de les réutiliser entre environnements. La possibilité d’exporter un template CloudFormation préconfiguré facilite l’intégration avec des pipelines CI/CD (par ex., CodePipeline) pour une validation automatisée et une promotion des changements entre dev, test et prod, améliorant ainsi la gouvernance et la cohérence des déploiements.

Détails techniques ou Implémentation

L’expérience de création de cluster s’appuie sur AWS CloudFormation pour provisionner un cluster HyperPod et ses prerequis en une opération déclarative unique. Lorsque l’utilisateur lance la création du cluster, le système déploie une pile CloudFormation qui orchestre la configuration réseau, le stockage, l’identité et les ressources informatiques nécessaires pour HyperPod, garantissant un état cohérent entre les environnements. Cette approche IaC permet des déploiements complexes avec plusieurs services gérés en une seule demande. Deux modes d’implantation sont proposés:

Configuration rapide: applique des valeurs par défaut sécurisées pour les groupes d’instances, le réseau, l’orchestration, les scripts de cycle de vie, les autorisations et le stockage. Elle indique aussi quelles configurations peuvent être modifiées après déploiement et lesquelles nécessiteraient la recréation de ressources AWS. La récupération automatique des instances est activée par défaut.
Configuration personnalisée: offre un contrôle granulaire sur les configurations et permet de désactiver la récupération automatique des nœuds si nécessaire pour le dépannage ou les tests. Elle prend aussi en charge le mode de provisionnement continu, permettant d’initier plusieurs opérations simultanément, même lorsque toutes les instances demandées ne sont pas disponibles immédiatement. Les détails réseau et capacité incluent:
Configuration rapide crée une VPC avec des sous-réseaux sur plusieurs AZ, y compris un sous-réseau public /24 pour l’accès Internet, un sous-réseau privé /24 pour les communications du plan de contrôle EKS et un sous-réseau privé /16 pour accueillir la capacité d’instances accélératrices.
Le sous-réseau privé /16 peut supporter plus de 65 000 adresses IP privées, utile pour les clusters comportant de nombreux hôtes nécessitant plusieurs adresses IP par hôte.
Pour l’orchestration EKS, la configuration rapide déploie un cluster EKS avec la version Kubernetes la plus récente et active des opérateurs et plugins (EFA, Neuron, plugins NVIDIA), l’agent de surveillance de l’état (HMA), les opérateurs Kubeflow d’entraînement et l’opérateur d’inférence HyperPod.
Le stockage comprend FSx for Lustre et un bucket S3 pour les scripts de cycle de vie par défaut. La configuration personnalisée offre une flexibilité substantielle :
Créer une nouvelle VPC avec un CIDR personnalisé ou réutiliser une VPC existante et un groupe de sécurité.
Choisir un cluster EKS existant ou en créer un nouveau avec des versions Kubernetes configurables et des sous-réseaux pour assurer la connectivité entre l’API Kubernetes et la VPC.
Joindre un FSx for Lustre existant ou en créer un nouveau avec plusieurs options de débit et de capacité.
Ajouter ou personnaliser des groupes d’instances, y compris des groupes standard et restreints, avec des modèles de capacité adaptés aux travaux ponctuels ou des plans de formation flexibles pour des jobs à grande échelle.
Contrôle granulaire sur les opérateurs optionnels installés dans le cluster EKS via des templates Helm.
Les scripts de cycle de vie avancés peuvent être fournis à partir d’un bucket S3 existant pour des configurations personnalisées de frameworks ML. Pour les développeurs cherchant à observer et à assurer la résilience, le système prend en charge des vérifications de santé approfondies (stress et connectivité) en plus des vérifications de base de l’orchestrateur. Vous pouvez également ajuster le nombre de threads par cœur CPU pour influencer les performances (1 thread par cœur ou 2 threads par cœur). Une copie du template CloudFormation utilisé pour déployer la configuration choisie est téléchargeable depuis la console SageMaker AI, afin de la réutiliser avec des outils d’intégration continue et déploiement continu. Des substitutions de paramètres peuvent être définies dans un fichier de configuration du template pour permettre des promotions entre déploiements dev, test et prod.

Points clés à retenir

L’expérience de création de cluster HyperPod en un clic simplifie le déploiement avec provisioning et valeurs par défaut prescriptives.
Configuration rapide privilégie rapidité et sécurité avec récupération automatique et composants réseau/stockage/cluster nouveaux.
Configuration personnalisée offre un contrôle granulaire pour les utilisateurs avancés et les environnements nécessitant des ressources existantes.
Le mode IaC basé sur CloudFormation permet des déploiements déclaratifs, la réutilisation de templates et l’intégration avec les pipelines CI/CD.
Le mode de provisionnement continu et les vérifications de santé augmentent la fiabilité des charges IA à grande échelle.
L’option d’exporter et de réutiliser les templates CloudFormation facilite des déploiements cohérents entre plusieurs environnements.

FAQ

Références

AWS Blog: Annonçant la nouvelle expérience de création de cluster pour Amazon SageMaker HyperPod — https://aws.amazon.com/blogs/machine-learning/announcing-the-new-cluster-creation-experience-for-amazon-sagemaker-hyperpod/

Annonçant la nouvelle expérience de création de cluster pour Amazon SageMaker HyperPod

TL;DR

Contexte et antécédents

Quoi de neuf

Pourquoi cela compte (impact pour les développeurs/entreprises)

Détails techniques ou Implémentation

Points clés à retenir

FAQ

Références

More news

Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore

Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch

Prompting pour la précision avec Stability AI Image Services sur Amazon Bedrock

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Évoluer la production visuelle avec Stability AI Image Services dans Amazon Bedrock

Créer des flux de travail agentiques avec GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore