Skip to content
Amazon SageMaker HyperPod améliore l’infrastructure ML avec évolutivité et personnalisation
Source: aws.amazon.com

Amazon SageMaker HyperPod améliore l’infrastructure ML avec évolutivité et personnalisation

Sources: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability

TL;DR

  • HyperPod ajoute le provisioning continu pour démarrer l’entraînement et le déploiement avec la puissance de calcul disponible, le reste étant provisionné en arrière-plan. AWS
  • Il introduit aussi la fonctionnalité AMI personnalisées pour des environnements d’entreprise sécurisés et adaptés au logiciel. AWS
  • HyperPod prend en charge Amazon EKS et propose des clusters persistants avec résilience, tout en permettant SSH sur les instances EC2 sous-jacentes. AWS
  • L’alliance du provisioning continu et des AMIs personnalisées aide les équipes à accélérer l’innovation IA tout en respectant les politiques et les standards organisationnels. AWS

Contexte et contexte historique

SageMaker HyperPod est une infrastructure conçue pour optimiser l’entraînement et l’inférence des modèles de base (FM) à l’échelle. En éliminant une partie du travail lourd lié à la construction et à l’optimisation de l’infrastructure ML, HyperPod peut réduire le temps d’entraînement jusqu’à 40 % et offrir des clusters persistants avec une résilience intégrée. Il offre aussi un contrôle approfondi de l’infrastructure en autorisant l’accès SSH aux instances EC2 sous-jacentes. Cela facilite la montée en charge des tâches de développement et de déploiement des modèles sur des clusters pouvant compter des centaines ou des milliers d’accélérateurs IA, tout en réduisant l’effort opérationnel lié à la gestion de tels clusters. HyperPod prend également en charge Amazon EKS, répondant à des besoins d’entreprise en matière de gouvernance et de sécurité. Alors que l’IA se rapproche de la production dans divers domaines, la demande de flexibilité et de contrôle s’accentue. Les entreprises veulent des clusters GPU qui suivent les politiques organisationnelles et les règles de sécurité. Les charges de travail critiques exigent des environnements spécialisés qui s’alignent sur l’architecture logicielle et les standards opérationnels. Dans ce cadre, HyperPod présente deux nouvelles capacités pour améliorer le contrôle et la configurabilité des déploiements ML à grande échelle. AWS

Ce qui est nouveau

HyperPod met désormais en avant deux capacités coordonnées pour améliorer l’évolutivité et la personnalisation :

Provisionnement continu

Le provisionnement continu représente une avancée majeure pour les équipes gérant des charges ML intensives. Il offre un provisionnement flexible des ressources permettant de commencer l’entraînement et le déploiement avec la puissance de calcul disponible, pendant que le système provisionne le reste en arrière-plan. Concrètement, cela permet de réduire considérablement les temps d’attente pour les ressources et d’accélérer le temps jusqu’à l’entraînement. L’architecture introduit un paramètre pratique pour contrôler l’échelle directement : —node-provisioning-mode. Cette capacité vise à optimiser l’utilisation des ressources et l’agilité opérationnelle d’un cluster HyperPod. Détails additionnels :

  • Les nœuds d’un cluster SageMaker HyperPod sont lancés avec les AWS Deep Learning AMIs (DLAMIs), des AMIs préconçus optimisés pour les charges de travail d’apprentissage profond. Ces DLAMIs incluent des cadres DL populaires et des outils préinstallés pour faciliter le démarrage et la gestion des entraînements et des déploiements. AWS
  • Le provisioning continu vise à réduire la charge opérationnelle et à accélérer le développement IA en permettant aux équipes de commencer avec les ressources disponibles pendant que le reste est provisionné. AWS

AMI personnalisées

La fonctionnalité AMI personnalisées offre un contrôle granulaire et une excellence opérationnelle pour les charges critiques d’entreprise. Les organisations peuvent construire des AMIs personnalisées en utilisant les AMIs HyperPod de base comme fondation et pré-installer des agents de sécurité, des outils de conformité, des logiciels propriétaires et des bibliothèques spécialisées directement dans les images optimisées. Cela crée un pont entre les exigences HPC et les standards de sécurité et d’exploitation d’entreprise. L’article décrit une démarche étape par étape pour construire et utiliser une AMI personnalisée dans un cluster HyperPod. Il explique aussi comment récupérer l’AMI de base HyperPod soit via la console EC2, soit via AWS CLI avec AWS Systems Manager (SSM), puis utiliser cette base pour créer une AMI personnalisée. AWS Avant d’utiliser des AMIs personnalisées, vous devez vous assurer que les politiques IAM requises sont en place (par exemple, des politiques pour l’utilisateur ClusterAdmin). Pour déployer un cluster avec une AMI personnalisée, vous utilisez la commande aws sagemaker create-cluster et spécifiez ImageId pour votre AMI personnalisé, en plus des autres configurations nécessaires du cluster. L’article mentionne aussi comment faire évoluer un groupe d’instances et qu’il existe des exigences et des limitations à l’utilisation des AMIs personnalisées, ainsi que des conseils pour nettoyer les ressources afin d’éviter des coûts supplémentaires. AWS

Approche pratique (vue d’ensemble)

  1. Décider entre accéder à l’AMI de base via la console EC2 ou via AWS CLI/SSM pour récupérer l’AMI HyperPod. 2) Construire votre propre AMI personnalisée en partant de l’AMI de base HyperPod, en ajoutant les agents de sécurité et les bibliothèques spécifiques. 3) Vérifier que les politiques IAM nécessaires sont en place (par exemple, pour l’utilisateur Administrateur du cluster). 4) Créer un cluster SageMaker avec ImageId pointant vers votre AMI personnalisée. 5) Dimensionner le groupe d’instances selon les besoins de la charge. 6) Surveiller, vérifier et nettoyer les ressources pour éviter des coûts persistants. AWS

Récupération de l’AMI de base (deux options)

  • via la console Amazon EC2
  • via AWS CLI avec AWS Systems Manager (SSM) pour récupérer la dernière AMI de base HyperPod Ces options permettent de sélectionner l’AMI de base HyperPod et d’entrer ensuite dans le processus de personnalisation. AWS

Nettoyage et gouvernance

Le document souligne l’importance de nettoyer les ressources après usage pour éviter les charges récurrentes, pratique standard pour la gestion d’infrastructures cloud à grande échelle. AWS

Points clés

Le message central est que le provisioning continu et les AMIs personnalisées étendent la flexibilité et le contrôle de SageMaker HyperPod, permettant un alignement avec les standards de sécurité organisationnels tout en accélérant les flux ML. AWS

Points clés

  • Le provisioning continu réduit les temps d’attente pour les ressources et accélère l’entraînement et le déploiement. AWS
  • Les DLAMIs fournissent des images optimisées prêtes à l’emploi pour les charges DL, simplifiant le démarrage et la reproductibilité. AWS
  • Les AMIs personnalisées permettent d’aligner les environnements avec les politiques de sécurité et les exigences logicielles, tout en conservant les performances. AWS
  • HyperPod est compatible avec Amazon EKS, facilitant l’orchestration de niveau production et l’application des politiques. AWS
  • Des politiques IAM appropriées et une stratégie de nettoyage des ressources sont essentielles lors de l’utilisation d’AMI personnalisées. AWS

FAQ

  • À quoi sert principalement SageMaker HyperPod ?

    Il s’agit d’une infrastructure dédiée pour optimiser l’entraînement et l’inférence de modèles de base à l’échelle, avec des clusters persistants et un contrôle approfondi de l’infrastructure. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)

  • Qu’est-ce que le provisioning continu apporte aux charges ML ?

    Il fournit un provisioning flexible des ressources, permettant de démarrer avec la puissance de calcul disponible, pendant que le reste est provisionné en arrière-plan. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)

  • En quoi les AMIs personnalisées améliorent-elles les environnements d’entreprise ?

    Elles permettent de construire des images conformes aux politiques de sécurité et exigences logicielles, en préinstallant des agents de sécurité et des bibliothèques propriétaires. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)

  • Comment déployer un cluster avec une AMI personnalisée ?

    Utilisez aws sagemaker create-cluster avec ImageId pointant vers votre AMI personnalisée, et configurez le cluster selon les besoins. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)

  • Quelles sont les considérations lors de l’utilisation d’AMIs personnalisées ?

    Il faut tenir compte des exigences et limitations, y compris les politiques IAM et les pratiques de nettoyage pour éviter les coûts. [AWS](https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-hyperpod-enhances-ml-infrastructure-with-scalability-and-customizability/)

Références

More news

aws.amazon.com

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè