Accélérez les charges ML avec Code Editor dans SageMaker Unified Studio
TL;DR
- SageMaker Unified Studio intègre Code Editor (basé sur Code-OSS/VS Code) pour un IDE léger et puissant dans un espace unique d’analyse et d’IA.
- Les espaces multiples par utilisateur par projet permettent des flux de travail parallèles avec des besoins de calcul différents, chaque espace correspondant à une instance d’application 1:1.
- Les espaces sont des environnements privés (un espace partagé est prévu pour une version future) et Code Editor s’intègre à GitHub, GitLab ou Bitbucket pour le contrôle de version et la collaboration.
- Les options de calcul vont de ml.t3.medium à des familles GPU G6, avec une extinction automatique des espaces inactifs et un stockage EBS persistant entre les sessions.
- L’exemple illustre l’utilisation de SageMaker Pipelines pour construire, entraîner, évaluer et optionnellement déployer des modèles ML; prérequis incluent IAM Identity Center et MFA. Pour les détails complets, voir l’article original sur le blog AWS: https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/.
Contexte et arrière-plan
SageMaker Unified Studio est décrit comme un environnement de développement intégré (IDE) unique qui regroupe des outils pour l’analyse et l’IA. Il fournit des outils intégrés pour construire des pipelines de données, partager des jeux de données, surveiller la gouvernance des données, exécuter des analyses SQL et créer des modèles ML et des applications d’IA générative. AWS a introduit deux options pour améliorer l’expérience de développement des équipes d’analyse, ML et IA générative : Code Editor et espaces multiples. Code Editor, basé sur Code-OSS (Visual Studio Code – Open Source), offre un IDE léger avec accès à un terminal, débogage avancé et refactorisation, et permet d’accéder à des extensions via le catalogue Open VSX. source. Dans SageMaker Unified Studio, un espace est un environnement de travail qui exécute un IDE spécifique. Pour optimiser l’utilisation de Code Editor avec les autres interfaces, SageMaker prend désormais en charge plusieurs espaces par utilisateur par projet, permettant la gestion de flux de travail parallèles avec des besoins de calcul différents. Chaque espace entretient une relation 1:1 avec une instance d’application, aidant à organiser le stockage et les ressources. Ces espaces sont actuellement des environnements privés isolés; une fonctionnalité d’espace partagé est prévue pour une version future. source. Code Editor peut être utilisé avec JupyterLab et d’autres interfaces dans SageMaker Unified Studio. Pour chaque espace, trois éléments centraux sont requis: la taille du volume EBS, le type d’instance et le type d’application (Code Editor ou JupyterLab). Lorsqu’un espace est lancé, SageMaker provisionne une instance de calcul et lance l’application Code Editor avec l’image de conteneur choisie. Le stockage persiste entre les sessions: le volume EBS reste attaché même si le calcul est arrêté et est réattelé au redémarrage. source. Le flux d’exemple montre la création d’un projet ML et d’un pipeline utilisant SageMaker Pipelines pour automatiser le prétraitement des données, l’entraînement, l’évaluation, la création du modèle, la transformation et l’enregistrement du modèle. Vous pouvez téléverser des notebooks dans Code Editor (glisser-déposer ou Upload) et exécuter les notebooks via le notebook getting_started.ipynb, qui s’ouvre avec l’environnement Python recommandé nommé base. source.
Ce qui est nouveau
Code Editor, basé sur Code-OSS (VS Code Open Source), offre un IDE familier et extensible dans SageMaker Unified Studio. Il propose l’accès au terminal, le débogage avancé et les outils de refactorisation, avec des extensions Code Editor disponibles dans le Open VSX Gallery. L’environnement Code Editor est provisionné dans un espace SageMaker et s’exécute sur un type d’instance choisi, allant de ml.t3.medium à des familles GPU comme G6. L’intégration AWS Toolkit for Visual Studio Code permet d’interagir avec S3, ECR et CloudWatch, et les permissions du projet IAM déterminent les droits d’accès. source. Les espaces multiples permettent de gérer des flux parallèles avec des besoins en calcul différents, chaque espace étant configuré avec la taille EBS, le type d’instance et le type d’application (Code Editor ou JupyterLab). L’infrastructure est gérée par SageMaker Unified Studio dans un compte de service. source. Code Editor peut être configuré pour utiliser des images SageMaker Distribution versions 2.6 ou 3.1 à son lancement, avec des mises à jour majeures et mineures prévues. Pour éviter des charges supplémentaires, supprimez les ressources créées via le console et gérez les ressources via le panneau Spaces et le Projet. Il n’ya pas de frais pour le domaine SageMaker Unified Studio lui-même, mais la suppression du domaine est possible. source. Le flux d’exemple utilise SageMaker Pipelines pour orchestrer les phases de preprocessamento, entraînement, évaluation, création et enregistrement du modèle. Le notebook peut être téléversé dans Code Editor et exécuté, et les notebooks peuvent être clonés depuis GitHub. Le Quick Pipeline peut être exécuté avec les autorisations IAM par défaut, tandis que le Full Pipeline peut nécessiter des autorisations supplémentaires. source. Pour préparer les organisations, le post décrit les prérequis liés à l’authentification IAM Identity Center dans la même Région que le domaine SageMaker et à MFA à la première connexion, ainsi que l’emplacement du URL de SageMaker Unified Studio dans la console. Il explique aussi comment supprimer les ressources pour éviter les coûts supplémentaires. source.
Pourquoi cela compte (impact pour les développeurs/entreprises)
Pour les équipes d’ingénierie ML, Code Editor apporte des fonctionnalités avancées d’IDE qui facilitent les tests, le débogage et l’exécution de pipelines directement dans SageMaker Unified Studio. La relation 1:1 entre espaces et instances aide à structurer le stockage et les ressources de calcul, tandis que les espaces multiples permettent des flux parallèles avec des exigences distinctes. Le stockage EBS persiste entre les sessions, ce qui simplifie le développement itératif et la gestion des coûts. L’AWS Toolkit for Visual Studio Code facilite la visualisation des données S3, des images conteneurisées ECR et des journaux CloudWatch, optimisant le flux de développement et de débogage. source. Adopter Code Editor et les espaces multiples accélère la livraison des charges de ML en réduisant le temps de changement d’outil et en permettant des expérimentations parallèles. Le pipeline d’exemple illustre l’automatisation end-to-end—du prétraitement des données à l’enregistrement du modèle—dans un seul environnement unifié, ce qui peut favoriser la collaboration et accroître le rythme des itérations. source.
Détails techniques ou Mise en œuvre
Le post explique comment Code Editor est provisionné dans SageMaker Unified Studio. En créant un espace, vous spécifiez: trois éléments centraux (taille du volume EBS, type d’instance et type d’application). SageMaker provisionne ensuite une instance de calcul et démarre l’application Code Editor avec l’image de conteneur choisie. Le volume EBS persiste entre les sessions même si le calcul est arrêté, et se réattache au redémarrage. Les types d’instances vont de ml.t3.medium jusqu’aux familles GPU G6. Les coûts dépendent du type d’instance et il existe des charges minimes pour le stockage EBS; les images de distribution peuvent être 2.6 ou 3.1 au lancement, avec des mises à jour prévues. Les prérequis incluent IAM Identity Center configuré dans la même Région que le domaine et MFA à la première connexion. L’AWS Toolkit pour VS Code est inclus pour faciliter l’intégration avec les services AWS pendant le projet. source. Le flux d’exemple guide l’envoi et l’exécution d’un notebook Jupyter qui crée un pipeline ML orchestré par SageMaker Pipelines, couvrant prétraitement, entraînement, évaluation, création et enregistrement du modèle. Vous pouvez téléverser des notebooks dans Code Editor par glisser-déposer ou via Upload, et les notebooks peuvent être clonés depuis GitHub. Le Quick Pipeline peut s’exécuter avec les permissions IAM par défaut; le Full Pipeline peut exiger des permissions supplémentaires. source. Les coûts et le nettoyage sont décrits: coût principal lié au type d’instance, frais de stockage EBS minimes et un délai d’inactivité pour éteindre les espaces. Pour éviter les charges, supprimez les ressources créées via les espaces ou le projet dans le console. Il n’y a pas de frais pour le domaine SageMaker Unified Studio lui-même, mais vous pouvez le supprimer si nécessaire. source.
Tableau des configurations et ressources
| Élément | Détails |
|---|---|
| Éléments centraux de l’espace | Taille du volume EBS, type d’instance, type d’application (Code Editor ou JupyterLab) |
| Plage d’instances | ml.t3.medium à des familles GPU G6 |
| Remarques tarifaires | Coût par instance et frais minimes de stockage; extinction inactif pour réduire les coûts |
| Images de distribution | SageMaker Distribution 2.6 ou 3.1 au lancement |
| Régions | Espaces Code Editor et espaces multiples disponibles dans les régions compatibles |
Points clés
- Code Editor dans SageMaker Unified Studio offre une expérience IDE proche de VS Code au sein d’un espace de travail unifié.
- Les espaces multiples permettent des flux parallèles avec des environnements isolés et une configuration par espace.
- Les pipelines SageMaker Pipelines permettent une orchestration complète de preprocessing, entraînement et enregistrement de modèles.
- Le stockage EBS persiste entre les sessions, facilitant le développement itératif et la gestion des coûts.
- Des prérequis incluent MFA et IAM Identity Center; les ressources peuvent être retirées pour éviter des coûts continuels.
FAQ
-
- **Q : Qu’est-ce que SageMaker Unified Studio ?**
Un IDE intégré qui réunit des outils pour l’analyse, l’IA/ML et les applications IA générative dans SageMaker. [source](https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/). - **Q : Qu’est-ce que Code Editor ici ?** **A :** Un IDE basé sur Code-OSS/VS Code intégré à SageMaker Unified Studio, offrant accès au terminal, débogage et extensions. [source](https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/). - **Q : Pourquoi utiliser des espaces multiples ?** **A :** Pour gérer des flux parallèles avec des besoins de calcul distincts dans un même projet. [source](https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/). - **Q : Comment sont gérées les charges ?** **A :** Les coûts dépendent du type d’instance et du stockage; extinction inactive pour limiter les coûts. [source](https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/). - **Q : Comment nettoyer les ressources ?** **A :** Supprimez les espaces via l’onglet Espaces ou supprimez le projet depuis le console SageMaker Unified Studio. [source](https://aws.amazon.com/blogs/machine-learning/speed-up-delivery-of-ml-workloads-using-code-editor-in-amazon-sagemaker-unified-studio/).
Références
More news
NVIDIA HGX B200 réduit l’intensité des émissions de carbone incorporé
Le HGX B200 de NVIDIA abaisse l’intensité des émissions de carbone incorporé de 24% par rapport au HGX H100, tout en offrant de meilleures performances IA et une efficacité énergétique accrue. Cet article résume les données PCF et les nouveautés matérielles.
Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore
Une exploration détaillée de la façon dont Amazon Bedrock AgentCore aide à faire passer des applications IA basées sur des agents du proof of concept à des systèmes de production de niveau entreprise, en préservant mémoire, sécurité, observabilité et gestion d’outils à l’échelle.
Scaleway rejoint les Fournisseurs d’Inference de Hugging Face pour une Inférence Serverless et Faible Latence
Scaleway est désormais un Fournisseur d’Inference pris en charge sur Hugging Face Hub, permettant l’inférence serverless directement sur les pages de modèles avec les SDK JS et Python. Accédez à des modèles open-weight populaires et bénéficiez d’une latence réduite.
Prévoir les phénomènes météorologiques extrêmes en quelques minutes sans superordinateur : Huge Ensembles (HENS)
NVIDIA et le Lawrence Berkeley National Laboratory présentent Huge Ensembles (HENS), un outil IA open source qui prévoit des événements météorologiques rares et à fort impact sur 27 000 années de données, avec des options open source ou prêtes à l’emploi.
Comment réduire les goulots d’étranglement KV Cache avec NVIDIA Dynamo
NVIDIA Dynamo déporte le KV Cache depuis la mémoire GPU vers un stockage économique, permettant des contextes plus longs, une meilleure concurrence et des coûts d’inférence réduits pour les grands modèles et les charges AI génératives.
Le Playbook des Grands Maîtres Kaggle: 7 Techniques de Modélisation pour Données Tabulaires
Analyse approfondie de sept techniques éprouvées par les Grands Maîtres Kaggle pour résoudre rapidement des ensembles de données tabulaires à l’aide d’une accélération GPU, des baselines divers à l’assemblage et à la pseudo-étiquetage.