Skip to content
Créer une main-d’œuvre privée sur SageMaker Ground Truth avec AWS CDK
Source: aws.amazon.com

Créer une main-d’œuvre privée sur SageMaker Ground Truth avec AWS CDK

Sources: https://aws.amazon.com/blogs/machine-learning/create-a-private-workforce-on-amazon-sagemaker-ground-truth-with-the-aws-cdk, https://aws.amazon.com/blogs/machine-learning/create-a-private-workforce-on-amazon-sagemaker-ground-truth-with-the-aws-cdk/, AWS ML Blog

TL;DR

  • Fournit une solution complète orientée code pour créer des mains-d’œuvre privées sur SageMaker Ground Truth associées à un pool Amazon Cognito dédié, en utilisant AWS CDK.
  • Résout la dépendance mutuelle entre les ressources Cognito et la main-d’œuvre privée via des ressources CloudFormation personnalisées pour orchestrer création et configuration.
  • Déployé en une seule pile ; le nettoyage peut être effectué via la console CloudFormation ou en lançant cdK destroy avec les mêmes options que le déploiement.
  • Le flux d’authentification des travailleurs inclut invitation par e-mail, enregistrement initial, authentification et connexion au portail de marquage.
  • Met en avant les bonnes pratiques Cognito et CDK et oriente vers des personnalisations via AWS Professional Services et guides officielles de marquage de données.

Contexte et antécédents

Les mains-d’œuvre privées pour SageMaker Ground Truth et Amazon Augmented AI (A2I) permettent aux organisations de construire des ensembles de données propriétaires tout en assurant haut niveau de sécurité et de confidentialité. La Console AWS offre une façon rapide de créer une main-d’œuvre privée, mais de nombreuses organisations exigent des approches IaC pour automatiser, harmoniser et réduire les erreurs humaines. Cet article présente une solution complète qui crée des mains-d’œuvre privées sur SageMaker AI via AWS CDK, y compris un pool Cognito entièrement configuré. L’objectif est de résoudre le principal défi d’orchestration entre Cognito et la main-d’œuvre privée pour offrir une expérience d’authentification cohérente pour les travailleurs. La solution utilise une seule pile qui fournit des ressources et services variés, certains nécessaires uniquement pour la configuration initiale et d’autres utilisées par les travailleurs pour se connecter au portail de marquage. Un point central est le besoin de séquençage: certains paramètres du client d’application Cognito, comme l’URL de rappel, ne sont disponibles qu’après la création de la main-d’œuvre, alors que celle-ci nécessite la présence préalable du client d’application. Cette dépendance mutuelle est résolue par l’utilisation de ressources CloudFormation personnalisées pour coordonner la création et la configuration des ressources dans le bon ordre. Un autre point est la stabilité du nom de domaine du pool Cognito entre les déploiements, car changer le nom de domaine après la création peut entraîner des erreurs. En combinant les constructs CDK avec les ressources CloudFormation personnalisées, l’approche assure une orchestration fiable et reproductible pour prendre en charge les tâches de marquage ML en toute sécurité.

Ce qui est nouveau

Cet article présente un modèle pratique et complet pour créer une main-d’œuvre privée dans SageMaker Ground Truth avec un pool Cognito dédié, orchestrés via AWS CDK. L’innovation clé réside dans l’intégration CDK avec des ressources CloudFormation personnalisées pour gérer les dépendances entre le pool Cognito et la main-d’œuvre privée. La solution offre:

  • Une architecture CDK qui crée et configure la main-d’œuvre privée SageMaker avec un pool Cognito et un client d’application associé, selon des dépendances.
  • Un mécanisme d’orchestration qui résout la dépendance mutuelle entre le pool et la main-d’œuvre, en veillant à ce que les paramètres soient disponibles au bon moment.
  • Une seule pile d’orchestration qui comprend les ressources nécessaires à la configuration initiale et à l’accès continu des travailleurs au portail de marquage.
  • Des consignes de déploiement et de nettoyage alignées sur les pratiques IaC, y compris la commande cd destroy comme alternative à la suppression via la console.
  • Des conseils de personnalisation pour adapter l’infrastructure de base aux standards organisationnels et aux bonnes pratiques de Cognito et CDK. Le post renvoie également à des guides officiels sur le marquage des données et les pools Cognito comme références pour étendre la solution. L’objectif est de fournir une base pratique pour l’infrastructure privée destinée au marquage avec sécurité.

Pourquoi cela compte (impact pour les développeurs et les entreprises)

  • Automatisation et cohérence: CDK et ressources CloudFormation personnalisées permettent des déploiements automatisés, répétables et auditables de mains-d’œuvre privées et de pools Cognito dédiés, réduisant les risques d’erreurs manuelles.
  • Sécurité et confidentialité: la solution crée un pool d’utilisateurs dédié pour l’authentification des travailleurs, répondant aux exigences de sécurité des données propriétaires.
  • Flux de travail de marquage de bout en bout: l’authentification couvre l’invitation par e-mail, l’enregistrement, l’authentification et la connexion au portail de marquage.
  • Gérance à l’échelle: une pile unique simplifie la gestion du cycle de vie et assure la cohérence des configurations entre les environnements.
  • Orientation pratique: le post renforce les bonnes pratiques Cognito et CDK et invite à explorer des personnalisations via AWS Professional Services et guides officiels.

Détails techniques ou Mise en œuvre

La solution repose sur une combinaison de constructs CDK et de ressources CloudFormation personnalisées qui intègrent le pool Cognito avec la main-d’œuvre privée SageMaker. La dépendance mutuelle est résolue via l’orchestration des ressources personnalisées qui synchronisent la création et la configuration dans le bon ordre. Les points clés incluent:

  • Ressources Cognito: pool d’utilisateurs dédié et client d’application, configurés pour supporter le flux d’authentification.
  • Main-d’œuvre privée SageMaker: le groupe privé qui travaille avec Cognito pour les tâches de marquage.
  • Ressources CloudFormation personnalisées: orchestrent les dépendances et paramétrages croisés.
  • Pile unique: pilote l’ensemble des ressources et leur configuration initiale et continue pour les travailleurs.
  • Constructs CDK: définissent, provisionnent et gèrent les ressources comme du code tout au long du cycle de vie.
  • Contrôles et permissions: pour sécuriser les flux et les interactions. Le flux d’authentification inclut l’invitation par e-mail, l’enregistrement initial, l’authentification et l’accès au portail de marquage. La suppression des ressources suit les pratiques IaC: suppression de la pile dans CloudFormation ou cd destroy dans le CDK. La solution est conçue pour être personnalisable afin de répondre aux normes de sécurité et politiques UX, et l’exemple CDK associé est destiné à être adapté.

Points d’architecture importants

| Composant | Rôle | Utilisation |---|---|---| | Main-d’œuvre privée SageMaker | Permet les tâches de marquage privées | Après déploiement, utilisation clé |Pool Cognito | Provisionne l’identité dédiée | Actif en permanence après configuration |App client Cognito | Active le flux d’authentification avec l’URL de rappel | Créé tôt, dépend de la main-d’œuvre |Ressources CloudFormation personnalisées | Orchestrent les dépendances | Pendant la configuration initiale |Constructs CDK | Définissent et déploient les ressources | Pendant le déploiement et les mises à jour |Ressources associées (IAM, permissions) | Contrôlent l’accès | Cycle de vie | Le flux d’authentification décrit dans le post montre comment les travailleurs se connectent et accèdent au portail de marquage après authentification. Les étapes incluent l’invitation, l’enregistrement, l’authentification et l’accès aux tâches de marquage.

Flux d’invitation et d’accès

  • Une invitation par e-mail est envoyée au travailleur.
  • Le travailleur s’inscrit, crée un mot de passe et configure une application d’authentification.
  • Le travailleur s’authentifie et accède au portail de marquage.
  • Le travailleur peut consulter les travaux et contribuer au marquage.

Notes de déploiement

  • Pré-requis: crédenciales AWS avec les permissions nécessaires pour déployer les ressources.
  • Si vous vous êtes invité via l’interface CDK, suivez l’e-mail pour vous inscrire et accéder au portail; sinon, invitez d’autres personnes selon le flux.
  • Pour nettoyer, supprimez la pile Workforce via CloudFormation ou utilisez cd destroy avec les mêmes arguments.
  • La solution est une base pour l’infrastructure privée et peut être étendue pour répondre aux standards de sécurité et politiques organisationnelles.

Points clés

  • IaC permet des déploiements automatisés et reproductibles de main-d’œuvre privée et pool Cognito dédié.
  • CDK et CloudFormation personnalisées gèrent les dépendances entre Cognito et la main-d’œuvre privée.
  • Une seule pile simplifie le cycle de vie et garantit la cohérence entre les environnements.
  • Le flux d’authentification offre une expérience complète pour les travailleurs.
  • Le post incite à des bonnes pratiques et services professionnels pour adapter l’architecture.

FAQ

Références

More news

aws.amazon.com

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè