Skip to content
Améliorez la compréhension vidéo avec Amazon Bedrock Data Automation et la détection d’objets en ensemble ouvert
Source: aws.amazon.com

Améliorez la compréhension vidéo avec Amazon Bedrock Data Automation et la détection d’objets en ensemble ouvert

Sources: https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection, https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/, AWS ML Blog

TL;DR

  • La détection d’objets en ensemble ouvert (OSOD) permet aux modèles de détecter à la fois des objets connus et des objets inédits, via des prompts flexibles et sans réentraînement.
  • Bedrock Data Automation ajoute l’OSOD au flux vidéo via des blueprints, en retournant des boîtes englobantes par image (XYWH), des étiquettes et des scores de confiance.
  • L’OSOD est intégré aux capacités vidéo de Bedrock ( segmentation de chapitres, détection de texte par image et classification par taxonomies IAB par chapitre ) pour obtenir des insights exploitables.
  • Les cas d’usage couvrent l’optimisation publicitaire, la sécurité et le contrôle, la recherche dans le Retail, et plus encore, avec des sorties pouvant être filtrées ou personnalisées selon les objectifs de précision ou de rappel. AWS ML Blog

Contexte et arrière-plan

Dans l’analyse vidéo et image du monde réel, les modèles CSOD traditionnels, qui ne couvrent qu’un nombre fixe de catégories prédéfinies, échouent lorsque des objets non prévus apparaissent dans les données. Cela est particulièrement vrai dans des environnements dynamiques où de nouveaux objets ou des cibles définies par l’utilisateur apparaissent fréquemment. Des exemples pratiques incluent les éditeurs de médias qui suivent des marques émergentes dans le contenu généré par les utilisateurs, les annonceurs qui analysent les apparitions de produits dans des vidéos d’influenceurs malgré des variations visuelles, les détaillants qui souhaitent des recherches descriptives flexibles, et même des scénarios comme les voitures autonomes qui doivent identifier des débris inattendus. Les CSOD peuvent mal classer ou ignorer ces objets inconnus, limitant leur utilité dans les applications réelles. La détection d’objets en ensemble ouvert (OSOD) est une approche qui permet de détecter à la fois des objets connus et non vus, y compris ceux non rencontrés lors de l’entraînement. Elle supporte des invites d’entrée flexibles et peut s’adapter en temps réel sans réentraînement, en combinant reconnaissance visuelle et compréhension sémantique via des modèles vision-langage. AWS ML Blog Bedrock Data Automation est un service cloud qui extrait des insights à partir de contenu non structuré (documents, images, vidéo et audio). Pour la vidéo, il prend en charge la segmentation de chapitres, la détection de texte par image, la classification par taxonomies IAB par chapitre et la détection d’objets en ensemble ouvert par cadre. La capacité OSOD est disponible dans les blueprints vidéo, permettant de détecter des objets souhaités à partir d’un texte prompt. AWS ML Blog

Nouvelles fonctionnalités

La capacité OSOD est intégrée dans les outils d’analyse vidéo de Bedrock Data Automation, offrant une détection d’objets robuste et flexible sans réentraînement.

  • OSOD par cadre dans les blueprints vidéo : vous fournissez une vidéo et un prompt textuel définissant les objets à détecter. Pour chaque cadre, le modèle retourne un dictionnaire comprenant les boîtes englobantes au format XYWH (x, y, largeur, hauteur), ainsi que les étiquettes et les scores de confiance.
  • Prompt flexible et champs dynamiques : le texte d’entrée peut être très flexible, permettant de définir des blueprints vidéo alimentés par OSOD avec des champs dynamiques. Vous pouvez définir des prompts répondant à des questions métier actuelles ou à des cibles précises sans réentraînement.
  • Sorties personnalisables : il est possible d’ajuster les sorties, par exemple en filtrant les détections à haute confiance pour privilégier la précision, ou en adaptant les seuils pour équilibrer précision et rappel.
  • Capacités vidéo Bedrock élargies : en plus de l’OSOD, le système propose la segmentation de chapitres, la détection de texte par cadre et la classification par taxonomies IAB par chapitre, pour soutenir des flux de travail d’analyse vidéo complets.
  • Cas d’utilisation et exemples : les annonceurs peuvent réaliser des tests A/B pour comparer l’efficacité des placements publicitaires selon les emplacements. D’autres prompts illustrent la détection d’éléments clés ou la vérification d’éléments dangereux dans des scénarios de sécurité domestique. Le système peut aussi localiser des objets spécifiques via des prompts descriptifs (par ex. « détecter la voiture blanche avec des roues rouges »). Des schémas et sorties d’exemple sont fournis pour illustrer la détection par cadre, avec des objets et leurs boîtes englobantes. AWS ML Blog La capacité OSOD dans Bedrock Data Automation améliore considérablement l’extraction d’insights actionnables à partir de contenus vidéo. En combinant des requêtes guidées par du texte avec une localisation par cadre, OSOD aide des industries à déployer des analyses vidéo intelligentes — du ciblage publicitaire à la sécurité et au suivi d’objets personnalisés. Intégré à l’ensemble des outils d’analyse vidéo Bedrock Data Automation, OSOD simplifie la compréhension du contenu tout en réduisant le recours à une intervention manuelle et à des schémas rigides pré-définis. AWS ML Blog

Pourquoi c’est important (impact pour les développeurs/entreprises)

  • Capacité de requête flexible : OSOD permet des recherches qui dépassent les catégories fixes, en autorisant des prompts spécifiques ou des descriptions ouvertes pour diriger l’analyse plus largement.
  • Pas de réentraînement nécessaire : l’approche ensemble ouvert permet de détecter des objets inconnus sans réentraînement, ce qui réduit le délai d’activation et la maintenance des pipelines. AWS ML Blog
  • Localisation précise par cadre : disposer de détections par cadre avec des boîtes XYWH permet d’intégrer le suivi d’objets dans des pipelines en aval (recherche, récupération, modération automatique).
  • Analyse de vidéo de bout en bout : OSOD s’intègre aux autres capacités Bedrock Data Automation (segmentation de chapitres, détection de texte) pour offrir une vue plus riche et contextuelle du contenu vidéo entre les chapitres.
  • Applicabilité intersectorielle : ces cas couvrent la publicité et l’évaluation d’audience, la modération des médias, la recherche et l’indexation en retail, la sécurité, et la fabrication, démontrant la valeur étendue de combiner OSOD avec des flux d’analyse vidéo. AWS ML Blog

Détails techniques ou Mise en œuvre

  • OSOD par cadre dans Bedrock Data Automation : la capacité centrale consiste à insérer une vidéo et un prompt textuel décrivant les objets à détecter. Pour chaque cadre, le système renvoie un dictionnaire comprenant les boîtes englobantes, les étiquettes et les scores de confiance.
  • Comment fonctionnent les prompts : le texte d’entrée est extrêmement flexible, permettant à des blueprints vidéo alimentés par OSOD d’employer des champs dynamiques et des prompts répondant à des questions métiers actuelles sans réentraînement.
  • Sorties personnalisables : il est possible d’ajuster les sorties en fonction des besoins métier, par exemple en filtrant les détections à haute confiance ou en ajustant les seuils pour trouver le bon équilibre précision/recall.
  • Capacités intégrées : en complément de l’OSOD, Bedrock Data Automation offre la segmentation de chapitres, la détection de texte par cadre et la classification par taxonomie IAB par chapitre, afin de générer des insights plus complets.
  • Exemples et schémas : l’article fait référence à un schéma de blueprint d’exemple et à une sortie d’exemple par cadre, montrant comment les objets et leurs boîtes apparaissent au fil des cadres. Une référence à un dépôt GitHub est faite pour des démonstrations complètes, mais l’idée clé est que les sorties OSOD par cadre fournissent une localisation détaillée prête à être consommée par des pipelines downstream. AWS ML Blog
  • Considérations pratiques : des prompts tels que « Détecter les localisations des dispositifs Echo » démontrent comment orienter le système vers des cibles pratiques. Les sorties peuvent aider à prendre des décisions sur le redimensionnement des flux vidéo pour des appareils avec différentes résolutions et rapports d’aspect. AWS ML Blog

Tableau rapide : OSOD dans Bedrock Data Automation – ressources et bénéfices

FonctionAvantage
OSOD par cadre dans les blueprints vidéoDétecter des objets connus et inconnus par cadre avec des prompts flexibles
Sortie par cadreBoîtes XYWH, étiquettes et scores de confiance pour localisation précise
Prompts flexiblesDéfinir des champs dynamiques et des cibles sans réentraînement
Sorties personnalisablesFiltrer par confiance pour équilibrer précision et rappel
Capacités vidéo complémentairesSegmentation de chapitres, détection de texte par cadre, taxonomie IAB par chapitre

Points à retenir

  • OSOD permet de détecter des objets connus et inconnus dans des vidéos, guidés par des prompts flexibles, sans réentraînement.
  • Bedrock Data Automation fournit OSOD par cadre dans des blueprints vidéo, avec une sortie de localisation par cadre (XYWH), étiquettes et scores de confiance.
  • L’intégration avec d’autres capacités vidéo (segmentation de chapitres, détection de texte, taxonomies IAB) permet des insights de bout en bout.
  • Les cas d’usage couvrent la publicité, la sécurité et la recherche en retail, avec des sorties personnalisables selon les besoins métiers.
  • Cette approche réduit l’intervention manuelle et soutient des flux de travail d’analyse vidéo évolutifs et réutilisables dans divers secteurs. AWS ML Blog

FAQ

  • Qu’est-ce que l’OSOD ?

    L’OSOD permet de détecter des objets connus et non vus, y compris ceux non rencontrés lors de l’entraînement, via des prompts flexibles et souvent des modèles vision-langage. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)

  • Comment Bedrock Data Automation met-il en œuvre l’OSOD dans la vidéo ?

    L’OSOD est appliqué au niveau cadre dans des blueprints vidéo. On fournit une vidéo et un prompt textuel ; pour chaque cadre, le système renvoie les boîtes, les étiquettes et les scores de confiance, avec des options de personnalisation de sortie. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)

  • Faut-il réentraîner les modèles pour utiliser l’OSOD avec Bedrock Data Automation ?

    Non. L’approche ensemble ouvert permet d’identifier des objets inconnus sans réentraînement, grâce à des prompts flexibles. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)

  • uelles sorties produit-on par cadre ?

    Pour chaque cadre, on obtient un ensemble de détections comprenant les boîtes XYWH, les étiquettes d’objet et les scores de confiance. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)

  • uelles utilisations sont mentionnées ?

    Évaluation publicitaire, surveillance de sécurité, recherche et indexation en retail, et la capacité de localiser des objets via des prompts descriptifs (par ex. « détecter la voiture blanche avec roues rouges »). [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)

Références

More news

aws.amazon.com

Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow

Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè