Améliorez la compréhension vidéo avec Amazon Bedrock Data Automation et la détection d’objets en ensemble ouvert
Sources: https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection, https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/, AWS ML Blog
TL;DR
- La détection d’objets en ensemble ouvert (OSOD) permet aux modèles de détecter à la fois des objets connus et des objets inédits, via des prompts flexibles et sans réentraînement.
- Bedrock Data Automation ajoute l’OSOD au flux vidéo via des blueprints, en retournant des boîtes englobantes par image (XYWH), des étiquettes et des scores de confiance.
- L’OSOD est intégré aux capacités vidéo de Bedrock ( segmentation de chapitres, détection de texte par image et classification par taxonomies IAB par chapitre ) pour obtenir des insights exploitables.
- Les cas d’usage couvrent l’optimisation publicitaire, la sécurité et le contrôle, la recherche dans le Retail, et plus encore, avec des sorties pouvant être filtrées ou personnalisées selon les objectifs de précision ou de rappel. AWS ML Blog
Contexte et arrière-plan
Dans l’analyse vidéo et image du monde réel, les modèles CSOD traditionnels, qui ne couvrent qu’un nombre fixe de catégories prédéfinies, échouent lorsque des objets non prévus apparaissent dans les données. Cela est particulièrement vrai dans des environnements dynamiques où de nouveaux objets ou des cibles définies par l’utilisateur apparaissent fréquemment. Des exemples pratiques incluent les éditeurs de médias qui suivent des marques émergentes dans le contenu généré par les utilisateurs, les annonceurs qui analysent les apparitions de produits dans des vidéos d’influenceurs malgré des variations visuelles, les détaillants qui souhaitent des recherches descriptives flexibles, et même des scénarios comme les voitures autonomes qui doivent identifier des débris inattendus. Les CSOD peuvent mal classer ou ignorer ces objets inconnus, limitant leur utilité dans les applications réelles. La détection d’objets en ensemble ouvert (OSOD) est une approche qui permet de détecter à la fois des objets connus et non vus, y compris ceux non rencontrés lors de l’entraînement. Elle supporte des invites d’entrée flexibles et peut s’adapter en temps réel sans réentraînement, en combinant reconnaissance visuelle et compréhension sémantique via des modèles vision-langage. AWS ML Blog Bedrock Data Automation est un service cloud qui extrait des insights à partir de contenu non structuré (documents, images, vidéo et audio). Pour la vidéo, il prend en charge la segmentation de chapitres, la détection de texte par image, la classification par taxonomies IAB par chapitre et la détection d’objets en ensemble ouvert par cadre. La capacité OSOD est disponible dans les blueprints vidéo, permettant de détecter des objets souhaités à partir d’un texte prompt. AWS ML Blog
Nouvelles fonctionnalités
La capacité OSOD est intégrée dans les outils d’analyse vidéo de Bedrock Data Automation, offrant une détection d’objets robuste et flexible sans réentraînement.
- OSOD par cadre dans les blueprints vidéo : vous fournissez une vidéo et un prompt textuel définissant les objets à détecter. Pour chaque cadre, le modèle retourne un dictionnaire comprenant les boîtes englobantes au format XYWH (x, y, largeur, hauteur), ainsi que les étiquettes et les scores de confiance.
- Prompt flexible et champs dynamiques : le texte d’entrée peut être très flexible, permettant de définir des blueprints vidéo alimentés par OSOD avec des champs dynamiques. Vous pouvez définir des prompts répondant à des questions métier actuelles ou à des cibles précises sans réentraînement.
- Sorties personnalisables : il est possible d’ajuster les sorties, par exemple en filtrant les détections à haute confiance pour privilégier la précision, ou en adaptant les seuils pour équilibrer précision et rappel.
- Capacités vidéo Bedrock élargies : en plus de l’OSOD, le système propose la segmentation de chapitres, la détection de texte par cadre et la classification par taxonomies IAB par chapitre, pour soutenir des flux de travail d’analyse vidéo complets.
- Cas d’utilisation et exemples : les annonceurs peuvent réaliser des tests A/B pour comparer l’efficacité des placements publicitaires selon les emplacements. D’autres prompts illustrent la détection d’éléments clés ou la vérification d’éléments dangereux dans des scénarios de sécurité domestique. Le système peut aussi localiser des objets spécifiques via des prompts descriptifs (par ex. « détecter la voiture blanche avec des roues rouges »). Des schémas et sorties d’exemple sont fournis pour illustrer la détection par cadre, avec des objets et leurs boîtes englobantes. AWS ML Blog La capacité OSOD dans Bedrock Data Automation améliore considérablement l’extraction d’insights actionnables à partir de contenus vidéo. En combinant des requêtes guidées par du texte avec une localisation par cadre, OSOD aide des industries à déployer des analyses vidéo intelligentes — du ciblage publicitaire à la sécurité et au suivi d’objets personnalisés. Intégré à l’ensemble des outils d’analyse vidéo Bedrock Data Automation, OSOD simplifie la compréhension du contenu tout en réduisant le recours à une intervention manuelle et à des schémas rigides pré-définis. AWS ML Blog
Pourquoi c’est important (impact pour les développeurs/entreprises)
- Capacité de requête flexible : OSOD permet des recherches qui dépassent les catégories fixes, en autorisant des prompts spécifiques ou des descriptions ouvertes pour diriger l’analyse plus largement.
- Pas de réentraînement nécessaire : l’approche ensemble ouvert permet de détecter des objets inconnus sans réentraînement, ce qui réduit le délai d’activation et la maintenance des pipelines. AWS ML Blog
- Localisation précise par cadre : disposer de détections par cadre avec des boîtes XYWH permet d’intégrer le suivi d’objets dans des pipelines en aval (recherche, récupération, modération automatique).
- Analyse de vidéo de bout en bout : OSOD s’intègre aux autres capacités Bedrock Data Automation (segmentation de chapitres, détection de texte) pour offrir une vue plus riche et contextuelle du contenu vidéo entre les chapitres.
- Applicabilité intersectorielle : ces cas couvrent la publicité et l’évaluation d’audience, la modération des médias, la recherche et l’indexation en retail, la sécurité, et la fabrication, démontrant la valeur étendue de combiner OSOD avec des flux d’analyse vidéo. AWS ML Blog
Détails techniques ou Mise en œuvre
- OSOD par cadre dans Bedrock Data Automation : la capacité centrale consiste à insérer une vidéo et un prompt textuel décrivant les objets à détecter. Pour chaque cadre, le système renvoie un dictionnaire comprenant les boîtes englobantes, les étiquettes et les scores de confiance.
- Comment fonctionnent les prompts : le texte d’entrée est extrêmement flexible, permettant à des blueprints vidéo alimentés par OSOD d’employer des champs dynamiques et des prompts répondant à des questions métiers actuelles sans réentraînement.
- Sorties personnalisables : il est possible d’ajuster les sorties en fonction des besoins métier, par exemple en filtrant les détections à haute confiance ou en ajustant les seuils pour trouver le bon équilibre précision/recall.
- Capacités intégrées : en complément de l’OSOD, Bedrock Data Automation offre la segmentation de chapitres, la détection de texte par cadre et la classification par taxonomie IAB par chapitre, afin de générer des insights plus complets.
- Exemples et schémas : l’article fait référence à un schéma de blueprint d’exemple et à une sortie d’exemple par cadre, montrant comment les objets et leurs boîtes apparaissent au fil des cadres. Une référence à un dépôt GitHub est faite pour des démonstrations complètes, mais l’idée clé est que les sorties OSOD par cadre fournissent une localisation détaillée prête à être consommée par des pipelines downstream. AWS ML Blog
- Considérations pratiques : des prompts tels que « Détecter les localisations des dispositifs Echo » démontrent comment orienter le système vers des cibles pratiques. Les sorties peuvent aider à prendre des décisions sur le redimensionnement des flux vidéo pour des appareils avec différentes résolutions et rapports d’aspect. AWS ML Blog
Tableau rapide : OSOD dans Bedrock Data Automation – ressources et bénéfices
| Fonction | Avantage |
|---|---|
| OSOD par cadre dans les blueprints vidéo | Détecter des objets connus et inconnus par cadre avec des prompts flexibles |
| Sortie par cadre | Boîtes XYWH, étiquettes et scores de confiance pour localisation précise |
| Prompts flexibles | Définir des champs dynamiques et des cibles sans réentraînement |
| Sorties personnalisables | Filtrer par confiance pour équilibrer précision et rappel |
| Capacités vidéo complémentaires | Segmentation de chapitres, détection de texte par cadre, taxonomie IAB par chapitre |
Points à retenir
- OSOD permet de détecter des objets connus et inconnus dans des vidéos, guidés par des prompts flexibles, sans réentraînement.
- Bedrock Data Automation fournit OSOD par cadre dans des blueprints vidéo, avec une sortie de localisation par cadre (XYWH), étiquettes et scores de confiance.
- L’intégration avec d’autres capacités vidéo (segmentation de chapitres, détection de texte, taxonomies IAB) permet des insights de bout en bout.
- Les cas d’usage couvrent la publicité, la sécurité et la recherche en retail, avec des sorties personnalisables selon les besoins métiers.
- Cette approche réduit l’intervention manuelle et soutient des flux de travail d’analyse vidéo évolutifs et réutilisables dans divers secteurs. AWS ML Blog
FAQ
-
Qu’est-ce que l’OSOD ?
L’OSOD permet de détecter des objets connus et non vus, y compris ceux non rencontrés lors de l’entraînement, via des prompts flexibles et souvent des modèles vision-langage. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
Comment Bedrock Data Automation met-il en œuvre l’OSOD dans la vidéo ?
L’OSOD est appliqué au niveau cadre dans des blueprints vidéo. On fournit une vidéo et un prompt textuel ; pour chaque cadre, le système renvoie les boîtes, les étiquettes et les scores de confiance, avec des options de personnalisation de sortie. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
Faut-il réentraîner les modèles pour utiliser l’OSOD avec Bedrock Data Automation ?
Non. L’approche ensemble ouvert permet d’identifier des objets inconnus sans réentraînement, grâce à des prompts flexibles. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
uelles sorties produit-on par cadre ?
Pour chaque cadre, on obtient un ensemble de détections comprenant les boîtes XYWH, les étiquettes d’objet et les scores de confiance. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
uelles utilisations sont mentionnées ?
Évaluation publicitaire, surveillance de sécurité, recherche et indexation en retail, et la capacité de localiser des objets via des prompts descriptifs (par ex. « détecter la voiture blanche avec roues rouges »). [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
Références
More news
Faire passer vos agents IA du concept à la production avec Amazon Bedrock AgentCore
Une exploration détaillée de la façon dont Amazon Bedrock AgentCore aide à faire passer des applications IA basées sur des agents du proof of concept à des systèmes de production de niveau entreprise, en préservant mémoire, sécurité, observabilité et gestion d’outils à l’échelle.
Surveiller l’inférence par lot Bedrock d’AWS via les métriques CloudWatch
Apprenez à surveiller et optimiser les jobs d’inférence par lot Bedrock via CloudWatch, with alertes et tableaux de bord pour améliorer les performances, les coûts et l’exploitation.
Prompting pour la précision avec Stability AI Image Services sur Amazon Bedrock
Bedrock intègre Stability AI Image Services avec neuf outils pour créer et modifier des images avec précision. Apprenez les techniques de prompting adaptées à l’entreprise.
Utiliser les AWS Deep Learning Containers avec SageMaker AI géré MLflow
Découvrez comment les AWS Deep Learning Containers (DLCs) s’intègrent à SageMaker AI géré par MLflow pour équilibrer le contrôle de l’infrastructure et une gouvernance ML robuste. Un flux TensorFlow pour la prédiction de l’âge des abalones illustre le suivi de bout en bout et la traçabilité des modè
Évoluer la production visuelle avec Stability AI Image Services dans Amazon Bedrock
Stability AI Image Services est désormais disponible dans Amazon Bedrock, offrant des capacités d’édition d’images prêtes à l’emploi via l’API Bedrock et étendant les modèles Stable Diffusion 3.5 et Stable Image Core/Ultra déjà présents.
Créer des flux de travail agentiques avec GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore
Vue d’ensemble complète sur le déploiement des modèles GPT OSS d’OpenAI sur SageMaker AI et Bedrock AgentCore pour alimenter un analyseur d’actions multi-agents avec LangGraph, incluant la quantification MXFP4 en 4 bits et une orchestration sans serveur.