Aprimore a compreensão de vídeo com Amazon Bedrock Data Automation e detecção de objetos de conjunto aberto
Sources: https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection, https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/, AWS ML Blog
TL;DR
- Detecção de objetos de conjunto aberto (OSOD) capacita modelos a detectar objetos conhecidos e não vistos, usando prompts flexíveis e se adaptando em tempo real sem re-treinamento.
- o Bedrock Data Automation adiciona OSOD a fluxos de trabalho de vídeo por meio de blueprints de vídeo, retornando caixas delimitadoras por quadro (XYWH), rótulos e pontuações de confiança.
- OSOD é integrado a recursos de vídeo do Bedrock, como segmentação de capítulos, detecção de texto por quadro e classificação por taxonomias IAB por quadro, para gerar insights acionáveis.
- Casos de uso vão desde otimização de publicidade, monitoramento de segurança, busca em conteúdo de varejo e muito mais, com saídas que podem ser filtradas ou personalizadas para atender objetivos de precisão ou recall. AWS ML Blog
Contexto e antecedentes
Em análise de vídeo e imagem do mundo real, detectores tradicionais de objetos de conjunto fechado (CSOD) enfrentam dificuldades quando objetos aparecem que não faziam parte do conjunto de treinamento. Esse desafio fica ainda maior em ambientes dinâmicos onde objetos novos, desconhecidos ou definidos pelo usuário surgem com frequência. Exemplos práticos citados incluem editores de mídia que acompanham marcas emergentes em conteúdo gerado por usuários, anunciantes analisando aparições de produtos em vídeos de influenciadores, varejistas buscando pesquisas descritivas flexíveis, e cenários como veículos autônomos identificando detritos na via. Quando objetos desconhecidos aparecem, modelos CSOD podem classificá-los incorretamente ou ignorá-los, limitando sua utilidade em fluxos de trabalho do mundo real. A detecção de objetos de conjunto aberto (OSOD) aborda essa lacuna permitindo detectar objetos conhecidos e não vistos, incluindo objetos não encontrados durante o treinamento. OSOD oferece suporte a prompts de entrada flexíveis — desde nomes específicos de objetos até descrições abertas — e pode se adaptar a alvos definidos pelo usuário em tempo real sem re-treinamento. Ao combinar reconhecimento visual com entendimento semântico — frequentemente por meio de modelos de visão-linguagem — OSOD ajuda usuários a consultar o sistema de forma ampla, mesmo quando o alvo é desconhecido, ambíguo ou inteiramente novo. AWS ML Blog Amazon Bedrock Data Automation é um serviço em nuvem que extrai insights de conteúdo não estruturado, como documentos, imagens, vídeo e áudio. No contexto de vídeo, ele oferece segmentação de capítulos, detecção de texto por quadro, classificação por taxonomias IAB por capítulo e detecção de objetos em conjunto aberto por quadro. A capacidade de OSOD está disponível em blueprints de vídeo do Bedrock Data Automation, permitindo detectar objetos desejados no nível de quadro por meio de prompts de texto. AWS ML Blog
O que há de novo
A capacidade de OSOD está integrada aos recursos de análise de vídeo do Bedrock Data Automation, oferecendo detecção de objetos poderosa, flexível e sem necessidade de re-treinamento.
- OSOD por quadro em blueprints de vídeo: você fornece um vídeo e um prompt de texto especificando os objetos a detectar. Para cada quadro, o modelo retorna um dicionário com caixas delimitadoras em formato XYWH (x, y, largura, altura), juntamente com rótulos e pontuações de confiança. Isso permite localizar com precisão e classificar detecções ao longo da linha do tempo.
- Prompt flexível e campos dinâmicos: o texto de entrada pode ser muito flexível, permitindo que blueprints de vídeo sustentados por OSOD definam campos dinâmicos. Você pode criar prompts que atendam a perguntas de negócios atuais ou alvos específicos sem re-treinamento.
- Saída personalizável: as saídas podem ser adaptadas, por exemplo, filtrando detectáveis com alta confiança ou ajustando limiares para equilibrar precisão e recall conforme a necessidade.
- Capacidades adicionais de vídeo no Bedrock: além de OSOD, o Bedrock Data Automation oferece segmentação de capítulos, detecção de texto por quadro e classificação por taxonomia IAB por capítulo, integradas para apoiar fluxos de trabalho de insights de vídeo completos. Essa combinação facilita avaliação de publicidade, monitoramento de segurança e rastreamento de objetos específico.
- Casos práticos e exemplos: anunciantes podem conduzir testes A/B para comparar a eficácia de posicionamento de anúncios em diferentes locais; prompts como “Detectar as localizações de dispositivos Echo” mostram como o sistema pode ser direcionado a alvos práticos. Outros prompts ilustram identificar elementos-chave em um vídeo ou verificar elementos perigosos em cenários de segurança doméstica. O sistema também pode localizar objetos específicos com prompts descritivos, como “Detectar o carro branco com rodas vermelhas.”
- Saídas e esquemas de blueprint: o artigo menciona um esquema de blueprint de exemplo e saídas de exemplo por quadro, ilustrando como objetos e suas caixas delimitadoras aparecem na sequência de quadros. Embora o artigo mencione um repositório no GitHub para exemplos completos, o insight principal é que as saídas de OSOD por quadro fornecem localização detalhada que pode ser consumida por pipelines downstream. AWS ML Blog A capacidade de OSOD dentro do Bedrock Data Automation aumenta significativamente a capacidade de extrair insights acionáveis de conteúdo de vídeo. Combinando consultas orientadas por texto com localização de objetos por quadro, OSOD facilita a implementação de fluxos de trabalho de análise de vídeo inteligentes em setores como avaliação de anúncios, monitoramento de segurança e rastreamento de objetos personalizados. Integrado ao conjunto mais amplo de ferramentas de análise de vídeo do Bedrock Data Automation, o OSOD não apenas facilita a compreensão do conteúdo, mas também reduz a necessidade de intervenção manual e de esquemas rígidos pré-definidos, tornando-o um ativo poderoso para aplicações escaláveis no mundo real. AWS ML Blog
Por que isso importa (impacto para desenvolvedores/empresas)
- Capacidade de consulta flexível: OSOD permite pesquisas que vão além de listas de categorias fixas, possibilitando prompts específicos ou descrições abertas para direcionar análises amplas.
- Sem necessidade de re-treinamento: a abordagem de conjunto aberto permite detectar objetos desconhecidos sem precisar re-treinar modelos, reduzindo tempo para insights e a manutenção de pipelines empresariais. AWS ML Blog
- Localização precisa por quadro: fornecer deteções por quadro com caixas XYWH permite incorporar rastreamento de objetos em fluxos de trabalho downstream, como busca, recuperação e moderação automática de conteúdo.
- Análise de vídeo de ponta a ponta: OSOD complementa outras capacidades do Bedrock Data Automation, como segmentação de capítulos e detecção de texto, oferecendo uma visão mais rica e contextualizada do conteúdo de vídeo entre capítulos e segmentos.
- Aplicabilidade em várias indústrias: os casos de uso abrangem avaliação de publicidade, moderação de conteúdo, busca indexada em varejo e monitoramento de segurança, demonstrando o valor abrangente de combinar OSOD com pipelines de análise de vídeo. AWS ML Blog
Detalhes técnicos ou Implementação
- OSOD por quadro em Bedrock Data Automation: a capacidade central permite inserir um vídeo e um prompt de texto que especifica os objetos a detectar. Para cada quadro, o sistema retorna um dicionário com caixas delimitadoras, rótulos de objetos e pontuações de confiança.
- Como funcionam os prompts: o texto de entrada é altamente flexível, permitindo que blueprints de vídeo alimentados por OSOD definam campos dinâmicos. Isso permite criar prompts que respondem a perguntas de negócios atuais ou alvos específicos sem re-treinamento.
- Saída personalizável: é possível ajustar as saídas por meio de filtros de confiança ou critérios adicionais para equilibrar precisão e recall conforme o contexto.
- Capacidades integradas: além de OSOD, o Bedrock Data Automation oferece segmentação de capítulos, detecção de texto por quadro e classificação por taxonomia IAB por capítulo, reunindo os dados para insights mais completos.
- Exemplos e esquemas: o artigo descreve um esquema de blueprint de exemplo e uma saída por quadro para ilustrar como objetos e suas caixas aparecem ao longo do tempo. Embora haja menção a um repositório no GitHub para demonstrações, o ponto principal é que as saídas de OSOD por quadro são detalhadas e utilizáveis em pipelines. AWS ML Blog
- Considerações práticas: prompts como “Detectar as localizações de dispositivos Echo” demonstram como o sistema pode ser direcionado a alvos práticos. A orientação também aponta que as saídas ajudam a tomar decisões de redimensionamento para dispositivos com diferentes resoluções e formatos, mantendo informações visuais importantes. AWS ML Blog
Tabela rápida: OSOD no Bedrock Data Automation – recursos e benefícios
| Recurso | Benefício |
|---|---|
| OSOD por quadro em blueprints de vídeo | Detecta objetos conhecidos e não vistos por quadro usando prompts flexíveis |
| Saída por quadro | Caixas delimitadoras XYWH, rótulos e pontuações de confiança para localização precisa |
| Prompt flexível | Defina campos dinâmicos e alvos sem re-treinamento |
| Personalização de saída | Filtrar por confiança para balancear precisão e recall |
| Ferramentas de vídeo adicionais | Segmentação de capítulos, Detecção de texto por quadro, Classificação por taxonomia IAB por capítulo |
Principais conclusões
- OSOD habilita a detecção de objetos conhecidos e invisíveis em vídeo, guiada por prompts flexíveis e sem necessidade de re-treinamento.
- O Bedrock Data Automation oferece OSOD por quadro dentro de blueprints de vídeo, com saída de localização por quadro (XYWH), rótulos e pontuações de confiança.
- A plataforma integra OSOD com outras capacidades de vídeo para oferecer insights de ponta a ponta, incluindo avaliação de publicidade e monitoramento de segurança.
- Use cases abrangem publicidade, monitoramento, busca em varejo e mais, com saídas personalizáveis para atender a requisitos de negócios.
- A abordagem reduz intervenção manual e suporta fluxos de trabalho escaláveis de análise de vídeo no mundo real. AWS ML Blog
FAQ
-
O que é OSOD (detecção de objetos de conjunto aberto)?
OSOD permite detectar objetos conhecidos e não vistos, incluindo objetos não encontrados durante o treinamento, usando prompts flexíveis e, frequentemente, modelos de visão-linguagem. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
Como o Bedrock Data Automation implementa OSOD em vídeo?
OSOD é aplicado no nível de quadro dentro de blueprints de vídeo. Você fornece um vídeo e um prompt de texto; para cada quadro, o sistema retorna caixas, rótulos e pontuações de confiança, com a possibilidade de personalizar a saída. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
Preciso re-treinar modelos para usar OSOD com Bedrock Data Automation?
Não. OSOD permite adaptação em tempo real a novos objetos sem re-treinamento, usando prompts flexíveis. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
uais saídas são produzidas por quadro?
Para cada quadro, o sistema fornece um conjunto de detecções com caixas XYWH, rótulos de objetos e pontuações de confiança. [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
-
uais são alguns usos descritos?
valiação de anúncios, monitoramento de segurança, busca indexada em varejo e a capacidade de localizar objetos com prompts descritivos, como “Detectar o carro branco com rodas vermelhas.” [AWS ML Blog](https://aws.amazon.com/blogs/machine-learning/enhance-video-understanding-with-amazon-bedrock-data-automation-and-open-set-object-detection/)
Referências
More news
Levar agentes de IA do conceito à produção com Amazon Bedrock AgentCore
Análise detalhada de como o Amazon Bedrock AgentCore ajuda a transformar aplicações de IA baseadas em agentes de conceito em sistemas de produção de nível empresarial, mantendo memória, segurança, observabilidade e gerenciamento de ferramentas escalável.
Monitorar Bedrock batch inference da Amazon usando métricas do CloudWatch
Saiba como monitorar e otimizar trabalhos de bedrock batch inference com métricas do CloudWatch, alarmes e painéis para melhorar desempenho, custo e governança.
Prompting para precisão com Stability AI Image Services no Amazon Bedrock
O Bedrock now oferece Stability AI Image Services com nove ferramentas para criar e editar imagens com maior precisão. Veja técnicas de prompting para uso empresarial.
Aumente a produção visual com Stability AI Image Services no Amazon Bedrock
Stability AI Image Services já estão disponíveis no Amazon Bedrock, oferecendo capacidades de edição de mídia prontas para uso via Bedrock API, ampliando os modelos Stable Diffusion 3.5 e Stable Image Core/Ultra já existentes no Bedrock.
Use AWS Deep Learning Containers com o SageMaker AI gerenciado MLflow
Explore como os AWS Deep Learning Containers (DLCs) se integram ao SageMaker AI gerenciado pelo MLflow para equilibrar controle de infraestrutura e governança robusta de ML. Um fluxo de trabalho de predição de idade de ostra com TensorFlow demonstra rastreamento de ponta a ponta, governança de model
Construir Fluxos de Trabalho Agenticos com GPT OSS da OpenAI no SageMaker AI e no Bedrock AgentCore
Visão geral de ponta a ponta para implantar modelos GPT OSS da OpenAI no SageMaker AI e no Bedrock AgentCore, alimentando um analisador de ações com múltiplos agentes usando LangGraph, incluindo quantização MXFP4 de 4 bits e orquestração serverless.