Criando Soluções de Agentes de IA para Acesso e Segurança de Dados em Armazém

TL;DR

Meta apresenta um fluxo de trabalho orientado por agentes para acesso a dados em warehouse, pareando agentes de usuário de dados com agentes de proprietário de dados para simplificar o acesso e reduzir riscos.
O sistema decompõe responsabilidades em agentes especializados, com três subagentes para o agente de usuário de dados e dois para o agente de proprietário de dados, coordenados por um agente de triagem.
Entradas de SOPs, semântica de dados e metadados são transformadas em uma visão textual legível para capacitar agentes que operam entre recursos hierárquicos.
Salvaguardas e regras baseadas em risco orientam as decisões, com logs e decisões armazenados com segurança para auditoria e melhorias futuras.

Contexto e histórico

A Meta opera um data warehouse como parte de seus sistemas de dados offline para suportar analytics, ML e IA. Dada a imensa quantidade de dados, a escala e os padrões de uso diversos, a segurança de acesso a dados é crítica e cada vez mais complexa. Historicamente, as decisões de acesso eram locais, orientadas por regras e vinculadas a uma estrutura hierárquica onde folhas são tabelas e dashboards, com as equipes e unidades organizacionais definindo acesso via controles de role-based. À medida que IA evolui e agentes começam a processar dados em várias partes do grafo de dados, as decisões humanas tradicionais têm dificuldade de acompanhar necessidades entre domínios. A empresa enfatiza que IA pode oferecer soluções para esses desafios, e a mudança para uma abordagem orientada por agentes é apresentada como uma evolução dos produtos de dados internos que devem funcionar tanto para humanos quanto para serviços de IA. O fluxo de dados pode ser visualizado como um grafo com ativos como nós e atividades como arestas; o acesso entre domínios exige novas abordagens que o modelo orientado por agentes busca atender. Meta Engineering Blog

O que há de novo

O artigo detalha a transição de um modelo de acesso hierárquico centrado no humano para um fluxo de trabalho orientado por agentes que inclui:

Um sistema multi-agente com dois tipos principais: agentes de usuário de dados (que ajudam usuários a obter acesso) e agentes de proprietário de dados (que auxiliam proprietários a gerenciar acessos). Esses agentes colaboram para simplificar processos quando ambas as partes estão envolvidas.
Separação de responsabilidades: agentes de usuário de dados focados em facilitar o acesso; agentes de proprietário de dados focados em operações de segurança e configuração de acesso.
Decomposição em subagentes especializados dentro de cada agente principal. O agente de usuário de dados é composto por três subagentes coordenados por um agente de triagem; o agente de proprietário de dados inclui subagentes para operações de segurança e para configuração pró-ativa de regras.
Uma mudança para tratar SOPs, regras documentadas e interações passadas como recursos de texto que os agentes podem ler e raciocinar, junto com uma visão textual somente leitura dos recursos do data warehouse que representa pastas como unidades organizacionais e folhas como ativos.
Gestão de contexto com três modos: contexto automático (tentativas de acesso monitoradas pelo sistema), contexto estático (alcance explicitamente escolhido) e contexto dinâmico (filtro adicional por metadados ou similaridade).
Modelagem de intenção: explícita (o usuário declara a tarefa) e implícita (inferida a partir de atividades recentes), para permitir decisões de acesso mais adaptativas.
Um caso de uso de ponta a ponta chamado pré-visualização parcial de dados, em que quatro capacidades-chave são orquestradas para fornecer acesso específico à tarefa durante a exploração.

Por que isso importa (impacto para desenvolvedores/empresas)

Aumento de produtividade e redução de risco: a abordagem orientada por agentes busca simplificar o acesso a dados em escala ao mesmo tempo em que mantém salvaguardas por meio de avaliações de risco baseadas em regras e logging centralizado.
Melhoria na colaboração entre humanos e IA: a separação entre agentes de usuário de dados e de proprietário de dados permite que cada lado otimize suas responsabilidades, facilitando interações entre domínios.
Aprimoramento do uso de semântica e conteúdo: ao usar semântica estruturada e SOPs documentados, os agentes podem oferecer opções contextuais relevantes e reduzir a dependência de conhecimento não documentado.
Exploração de dados escalável: os três subagentes dentro do agente de usuário de dados permitem exploração segura e mais inteligente com restrição de exibição de dados, quando apropriado.

Detalhes técnicos ou Implementação

Arquitetura e visualização de dados: o data warehouse hierárquico é convertido em uma representação textual para alimentar os agentes. Recursos incluem tabelas, dashboards, políticas e outras entidades; pastas representam unidades organizacionais, e folhas são ativos acionáveis. O SOP é armazenado como recurso textual que pode orientar o comportamento dos agentes.
Papéis e subagentes
Agente de usuário de dados: três subagentes com coordenação de um agente de triagem.
Subagente 1 (Alternativas): propõe alternativas quando o acesso a tabelas restritas é encontrado, incluindo tabelas não restritas ou análises curadas.
Subagente 2 (Exploração de baixo risco): oferece acesso contextualizado, específico para a tarefa, para exploração de dados com exposição restrita limitada.
Subagente 3 (Solicitações de acesso): elabora solicitações de permissão e negocia com os agentes de proprietário de dados; supervisão humana permanece, mas pode se tornar autônoma com o tempo.
Agente de proprietário de dados: foca em operações de segurança e configuração de regras de acesso (com subagentes para processamento de solicitações e configuração de regras proativas).
Gestão de contexto e awareness de recursos: entradas como SOPs, diretrizes baseadas em regras e interações passadas são representadas como recursos de texto que informam as decisões dos agentes. O contexto é categorizado em automático, estático e dinâmico para suportar descoberta, delimitação e filtragem adicional por metadados ou similaridade.
Modelagem de intenção: a intenção explícita vem de usuários declarando sua tarefa; a intenção implícita é inferida a partir de atividades recentes, permitindo decisões de acesso mais adaptativas.
Fluxo de trabalho de ponta a ponta e descoberta de dados: o fluxo orientado por agentes orquestra quatro capacidades-chave para habilitar um caso de uso completo, geralmente começando com descoberta de dados, seguida de exploração e, por fim, análise com exposição de dados controlada.
Interações entre usuário de dados e proprietário de dados: o agente de usuário de dados chama o agente de proprietário de dados após avaliar a intenção do usuário e os recursos-alvo; o agente de proprietário de dados recupera metadados (resumos de tabelas, descrições de colunas, semântica de dados) e utiliza um modelo de LLM para gerar a decisão de saída e o raciocínio. Um guarda de saída verifica se a decisão está alinhada ao risco; decisões e logs são armazenados com segurança para auditoria e melhoria futura. [Meta Engineering Blog]

Tipo de agente	Foco / Sub-agentes
Agente de usuário de dados	Três subagentes com coordenação de um agente de triagem: Alternativas; Exploração de baixo risco; Solicitações de acesso (com supervisão humana contínua).
Agente de proprietário de dados	Subagentes para operações de segurança e configuração pró-ativa de regras de acesso.

Capacidades-chave do fluxo de trabalho orientado por agentes

Coletar atividades do usuário em várias plataformas (diffs, tarefas, posts, SEVs, dashboards, documentos) via uma ferramenta de atividades do usuário.
Recuperar informações de perfil via uma ferramenta de perfil do usuário para ajudar a formular a intenção.
Analisar a consulta, identificar os recursos e recuperar metadados (resumos de tabelas, descrições de colunas, semântica, SOPs).
Gerar decisão de saída e raciocínio com um LLM; validar com salvaguardas de risco baseadas em regras; registrar decisões e logs com segurança para referência futura e auditoria.

Principais conclusões

A abordagem orientada por agentes combina processos de acesso a dados humanos e alimentados por IA para lidar com escala crescente e padrões de acesso entre domínios.
Subagentes especializados dentro de cada tipo de agente permitem automação direcionada mantendo supervisão humana onde necessário.
Representação textual de recursos de data warehouse, aliada a diretrizes de SOP e gestão de contexto/intenção, suporta acesso a dados seguro e escalável.
Salvaguardas e logs seguros são centrais para garantir que decisões automatizadas estejam alinhadas a políticas de risco e conformidade.

FAQ

O que é a solução de agentes para acesso a dados?

É um sistema multiagente com agentes de usuário de dados e de proprietário de dados que colaboram para simplificar o acesso, mantendo salvaguardas de risco.
Como os subagentes são organizados dentro dos agentes de usuário e de proprietário?

O agente de usuário de dados possui três subagentes (Alternativas, Exploração de baixo risco, Solicitações de acesso) coordenados por um agente de triagem; o agente de proprietário de dados inclui subagentes para operações de segurança e configuração de regras.
Como o contexto é gerido no fluxo orientado por agentes?

O contexto é gerido em três modos: automático (tentativas de acesso monitoradas), estático (escopo explícito) e dinâmico (filtragem adicional por metadados ou similaridade).
Como são tomadas as decisões e quais salvaguardas existem?

Um LLM gera a decisão de saída e o raciocínio, e um guarda de risco baseado em regras valida a decisão antes de registrar e armazenar para auditoria.