Solutions d’agents IA pour l’accès et la sécurité des données en entrepôt

TL;DR

Meta fait évoluer son data warehouse par un flux piloté par des agents pour équilibrer productivité, sécurité et intégration IA.
Le système introduit des agents utilisateur de données et des agents propriétaire de données qui coopèrent pour simplifier l’accès tout en gérant les risques.
Chaque agent est composé de sous-agents spécialisés; un agent de triage coordonne leurs actions.
Le contexte, la gestion des intentions et des garde-fous basés sur des règles guident les décisions, avec une vue textuelle en lecture seule des ressources du data warehouse.
L’approche vise à permettre une prévisualisation partielle des données avec des décisions auditées et des journaux pour la gouvernance.

Contexte et antécédents

Meta exploite un data warehouse dans le cadre de ses systèmes de données hors ligne pour soutenir l’analyse, le ML et l’IA. Avec l’augmentation du volume de données et des schémas d’accès, les défis en matière de sécurité et d’accès rapide deviennent plus importants. Traditionnellement, les décisions d’accès étaient majoritairement locales et guidées par des règles dans une structure hiérarchique basée sur les rôles. Avec l’essor de l’IA et des agents traitant des données sur plusieurs actifs, il devient difficile de maintenir la sécurité tout en facilitant l’accès à grande échelle. Pour relever ces défis, Meta fait évoluer le modèle vers une solution d’agents pour l’accès aux données. L’objectif est d’intégrer les agents nativement dans les produits de données, offrant une expérience fluide pour les humains et les services, tout en maintenant des garde-fous stricts via des évaluations de risque analytiques. Le data warehouse était organisé de manière à ce que les feuilles (tables, pipelines, dashboards) soient en bas, avec les on-calls, les équipes et les hiérarchies organisationnelles au sommet. Cette structure hiérarchique autorisait des décisions d’accès mais ne s’adaptait pas bien aux flux IA inter-domaines. Une visualisation des flux de données sous forme de graphe aide à comprendre comment les actifs et les activités se combinent pour l’accès. À mesure que l’IA permet un traitement plus large des données à travers les domaines, les décisions humaines deviennent un goulot d’étranglement. L’approche pilotée par agents est conçue pour répondre à la fois à l’échelle, à la vitesse et à la gouvernance nécessaires, tout en restant compatible avec les flux humains.

Nouveautés

L’innovation centrale est un système multi-agents où des agents utilisateur de données assistent les utilisateurs et des agents propriétaire de données aident les propriétaires à gérer l’accès. Les deux types d’agents coopèrent lorsque les deux parties sont impliquées, avec une séparation volontaire pour chaque rôle.

Agent utilisateur de données : pas une entité monolithique mais une composition de trois sous-agents spécialisés coordonnés par un agent de triage.
Sous-agent 1 (alternatives) : propose des alternatives lorsque des tables ou colonnes sont restreintes, comme révéler des options non restreintes ou moins restrictives, ou guider la réécriture de requêtes pour utiliser des colonnes non restreintes ou des analyses approuvées. Des modèles de langage et des agents permettent d’appliquer ces conseils à l’échelle.
Sous-agent 2 (exploration à faible risque) : soutient l’accès contextuel et ciblé à des données pour l’exploration initiale, notamment pour accéder à une petite portion des données.
Sous-agent 3 (demande d’accès et négociation) : prépare les demandes de permission et négocie avec les agents du propriétaire. Actuellement supervisé par l’humain, avec l’objectif d’une autonomie croissante.
Agent propriétaire de données : également composé de sous-agents, dont un pour les opérations de sécurité et un autre pour l’assistance à la gestion d’accès.
Sous-agent (opérations de sécurité) : agit comme un ingénieur junior qui suit le SOP pour traiter les demandes.
Sous-agent (configuration des règles d’accès) : configure proactivement les règles d’accès pour l’équipe, évoluant par rapport à l’approche traditionnelle de mining des rôles et tirant parti de la sémantique et du contenu.
Vue textuelle du data warehouse : la structure hiérarchique est traduite en une représentation lisible en texte (dossiers comme unités organisationnelles et feuilles comme ressources telles que tables, dashboards ou politiques). Cette vue en lecture seule donne aux agents un aperçu résumé des ressources.
SOP et contexte : le SOP qui documente les pratiques d’accès à partir de règles, wikis et interactions passées devient une ressource textuelle pour guider les décisions.
Gestion du contexte : trois scénarios—contexte automatique, statique et dynamique—aident les agents à filtrer les ressources et à rester alignés sur l’intention.
Gestion de l’intention : l’intention utilisateur est modélisée de manière explicite (via des rôles et signaux de tâche) et implicite (déduite des activités récentes).
Cas d’utilisation « end-to-end » : prévisualisation partielle des données. Le flux piloté par les agents permet la découverte, l’exploration et l’analyse initiale, en offrant un accès spécifique à la tâche pendant l’exploration tout en maintenant la gouvernance.
Quatre capacités clés : orchestrées dans le flux de travail piloté par les agents (détails résumés dans l’architecture système).
Architecture système : les agents utilisateur collectent des activités sur plusieurs plateformes (diffs, tâches, publications, dashboards, documents) et les informations de profil afin d’inférer l’intention. L’agent propriétaire analyse la requête, identifie les ressources, obtient des métadonnées et utilise un LLM pour générer la décision et le raisonnement. Un garde des résultats assure la conformité avec les calculs de risque, et toutes les décisions et les journaux sont stockés en sécurité pour audit.

Pourquoi c’est important (impact pour les développeurs/entreprises)

L’approche basée sur les agents vise à améliorer la sécurité et la productivité dans des environnements de données à grande échelle. En décomposant les tâches en agents et sous-agents spécialisés, les organisations peuvent proposer un accès aux données plus contextuel et à faible risque lors de l’exploration tout en conservant une gouvernance robuste grâce aux SOP, garde-fous de risque et journaux audités. Le modèle facilite les charges de travail IA plus étendues traversant les domaines et repose sur une représentation des ressources en texte pour alimenter les LLMs. Pour les développeurs, cela signifie une meilleure clarté sur les responsabilités des décisions d’accès, un modèle réutilisable pour des produits de données d’entreprise et une collaboration plus sûre entre humains et services pilotés par IA. Pour les entreprises, cela se traduit par une découverte et une exploration des données plus rapides, sans compromis sur la sécurité, avec une traçabilité des décisions et des actions en milieu professionnel.

Détails techniques ou Implémentation

Représentation hiérarchique en texte : les unités organisationnelles sont traitées comme des dossiers et les ressources feuilles comme des tables, dashboards, politiques ou autres entités. Cette vue en texte en lecture seule permet aux agents de raisonner sur les actifs sans exposer les données brutes.
SOP comme ressource : le SOP documentant les pratiques d’accès est utilisé comme entrée textuelle pour orienter les décisions des agents.
Gestion du contexte : trois modes guident la sélection des ressources : contexte automatique (accès basé sur le système), contexte statique (portée explicite ou élargissement) et contexte dynamique (filtrage supplémentaire par métadonnées ou similarité).
Gestion de l’intention : intention explicite via des signaux utilisateur et des rôles, et intention implicite déduite des activités récentes pour accommoder les besoins qui évoluent.
Flux end-to-end partenaires : dans un scénario typique d’accès aux données, le travail de l’utilisateur commence par la découverte et l’exploration, puis l’analyse. Pendant l’exploration, l’accès à un échantillon de données est fourni sous forme guidée par les quatre capacités, tout en respectant la gouvernance.
Anatomie de l’agent utilisateur : l’agent utilisateur exploite l’outil d’activités utilisateur pour rassembler des activités sur plusieurs plateformes et l’outil de profil utilisateur pour obtenir des informations de profil. Avec ces données, il formule l’intention de l’utilisateur et fait appel à l’agent propriétaire pour avancer.
Capacités de l’agent propriétaire : l’agent analyse la requête, identifie les ressources et obtient des métadonnées sur ces ressources, puis utilise un LLM pour générer la décision et le raisonnement. Un garde des résultats assure la conformité avec les règles de risque et tous les résultats et journaux sont stockés en sécurité.
Garde-fous et audit : les évaluations de risque et les journaux de décisions permettent de maintenir la sécurité tout en assurant une gouvernance scalable dans les flux pilotés par IA.

Points clés (takeaways)

L’accès aux données piloté par les agents combine IA et gouvernance des données pour scaler les décisions d’accès.
La séparation entre les agents utilisateur et propriétaire de données offre un focus clair sur chaque rôle.
Les SOP et les interactions passées sont traités comme des ressources textuelles qui guident le comportement des agents et garantissent la gouvernance.
La gestion du contexte et de l’intention est essentielle pour une exploration rapide et sûre axée sur la tâche.
Toutes les décisions, métadonnées consultées et journaux sont stockés pour l’audit en environnements d’entreprise.

FAQ

- **Q : Qu’est-ce que la solution d’accès aux données basée sur les agents ?**

Un système multi-agent avec des agents utilisateur et des agents propriétaire qui collaborent pour simplifier l’accès tout en assurant des garde-fous et une gouvernance. - **Q : Comment les agents gèrent-ils les demandes d’accès ?** **A :** L’agent utilisateur déduit l’intention à partir des activités et du profil, puis sollicite l’agent propriétaire qui analyse la requête, récupère les métadonnées et utilise un LLM pour décider et justifier l’accès. Un garde des résultats vérifie le risque et les décisions sont enregistrées. - **Q : Quel rôle jouent les sous-agents ?** **A :** Les sous-agents de l’agent utilisateur fournissent des alternatives, permettent l’exploration à faible risque et préparent les demandes d’accès; les sous-agents de l’agent propriétaire gèrent les opérations de sécurité et configurent proactivement les règles d’accès. - **Q : Comment le SOP est-il utilisé ?** **A :** Le SOP est traité comme une ressource textuelle qui guide les décisions des agents. - **Q : Comment le contexte est-il géré ?** **A :** Le contexte se décline en automatique, statique et dynamique pour filtrer les ressources et rester aligné sur l’intention.