Soluciones de IA basadas en agentes para acceso y seguridad de datos en almacenes
Sources: https://engineering.fb.com/2025/08/13/data-infrastructure/agentic-solution-for-warehouse-data-access, engineering.fb.com
TL;DR
- Meta está evolucionando su almacén de datos con un flujo de trabajo orientado por agentes, permitiendo que los agentes de IA accedan a los datos de forma segura y eficiente, junto con los usuarios humanos.
- La arquitectura introduce dos tipos de agentes principales: agentes de usuario de datos que ayudan a quienes solicitan acceso y agentes de propietario de datos que ayudan a los propietarios a gestionar el acceso, colaborando para simplificar el acceso y mantener la seguridad.
- Cada agente de usuario de datos se compone de tres subagentes especializados, coordinados por un agente de triaje, para proponer alternativas, permitir exploración de bajo riesgo y redactar solicitudes de permisos.
- Los agentes de propietario de datos incluyen subagentes centrados en operaciones de seguridad y configuración proactiva de reglas de acceso, avanzando más allá de la minería de roles tradicional.
- El sistema convierte los recursos del almacén en una vista de texto para apoyar el razonamiento de los agentes, integra salvaguardas basadas en reglas y registra todas las decisiones para auditoría y seguridad.
Contexto y antecedentes
Meta opera un gran almacén de datos como parte de sus sistemas de datos fuera de línea, que apoyan casos de uso en analítica, ML e IA. Dado el volumen, la escala y la diversidad de casos de uso, la gestión de accesos y la seguridad son cada vez más complejas. El artículo señala que los enfoques tradicionales, basados en estructuras jerárquicas y decisiones de acceso locales, tienen dificultades para mantener el ritmo de las IA que procesan datos en múltiples dominios. El auge de GenAI y de los agentes motiva repensar el acceso a datos para mejorar la productividad y reducir riesgos. El objetivo es incorporar agentes de IA en los productos de datos de Meta de forma que sirvan tanto a usuarios como a servicios, manteniendo la gobernanza. Históricamente, el acceso se modelaba mediante una estructura jerárquica, con activos hoja como tablas y dashboards gestionados por on-calls y luego por equipos, utilizando control de acceso basado en roles (RBAC) alineado a necesidades de negocio y semántica de datos. Con IA capaz de procesar datos a través de múltiples dominios, las decisiones basadas en humanos sobre un grafo amplio de activos se vuelven más desafiantes. El artículo subraya que la IA puede ofrecer soluciones al orquestar el acceso dentro de este grafo mediante agentes. La visualización del flujo de datos como un grafo —donde los nodos son activos y los bordes son actividades— muestra cómo la IA amplía el alcance de la gestión de acceso más allá de decisiones locales tradicionales. El nuevo enfoque trata el problema como un sistema multiagente, con una descomposición estructurada que separa las responsabilidades entre agentes de usuario de datos y agentes de propietario de datos para gestionar la complejidad y la escala de las solicitudes de acceso. Este cambio hacia un acceso impulsado por agentes busca mantener una gobernanza estricta mientras permite un acceso más rápido y contextual para humanos y agentes IA, e introduce salvaguardas para asegurar que las decisiones de los agentes se ajusten a políticas y semántica de datos.
Novedades
La innovación central es un flujo de trabajo de múltiples agentes diseñado para integrarse de forma nativa en los productos de datos y apoyar a humanos y agentes IA de manera segura y fluida. Los dos roles de agentes son:
- Agentes de usuario de datos que ayudan a los usuarios a obtener acceso.
- Agentes de propietario de datos que ayudan a los propietarios a gestionar el acceso. Estos dos tipos de agentes colaboran cuando ambas partes están involucradas, y la solución adopta deliberadamente la separación para permitir especialización y gobernanza más clara. Una decisión clave es descomponer el agente de usuario de datos en tres subagentes especializados, todos coordinados por un agente de triaje. Los subagentes son:
- Subagente de alternativas: sugiere opciones cuando el usuario encuentra tablas restringidas, como tablas no restringidas o análisis alternativos. Los modelos de lenguaje y los agentes permiten sintetizar esto y guiar a los usuarios a escala.
- Subagente de exploración de bajo riesgo: habilita acceso contextual y específico de la tarea para una exposición de datos limitada durante la fase de exploración.
- Subagente de redacción de permisos: redacta solicitudes de permisos y negocia con los agentes propietarios; hoy la supervisión humana está presente, pero se prevé mayor autonomía en el futuro. El agente propietario de datos también se compone de varios subagentes:
- Subagente de operaciones de seguridad: actúa como un ingeniero junior que realiza tareas de seguridad siguiendo el SOP y reglas documentadas.
- Subagente de configuración proactiva de reglas de acceso: configura reglas de acceso para el equipo, aprovechando semántica y contenido para mejorar las decisiones. Para apoyar el razonamiento, el almacén se organiza para que los recursos se describan en texto. Las unidades organizativas funcionan como carpetas, mientras que las hojas (tablas, dashboards, políticas) se describen en texto. Esta representación facilita el razonamiento de los agentes y permite que el SOP sirva como fuente de conocimiento reutilizable para ambos tipos de agentes. El manejo del contexto se divide en tres escenarios: contexto automático, contexto estático y contexto dinámico. El manejo de intenciones, o necesidades de negocio, se modela de dos formas:
- Intención explícita: los usuarios comunican explícitamente su tarea al sistema, por ejemplo, asumiendo un papel que conlleva el contexto de negocio.
- Intención implícita: el sistema infiere la intención a partir de las actividades del usuario en un corto periodo de tiempo. El uso final es un caso de vista previa de datos parciales: descubrimiento, exploración y análisis con exposición de datos controlada. El flujo orientado por agentes orquesta cuatro capacidades clave para apoyar la descubrimiento, exploración y decisiones de acceso con gobernanza.
Por qué importa (impacto para desarrolladores/empresas)
- Productividad y seguridad mejoradas: al integrar agentes en productos de datos, los equipos pueden descubrir, explorar y solicitar acceso más rápido, manteniendo salvaguardas para evitar acciones riesgosas. Esto es especialmente importante a medida que los patrones de acceso a datos se vuelven más complejos con IA entre dominios.
- Gobernanza escalable para flujos IA: la separación entre agentes de usuario y propietarios permite una gestión especializada del acceso dentro de una organización en crecimiento, reduciendo cuellos de botella y habilitando operaciones de IA trans-dominio más seguras.
- Decisiones contextuales y con riesgo: el sistema utiliza contexto automático, estático y dinámico para refinar las decisiones de acceso, guiadas por evaluaciones de riesgo basadas en reglas y con un rastro de auditoría completo.
- Arquitectura práctica para grandes almacenes de datos: el enfoque convierte un almacén jerárquico en una representación de texto, lo que permite a los agentes razonar sobre una amplia gama de activos sin necesidad de que los usuarios ubiquen manualmente los recursos relevantes.
Detalles técnicos o Implementación
La implementación se centra en un sistema de múltiples agentes con dos roles básicos integrados en los productos de datos. El agente de usuario de datos depende de herramientas de actividades de usuario y de perfil para inferir la intención y dirigir la solicitud al agente propietario. El agente propietario analiza la consulta, identifica los recursos accedidos y recupera metadatos relevantes (resúmenes de tablas, descripciones de columnas, semántica de datos y SOPs). El agente propietario utiliza un modelo de lenguaje para generar la decisión y el razonamiento subyacente, con una salvaguarda de salida que garantiza el alineamiento con las evaluaciones de riesgo basadas en reglas. Todas las decisiones y los registros se almacenan de forma segura para auditoría futura. El almacén de datos se presenta como una estructura orientada al texto: las unidades organizativas funcionan como carpetas y los recursos hoja (tablas, dashboards, políticas) se describen en texto. Esta representación facilita el razonamiento de los agentes y permite que el SOP sirva como fuente de conocimiento reutilizable para ambos tipos de agentes. La separación de responsabilidades entre agentes de usuario y propietarios reduce conflictos entre dominios y permite mejoras modulares en el flujo. Un caso de uso de vista previa parcial de datos ilustra el flujo de extremo a extremo: descubrimiento, exploración y análisis con exposición de datos controlada. Las cuatro capacidades clave que orquestan el flujo orientado por agentes incluyen: 1) recopilar actividades del usuario en múltiples plataformas, 2) construir intenciones explícitas o inferidas, 3) recuperación de metadatos y generación de decisiones por el agente propietario, y 4) aplicar salvaguardas y registrar resultados para la gobernanza. La gobernanza se fortalece a través de evaluaciones de riesgo basadas en reglas, SOP documentados y registro de decisiones y resultados para auditoría. Inicialmente, se mantiene una supervisión humana para supervisar y afinar el sistema, con la aspiración de que los subagentes operen de forma más autónoma en el futuro, manteniendo la alineación con políticas de seguridad y uso de datos. Este enfoque de roles de agentes bien definidos, razonamiento contextual y gobernanza explícita busca habilitar un acceso a datos más seguro y escalable para humanos y agentes IA.
Tabla: roles y responsabilidades clave
| Rol | Responsabilidades principales |
|---|---|
| Agente usuario de datos | Ayuda a los usuarios a obtener acceso; coordina con subagentes para alternativas, exploración de bajo riesgo y redacción de permisos |
| Agente propietario de datos | Ayuda a los propietarios a gestionar el acceso; incluye operaciones de seguridad y configuración proactiva de reglas de acceso |
Puntos clave
- Flujos de trabajo basados en agentes que integran IA para mejorar la velocidad y la seguridad del acceso a datos.
- Separación de responsabilidades entre agentes de usuario y propietario para gobernanza especializada en entornos complejos.
- Descomposición en subagentes que soportan razonamiento contextual y decisiones escalables.
- Representación textual de recursos y SOP para facilitar el razonamiento de los agentes y mantener límites de seguridad claros.
- Gobernanza continua con evaluaciones de riesgo basadas en reglas y registro de operaciones para trazabilidad conforme los agentes ganan autonomía.
Preguntas frecuentes (FAQ)
- P: ¿Cuál es el objetivo del flujo de acceso a datos orientado por agentes? R: Optimizar el acceso a datos para humanos e IA con salvaguardas y gobernanza, garantizando un acceso seguro y escalable en un almacén de datos en crecimiento.
- P: ¿Cómo está estructurado el agente de usuario de datos? R: Se compone de tres subagentes especializados —alternativas, exploración de bajo riesgo y redacción de permisos—, todos coordinados por un agente de triaje para guiar a los usuarios y las solicitudes.
- P: ¿De qué se encargan los agentes propietario de datos? R: Incluyen operaciones de seguridad y configuración proactiva de reglas de acceso, ayudando a los propietarios a gestionar las políticas de acceso.
- P: ¿Cómo se gestiona el contexto? R: El contexto se clasifica como automático, estático y dinámico, permitiendo filtrado adicional y decisiones de acceso más precisas.
Referencias
More news
Un nuevo marco de clasificación consciente de la diversidad para mejorar la calidad de notificaciones en Instagram
Meta presenta un marco de clasificación de notificaciones consciente de la diversidad que agrega una capa de diversidad sobre los modelos de compromiso para reducir la repetición, ampliar la variedad de contenido y mejorar el CTR en las notificaciones de Instagram.
Habilitando la Compilación Incremental de Kotlin en Buck2 con la Build Tools API KEEP
Meta lleva la compilación incremental de Kotlin a Buck2, acelerando las compilaciones de Kotlin con acciones incrementales, snapshots de classpath y una integración cuidadosa de plugins para herramientas Android más rápidas y escalables.
Diff Risk Score: IA para desarrollo de software con gestión de riesgos en Meta
Diff Risk Score (DRS) usa un Llama ajustado para predecir incidentes en producción a partir de cambios de código y guiar el desarrollo consciente del riesgo a lo largo del ciclo de software.
Construir una interfaz humano‑máquina para todos: Meta explora entrada sEMG en la muñeca
Reality Labs de Meta avanza con dispositivos en la muñeca que usan sEMG para una interfaz humano‑máquina universal, ante el reto de generalización en HCI. Un episodio del Meta Tech Podcast analiza este enfoque.
Acelerando ML en el dispositivo en la familia de apps de Meta con ExecuTorch
ExecuTorch es el marco de inferencia en el dispositivo de Meta para dispositivos móviles y edge, basado en PyTorch 2.x. Mejora la latencia, la privacidad y el rendimiento en Instagram, WhatsApp, Messenger y Facebook.
Cómo Meta mantiene confiable su hardware de IA
La infraestructura de IA de Meta abarca centros de datos globales; el artículo describe detección y mitigación de fallas de hardware y corrupciones silenciosas de datos (SDC) para mantener la capacitación y la inferencia fiables a gran escala.