La AGI No es Multimodal: Encarnación, Modelos del Mundo y los Límites de la Escala
Sources: https://thegradient.pub/agi-is-not-multimodal, thegradient.pub
TL;DR
- Una AGI verdadera probablemente requiere una comprensión física del mundo, no solo procesamiento lingüístico o multimodal.
- Los enfoques multimodales y patchwork, al pegar modalidades, se consideran insuficientes para una inteligencia de nivel humano.
- Los LLMs podrían basarse en reglas de sintaxis y heurísticas, en lugar de modelos robustos del mundo físico.
- La encarnación, la interacción con el entorno y el razonamiento sensorimotor se presentan como objetivos primarios para avanzar hacia la AGI; el procesamiento de modalidades se ve como emergente, no fundamental.
- La crítica enfatiza la necesidad de pensar cuidadosamente la estructura de la IA: la escala por sí sola no garantiza inteligencia general.
Contexto y antecedentes
Los avances recientes de IA generativa han llevado a algunos a creer que la AGI está cerca. Si bien estos modelos parecen capturar aspectos de la inteligencia humana, también desafían nuestras intuiciones. El argumento aquí no es en contra de la escala, sino contra la idea de que escalar con el hardware que ya poseemos produzca automáticamente una inteligencia general auténtica. En particular, la estrategia más emblemática—modelos multimodales diseñados para abarcar múltiples modalidades—puede parecer amplia, pero no es probable que genere una AGI que pueda realizar razonamiento sensorimotor, planificación de movimiento y coordinación social. La tesis central es que la verdadera inteligencia debe estar fundamentalmente situada en un modelo del mundo físico, con la encarnación y la interacción real con el entorno como primarias, y que el procesamiento por modalidades debe verse como un fenómeno emergente, no como el núcleo de la cognición. Para más contexto, consulta las discusiones en The Gradient. El texto cuestiona definiciones desincorporadas de Inteligencia Artificial General que se centran en la generalidad entre dominios pero pasan por alto problemas arraigados en la realidad física. El autor argumenta que se necesita una inteligencia capaz de razonar sobre las consecuencias físicas de las acciones. El debate sobre si los LLMs están aprendiendo modelos del mundo se explora: algunos sostienen que la predicción del siguiente token produce un modelo del mundo, pero el artículo sugiere que estos modelos pueden memorizar reglas abstractas y heurísticas sin reflejar una causalidad física. Un ejemplo discutido es OthelloGPT, que mostró que un transformador entrenado en secuencias de movimientos puede predecir el estado de un tablero a partir de representaciones latentes. Sin embargo, críticos señalan que Othello es un dominio simbólico, que puede resolverse en papel, a diferencia de tareas reales que requieren interacción física. El punto clave es que no se puede deducir un retrato completo del mundo físico únicamente a partir de descripciones lingüísticas. Existen matices sobre la generalización de estos resultados a la cognición en el mundo real, que merecen atención. El texto cita también a Melanie Mitchell y a análisis relacionados que muestran que los modelos generativos pueden rendir en tareas de predicción de secuencias sin aprender modelos completos del mundo que generó los datos. Si el objetivo de predicción puede alcanzarse con heurísticas simples, entonces las afirmaciones de una comprensión profunda del mundo pierden fuerza. El argumento advierte contra reducir la semántica y la pragmática a la sintaxis y discute por qué la fusión de capacidades cognitivas distintas es crucial para una comprensión lingüística realmente enraizada en la realidad. En resumen, el autor sostiene que el progreso hacia una AGI real exigirá enfoques que den prioridad a la encarnación y a la interacción, más que a arquitecturas centradas en modalidades. En resumen, aunque la escala ha impulsado avances notables, el próximo salto hacia una AGI general y robusta probablemente provenga de enfoques que prioricen la encarnación y la interacción con el entorno, y vean la procesamiento por modalidades como emergente. Este marco invita a reflexionar sobre la estructura de la IA y a considerar el aprendizaje de modelos del mundo y el razonamiento basado en modelos como rutas para una inteligencia general confiable.
Lo nuevo
El argumento central propone un cambio de énfasis: en lugar de lograr una AGI a través de la integración multimodal, la prioridad debe ser la encarnación y la interacción con el entorno. El autor sostiene que los modelos multimodales, aunque poderosos, no producirán una AGI humana en el corto plazo porque no resuelven problemas que exigen realidad física. En lugar de un parche de modalidades, se debe dar prioridad a una arquitectura que trate la encarnación y el entorno como primarios, y que las interdependencias entre modalidades emerjan como resultados del aprendizaje mediante la interacción. Esta reformulación desafía la idea de que la escala o la fusión de modalidades produzcan automáticamente inteligencia general. El texto reafirma la idea de que modelos del mundo fiables son centrales para tareas arraigadas en la realidad física. Además, subraya que es poco probable que los LLMs estén simulando física real en sus estados latentes, sino que explotan patrones estructurales presentes en los datos lingüísticos. Esta distinción guía las inversiones en investigación y desarrollo hacia capacidades de encarnación y razonamiento del mundo para alcanzar una inteligencia más estable y generalizable.
Por qué importa (impacto para desarrolladores/empresas)
- Para desarrolladores: puede ser necesaria una reevaluación de la arquitectura. Si el objetivo es una inteligencia general robusta, conviene considerar arquitecturas que integren encarnación, retroalimentación sensorial y modelado del mundo, en lugar de depender únicamente del lenguaje o de la fusión multimodal superficial.
- Para las empresas: las soluciones centradas en texto o en multimodalidad amplia pueden ofrecer experiencias impresionantes, pero podrían enfrentar límites en entornos reales y dinámicos. Enfocarse en razonamiento basado en modelos, encarnación y modelado del mundo podría desbloquear capacidades de IA más fiables para robótica, automatización y asistentes.
- Para investigadores: el texto invita a explorar con mayor profundidad cómo construir arquitecturas que integren percepción, acción y modelado del mundo, evitando equiparar competencia lingüística con inteligencia general.
Detalles técnicos o Implementación
- Encarnación como prioridad: la idea es que entender el mundo requiere interacción directa con el entorno; los modelos deben aprovechar la encarnación para anclar el aprendizaje en la realidad física, y no limitarse a descripciones lingüísticas.
- Modelos del mundo y capacidades predictivas: la visión es que la modelización del mundo de alta fidelidad, ya sea explícita o implícita, respalda el RL basado en modelos, la planificación y la causalidad; estas capacidades parecen más acordes con una inteligencia general que la mera manipulación simbólica.
- Limitaciones de la modelación a partir del lenguaje: aunque el lenguaje puede reflejar aspectos de la realidad, evitar equiparar precisión lingüística con comprensión del mundo.
- Procesamiento de modalidades como emergente: en lugar de tratar las modalidades como bloques fundamentales, su capacidad de procesamiento múltiple puede emerger de interacciones profundas con el entorno. Esto redefine las fusiones multimodales como productos de aprendizaje anclado.
- Relevancia para subcampos: RL basado en modelos, la planificación de tareas y el movimiento en robótica, y la modelación causal del mundo ilustran cómo operacionalizar la encarnación en aplicaciones concretas.
Puntos clave
- La encarnación y la interacción con el entorno se proponen como esenciales para acercarse a una AGI, en lugar de la simple fusión multimodal.
- El dominio del lenguaje puede reflejar patrones complejos o reglas sintácticas, no necesariamente una comprensión robusta del mundo.
- El progreso real hacia una inteligencia general puede requerir sistemas integrados que combinen percepción, acción y modelado del mundo, no solo mayor escala.
- Es necesario examinar de cerca la relación entre sintaxis, semántica y pragmática para evitar interpretar las capacidades lingüísticas como signos de inteligencia general.
- Desarrolladores y empresas deben contemplar arquitecturas que prioricen encarnación, razonamiento basado en el mundo y planificación integrada para enfrentar desafíos del mundo real.
FAQ
-
- **P:** ¿Cuál es la afirmación principal sobre AGI en este artículo?
Que la verdadera AGI requiere comprensión del mundo físico y encarnación, no solo procesamiento multimodal; las arquitecturas centradas en modalidades pueden no bastar para una inteligencia general. - **P:** ¿Aprenden los LLMs modelos del mundo, según el artículo? **A:** El artículo sugiere que probablemente memorizan reglas sintácticas y heurísticas, en lugar de desarrollar modelos robustos del mundo. - **P:** ¿Qué papel juega el ejemplo OthelloGPT en la discusión? **A:** Muestra que un modelo puede inferir estados a partir de datos, pero Othello es un dominio simbólico; no se generaliza necesariamente a la realidad física. - **P:** ¿Qué deben prioritizar los desarrolladores para avanzar hacia la AGI? **A:** Priorizar encarnación, interacción con el mundo real, razonamiento sensorimotor y la integración de modelos del mundo con planificación y control, en lugar de solo escalar o fusionar modalidades.
Referencias
- The Gradient: AGI Is Not Multimodal — https://thegradient.pub/agi-is-not-multimodal
More news
Cómo reducir cuellos de botella KV Cache con NVIDIA Dynamo
NVIDIA Dynamo offloads KV Cache desde la memoria de la GPU hacia almacenamiento económico, habilitando contextos más largos, mayor concurrencia y costos de inferencia más bajos para grandes modelos y cargas de IA generativa.
Reduciendo la latencia en frío para la inferencia de LLM con NVIDIA Run:ai Model Streamer
Análisis detallado de cómo NVIDIA Run:ai Model Streamer disminuye los tiempos de arranque en frío al transmitir pesos a la memoria GPU, con benchmarks en GP3, IO2 y S3.
Agilizar el acceso a cambios de contenido ISO-rating con Verisk Rating Insights y Amazon Bedrock
Verisk Rating Insights, impulsado por Amazon Bedrock, LLM y RAG, ofrece una interfaz conversacional para acceder a cambios ERC ISO, reduciendo descargas manuales y acelerando información precisa.
Cómo msg mejoró la transformación de la fuerza laboral de RR. HH. con Amazon Bedrock y msg.ProfileMap
Este artículo explica cómo msg automatizó la armonización de datos para msg.ProfileMap usando Amazon Bedrock para impulsar flujos de enriquecimiento impulsados por LLM, aumentando la precisión de la coincidencia de conceptos de RR. HH., reduciendo la carga de trabajo manual y alineándose con la UE A
Automatizar pipelines RAG avanzados con Amazon SageMaker AI
Optimiza la experimentación a la producción para Retrieval Augmented Generation (RAG) con SageMaker AI, MLflow y Pipelines, para flujos reproducibles, escalables y con gobernanza.
Despliega Inferencia de IA escalable con NVIDIA NIM Operator 3.0.0
NVIDIA NIM Operator 3.0.0 amplía la inferencia de IA escalable en Kubernetes, habilitando despliegues multi-LLM y multi-nodo, integración con KServe y soporte DRA en modo tecnología, con colaboración de Red Hat y NeMo Guardrails.