IA Générale Non Multimodale : Intelligence axée sur l’Incarnation
Sources: https://thegradient.pub/agi-is-not-multimodal, https://thegradient.pub/agi-is-not-multimodal/, The Gradient
Vue d’ensemble
Malgré les progrès rapides des capacités génératives entre langage et vision, cet article soutient que ces avancées ne constituent pas un chemin direct vers l’Intelligence Générale Artificielle (AGI). L’argument central est qu’une AGI véritable ne naîtra pas simplement de l’échelle des modèles ou de la fusion de multiples modalités; elle nécessite une forme d’intelligence fondamentalement située et ancrée dans un monde physique. L’auteur critique les approches centrées sur les modalités, où l’on tente de fusionner différents flux de données en espérant obtenir une généralité, car elles risquent de devenir des patchs qui n’atteignent pas le raisonnement sensorimoteur, la planification du mouvement et la coordination sociale. La direction proposée est une approche centrée sur l’incarnation: traiter l’interaction avec l’environnement comme primaire et voir l’intégration des modalités comme émergente, et non fondatrice. Le passage s’ouvre par une critique des définitions désincarnées de l’AGI. Une AGI véritable doit être capable dans des domaines qui proviennent de la réalité physique — par exemple, réparer une voiture, défaire un nœud, cuisiner — des tâches qui nécessitent un modèle du monde grounding. L’auteur soutient que les grands modèles de langage (LLMs) n’apprennent pas nécessairement un modèle robuste du monde; au mieux, ils memorisent des règles symboliques complexes qui aident à prédire des tokens. L’auteur met en garde contre l’équivalence entre compétence linguistique et compréhension réelle, arguant que comprendre le sens implique un ancrage dans le monde et une interaction avec lui. La distinction entre modélisation du monde et prédiction de tokens est développée. Bien que les LLMs puissent montrer des performances notables sur certains benchmarks, les preuves ne démontrent pas qu’ils construisent des modèles du monde physique. L’exemple OthelloGPT, qui peut prédire l’état d’un plateau à partir de séquences de coups, illustre pourquoi la prédiction de séquences sur des données symboliques ne se généralise pas nécessairement à la modélisation du monde physique. L’article note que de nombreuses tâches physiques échouent à être pleinement représentées par une description symbolique et exigent un grounding perceptif, une compréhension causale et une interaction avec la réalité matérielle. En d’autres termes, le succès de la prédiction de tokens ne doit pas être pris comme preuve d’une compréhension du monde ou d’un modèle du monde robuste. Le TLDR insiste sur le fait que les avancées majeures proviennent souvent d’un examen structurel de l’intelligence plutôt que d’un simple agrandissement. Il met en garde contre l’attribution de la modélisation du monde aux systèmes d’LLM simplement parce qu’ils prédisent des séquences de tokens. Le texte propose une orientation plus explicite: donner la priorité à l’interaction avec l’environnement et au grounding du monde comme source principale de comportement intelligent, en considérant la fusion des modalités comme une propriété émergente, et non comme fondatrice. La discussion situe l’intelligence incarnée et le grounding dans le monde comme une voie prometteuse pour atteindre une AGI, plutôt que de poursuivre une approche centrée sur les modalités. The Gradient.
Caractéristiques clés
- Encodage incarné en priorité: privilégier l’interaction avec le monde physique comme moteur central de l’intelligence plutôt que la seule fusion des modalités.
- Modèles du monde fondés: rechercher des représentations qui permettent de prévoir des observations de haute fidélité dans le monde réel, pas seulement des suites de tokens.
- Distinction syntaxe/sémantique: reconnaître que la maîtrise syntaxique n’équivaut pas à une compréhension semantique pleine ni à une grounding dans le monde.
- Limites de la pensée par token unique: interroger si les modèles apprennent des modèles du monde par la prédiction de tokens ou s’ils mémorisent des règles symboliques.
- Critique des systèmes multimodaux patchwork: voir l’intégration de modalités comme émergente plutôt que fondatrice.
- Compétences sensorimotrices et sociales: identifier le raisonnement sensorimoteur, la planification de mouvement et la coordination sociale comme des capacités centrales pour l’AGI.
Cas d’utilisation courants
- Définition des orientations de recherche: guider les chercheurs et les équipes produit à repenser les objectifs vers une intelligence incarnée et une interaction avec l’environnement.
- Robotique et IA incarnée: éclairer les recherches qui apprennent par l’interaction physique plutôt que par des entrées purement symboliques.
- Évaluation du progrès: encourager des cadres d’évaluation qui mesurent les performances sur des tâches nécessitant un grounding dans le monde réel, et pas uniquement des capacités multimodales.
- Stratégie et politique de l’IA: prévenir une dépendance excessive vis-à-vis du dimensionnement comme indicateur d’AGI et favoriser le grounding physique.
Configuration et installation
# Récupérer l’article pour lecture hors ligne
curl -L -o agi_not_multimodal.html https://thegradient.pub/agi-is-not-multimodal/
# Optionnel: convertir en Markdown (nécessite pandoc)
pandoc agi_not_multimodal.html -t gfm -o agi_not_multimodal.md
Démarrage rapide
# Exemple minimal exécutable: imprime une synthèse concise de la thèse de l’article
python3 - << 'PY'
summary = [
"Les progrès de l’IA peuvent être surestimés s’ils se limitent à des architectures multimodales patchwork.",
"Une IA générale véritable nécessite l’incarnation et l’interaction avec un monde physique.",
"Le succès des LLMs peut provenir de la mémorisation de règles de syntaxe plutôt que d’une compréhension robuste du monde."
]
print('\n'.join(summary))
PY
Avantages et limites
- Avantages
- Ancre l’intelligence dans l’interaction avec l’environnement, ce qui est aligné sur la résolution de problèmes réels.
- Conteste l’idée que l’échelle et la fusion de modalités suffisent pour une AGI.
- Encourage une considération explicite du grounding du monde et des dynamiques environnementales.
- Inconvénients
- Les approches centrées sur l’incarnation peuvent être plus difficiles à mettre en œuvre et à évaluer à grande échelle.
- L’article n’offre pas de feuille de route concrète universelle; il propose une philosophie de conception.
- Passer de méthodes axées sur le langage à des systèmes incarnés peut nécessiter de nouveaux jeux de données, benchmarks et outils.
Alternatives (comparaison rapide)
| Approche | Revendication centrale | Limites potentielles |---|---|---| | AGI multimodal patchwork | Fusionner les modalités pour atteindre la généralité | Peut ne pas offrir de raisonnement sensorimoteur, planification de mouvement et coordination sociale; peut manquer de grounding |Intelligence axée sur l’incarnation | Donner la priorité à l’interaction avec l’environnement et au grounding du monde | Plus difficile à mettre en œuvre; nécessite des données incarnées et une évaluation dans des contextes physiques |
Prix ou Licence
Aucune information de tarification ou de licence n’est fournie par l’article.
Références
- AGI Is Not Multimodal. The Gradient. https://thegradient.pub/agi-is-not-multimodal/
More resources
Forme, Simétries et Structure: Le rôle changeant des mathématiques dans la recherche ML
Examine comment les mathématiques restent centrales en ML, mais leur rôle évolue vers la géométrie, les symétries et les explications post-hoc à l’ère des grandes échelles.
Ce qui manque aux chatbots LLM : un sens de l'objectif
Explore le dialogue orienté objectif dans les chatbots LLM, soutenant que les échanges multi-tours s'alignent mieux sur les objectifs des utilisateurs et favorisent la collaboration, notamment pour le code et les assistants personnels.
Visions positives de l'IA fondées sur le bien-être
Cadre centré sur le bien-être pour des IA bénéfiques, associant sciences du bien-être, économie et gouvernance pour tracer des visions pragmatiques et actionnables.
Applications des LLMs au marché financier — aperçu et cas d'utilisation
Aperçu de comment les LLMs peuvent être appliqués aux marchés financiers, incluant la modélisation autoregressive des données de prix, l’intégration multimodale, la résidualisation, les données synthétiques et les prévisions sur plusieurs horizons.
Vue d’ensemble sur les biais de genre dans l’IA
Synthèse des travaux clés mesurant les biais de genre dans l’IA, couvrant les embeddings, la co-référence, la reconnaissance faciale, les benchmarks QA et la génération d’images; discussion sur les mitigations et les lacunes.
Mamba expliquée : Modèles d’espace d’états pour des contextes longs
Analyse approfondie de Mamba, backbone basé sur les SSM destiné à traiter des séquences longues, avec des performances comparables à Transformer et une efficacité accrue.