Skip to content
AGI n’est pas multimodale : Embodiment, modèles du monde et les limites de l’IA patchwork
Source: thegradient.pub

AGI n’est pas multimodale : Embodiment, modèles du monde et les limites de l’IA patchwork

Sources: https://thegradient.pub/agi-is-not-multimodal, thegradient.pub

TL;DR

  • Une AGI véritable nécessite une compréhension physique du monde et la capacité de résoudre des problèmes issus de la réalité physique, pas seulement manipuler des symboles.
  • Les approches multimodales et patchwork — de grands réseaux modulaires reliés à de multiples modalités — ne mèneront pas, à elles seules, à une AGI humaine capable de raisonnement sensorimoteur, de planification de mouvement ou de coordination sociale.
  • Les LLMs peuvent exhiber des compétences linguistiques avancées sans apprendre nécessairement des modèles robustes du monde; leur succès peut s’expliquer par la mémorisation de règles abstraites et de symboles plutôt que par une ancrage dans la réalité.
  • L’orientation vers l’embodiment et l’interaction avec l’environnement devrait être centrale, l’intégration des modalités émergant comme propriété secondaire.
  • Cette vision remet en cause les trajectoires axées sur l’échelle et les modalités, appelant à une approche axée sur l’apprentissage incarné et l’expérience réelle.

Contexte et arrière-plan

Les succès récents des modèles d’IA générative ont convaincu certains que l’AGI est imminente. Bien que ces modèles semblent saisir l’essence de l’intelligence humaine, ils défient nos intuitions les plus basiques sur l’intelligence. Selon cette perspective, l’AGI n’est pas apparue comme une solution réfléchie et incarnée à l’intelligence; elle a émergé du dimensionnement à grande échelle du matériel et des logiciels existants. Le texte souligne que la tendance la plus emblématique — les approches multimodales qui fusionnent de nombreuses modalités en un seul système — sonne générale mais est, selon l’auteur, peu susceptible de livrer une AGI au niveau humain capable de raisonnement sensorimoteur et de coordination sociale. L’argument central est de traiter l’embodiment et l’interaction avec l’environnement comme primaires, tandis que l’intégration multimodale est vue comme une propriété émergente plutôt que comme un ingrédient fondamental de l’intelligence. En d’autres termes, pour atteindre l’AGI, il ne faut pas se contenter de patchworks de modalités; il faut construire des systèmes qui opèrent avec une compréhension physique enracinée du monde. Le texte s’oppose aux définitions désincorporées de l’IA générale qui mettent l’accent sur la généralité tout en ignorant les contraintes du monde réel qui définissent l’intelligence. Une AGI véritable, selon l’argument, doit pouvoir résoudre des problèmes qui proviennent de la réalité physique — réparer une voiture, défaire un nœud, préparer un repas — et pas seulement manipuler des symboles. TLDR : une compréhension ancrée dans le monde physique est essentielle, et prévoir la prochaine unité de texte ne garantit pas une modélisation robuste du monde. L’auteur discute de la possibilité que les LLMs apprennent des modèles du monde par prédiction de tokens, tout en notant que ces modèles réussissent parfois des tâches de prédiction de séquences sans apprendre des modèles du monde qui les a générés. Le point est que la prédiction de tokens peut être plus facile à optimiser que la construction d’un modèle du monde fidèle, ce qui peut biaiser notre évaluation de l’intelligence d’une IA. Pour le contexte, le texte s’appuie sur des débats autour de savoir si les modèles du monde s’appuient uniquement sur le langage ou s’ils nécessitent une perception physique. Il cite aussi les critiques de Melanie Mitchell et discute des différences entre symboles et signification semantique. L’avertissement principal est de ne pas prendre la maîtrise linguistique pour une intelligence générale, car les mécanismes sous-jacents peuvent être fondamentalement différents de la cognition humaine. The Gradient explore ces thèmes et offre une synthèse utile pour nourrir cette perspective.

Ce qui est nouveau

Ce qui est nouveau ici est un repositionnement du problème de l’intelligence générale : la multimodalité, même à grande échelle, ne remplace pas l’intelligence incarnée. L’argument soutient qu’une AGI capable de raisonnement sensorimoteur, de planification de mouvement et de coordination sociale ne peut être atteinte en reliant simplement des modalités dans un système patchwork. instead, l’intelligence doit être fondamentalement située dans une modélisation du monde physique, avec l’interaction avec l’environnement comme moteur central de l’apprentissage. Un point clé est que nombre des capacités impressionnantes des grands modèles pourraient provenir de l’apprentissage d’heuristiques riches pour prédire les tokens, plutôt que de la construction de modèles internes du monde physique. Cette distinction est importante car elle souligne une possible déconnexion entre la compétence linguistique superficielle et la compréhension robuste de la réalité. Le texte critique l’idée que le langage soit un proxy suffisant pour la connaissance du monde et insiste sur le fait qu’un véritable modèle du monde permettrait la prédiction et la planification face à des contraintes physiques que les descriptions linguistiques seules ne saisissent pas. La discussion fait référence à des travaux dans la science cognitive et l’IA sur la séparation entre syntaxe et semantique, et à l’idée que la compréhension humaine de la langue résulte de la fusion de plusieurs facultés cognitives. Le texte avertit contre l’idée naive d’utiliser la compétence linguistique comme indicateur unique d’intelligence générale, car les mécanismes sous-jacents peuvent différer fondamentalement de la cognition humaine.

Pourquoi cela compte (impact pour les développeurs/entreprises)

Pour les développeurs et les entreprises, l’argument a des implications concrètes. Les investissements axés uniquement sur l’augmentation des capacités multimodales par des architectures patchwork risquent de plafonner si l’embodiment n’est pas intégré : des agents capables d’apprendre et d’agir dans des environnements physiques réels. Si une AGI véritable nécessite un raisonnement sensorimoteur et une coordination dans des contextes réels, les feuilles de route produit devraient privilégier les agents incarnés, la robotique, la planification des tâches et la modélisation causale du monde, en complément des capacités linguistiques. Cette perspective invite les équipes à réévaluer la valeur des approches multimodales qui se contentent d’agréger des modalités. Elle suggère d’allouer des ressources à des modèles et des régimes d’entraînement qui favorisent une compréhension guidée par l’environnement, l’apprentissage en simulation avec transfert vers le monde réel et le raisonnement causal dans des environnements dynamiques. En pratique, cela pourrait signifier une collaboration plus étroite avec la robotique, le transfert simulation-réel, et des stratégies qui intègrent perception, action et planification, plutôt que de traiter la perception comme une simple entrée. Du point de vue des entreprises, la différence entre une maîtrise linguistique superficielle et une compréhension physique enracinée peut influencer la conception, la validation et le déploiement des systèmes d’IA dans des contextes sensibles. Cela peut influencer les critères d’évaluation, les stratégies de validation et les benchmarks utilisés pour mesurer les progrès vers l’AGI. Le message central est que résoudre des problèmes du monde réel peut exiger plus que d’augmenter le nombre de paramètres ou de combiner des modalités sans ancrage pratique dans l’environnement.

Détails techniques ou Mise en œuvre

Au cœur de l’argument se trouve une distinction entre deux grandes stratégies d’IA : (1) les approches axées sur le langage ou la manipulation symbolique, reposant sur la prédiction de la prochaine unité et sur de grandes quantités de données, et (2) les approches incarnées ou basées sur des modèles du monde, qui mettent l’accent sur l’interaction avec l’environnement, le raisonnement causal et le contrôle. Parmi les concepts soutenus figurent :

  • l’apprentissage par reinforcement basé sur des modèles, dans lequel les agents construisent des modèles internes du monde pour planifier des actions ;
  • la planification des tâches et du mouvement en robotique, nécessitant une compréhension physique précise et une séquence d’actions ;
  • la modélisation causale du monde, qui vise à prévoir les conséquences des actions dans des environnements réalistes ;
  • des domaines de la vision par ordinateur et de la simulation qui visent des observations du monde réel en haute fidélité ;
  • l’idée que le succès des grands modèles pourrait provenir de la mémorisation de règles abstraites de syntaxe plutôt que de développer une compréhension fondée du monde. Une implication pratique est que les développeurs devraient envisager des conceptions architecturales et des régimes d’entraînement qui favorisent une compréhension incarnée, telle que l’apprentissage conjoint entre perception et action, des boucles de rétroaction sensori-motrice et le transfert entre simulation et réalité. En revanche, l’expansion des capacités des modalités sans ancrage réel dans l’environnement peut produire des progrès impressionnants mais insuffisants vers l’AGI. Pour illustrer la différence, l’auteur évoque les recherches autour d’OthelloGPT, qui montre une forte capacité de prédiction de séquences, tout en laissant subsister des défis de généralisation dans le monde réel. L’idée n’est pas de rejeter l’utilité du langage, mais de reconnaître que la compréhension du monde enracinée est distincte d’une simple maîtrise du vocabulaire. Si la modélisation du monde ne repose que sur des descriptions symboliques sans perception physique, elle peut ne pas capturer toutes les subtilités du monde réel. Une synthèse pratique consiste à voir les modèles du monde comme la base de l’intelligence robuste, et les modalités comme des propriétés émergentes plutôt que des piliers fondamentaux. Ainsi, à court terme, l’effort vers l’AGI devrait privilégier des approches incarnées et un apprentissage guidé par l’environnement, plutôt que d’accroître uniquement les capacités multimodales.

Tableau

| Focus de capacité | Modèles linguistiques ou multimodaux traditionnels | Approches embodied/modèles du monde |---|---|---| | Objectif central | Prédire la prochaine étape ; fusionner les modalités | Compréhension fondée ; interaction avec le monde physique |Signaux d’apprentissage | Prédiction de tokens ; heuristiques | Dynamique du monde, physique et conséquences des actions |Évaluation | Benchmarks de langage | Tâches réelles nécessitant perception, planification et contrôle |

Points clés

  • L’embodiment et l’interaction physique sont présentés comme centraux pour atteindre l’AGI, et non seulement l’agrégation de modalités.
  • Les modèles du monde fondés sur le monde réel sont jugés essentiels pour le raisonnement sensorimoteur et la planification.
  • La maîtrise linguistique peut ne pas refléter une compréhension réelle du monde ; certains modèles reposent sur la mémorisation de règles syntaxiques sans fondement semantique.
  • Une IA incarnée pourrait influencer la conception de produits, leur validation et leur déploiement dans des contextes réels.
  • Le débat souligne la nécessité de multiples voies de recherche, y compris le contrôle basé sur des modèles, la robotique et la modélisation causale du monde, en complément des avances centrées sur le langage.

FAQ

  • Qu’entend-on par embodiment dans l’AGI ?

    L’embodiment signifie que les systèmes sont ancrés dans un modèle du monde physique et peuvent interagir avec l’environnement, pas seulement traiter des informations symboliques.

  • Pourquoi le patchwork multimodal est-il considéré comme insuffisant pour l’AGI ?

    Sans intégration robuste avec l’environnement et des capacités sensorimotrices, il ne fournit pas l’intelligence générale au niveau humain.

  • Les LLMs peuvent-ils apprendre un modèle du monde à partir du langage seul ?

    Le texte soutient que les LLMs pourraient s’appuyer sur la mémorisation de règles et d’heuristiques plutôt que sur un modèle du monde fiable.

  • Quelle est l’alternative proposée au chemin multimodal patchwork ?

    Donner la primauté à l’embodiment et à l’interaction avec l’environnement, permettant à l’intégration des modalités d’émerger d’un apprentissage enraciné dans le monde.

Références

More news