Qu’est-ce que les modèles de monde IA et pourquoi cela compte
Sources: https://techcrunch.com/2024/12/14/what-are-ai-world-models-and-why-do-they-matter, techcrunch.com
Les modèles de monde, aussi appelés simulateurs de monde, sont présentés par certains comme la prochaine grande avancée de l’IA. Fei-Fei Li et World Labs lèvent 230 millions de dollars pour construire de “grands modèles de monde”, et DeepMind a engagé l’un des créateurs du générateur vidéo d’OpenAI, Sora, pour travailler sur des “simulateurs de monde”. (Sora a été publié lundi; voici quelques premières impressions.) Mais qu’est-ce que cela signifie exactement ? Les modèles de monde s’inspirent des modèles mentaux que les humains développent du monde qui les entoure. Nos cerveaux prennent les représentations abstraites de nos sens et les transforment en une compréhension plus concrète du monde, produisant des “modèles” bien avant que l’IA n’adopte le terme. Les prédictions que nos cerveaux font sur la base de ces modèles influencent notre perception du monde. Une étude de David Ha et Jürgen Schmidhuber donne l’exemple d’un frappeur de baseball. Il dispose de millisecondes pour décider comment frapper — plus vite que le temps nécessaire pour que les signaux visuels atteignent le cerveau. La raison pour laquelle il peut atteindre une balle à 160 km/h est qu’il peut prédire instinctivement la trajectoire. « Pour les professionnels, tout cela se passe subconsciente », écrivent les chercheurs. « Leurs muscles bougent la batte en accord avec les prédictions de leurs modèles internes. Ils peuvent agir rapidement sur leurs prévisions sans avoir à dérouler consciemment des scénarios futurs. » Ce sont ces aspects intuitifs et subconscients des modèles de monde que certains considèrent comme prérequis à une intelligence équivalente à celle des humains. Bien que le concept existe depuis des décennies, les modèles de monde gagnent en popularité récemment, en partie pour leurs applications prometteuses dans le domaine de la vidéo générative. La plupart, sinon toutes, des vidéos générées par IA tombent dans le territoire de l’“uncanny valley”. Si on les observe assez longtemps, des anomalies apparaissent. Alors qu’un modèle génératif entraîné sur des années de vidéos peut prédire qu’un ballon rebondit, il ne sait pas nécessairement pourquoi — tout comme les modèles de langage ne comprennent pas les concepts derrière les mots. Mais un modèle de monde qui comprend pourquoi quelque chose se passe sera mieux à montrer ce phénomène. Pour favoriser ce type d’intuition, les modèles de monde sont entraînés sur une gamme de données, y compris photos, audio, vidéos et textes, afin de créer des représentations internes du fonctionnement du monde et la capacité de raisonner sur les conséquences des actions. «Un spectateur s’attend à ce que le monde qu’il regarde se comporte comme dans sa réalité», a déclaré Alex Mashrabov, ancien chef IA de Snap et PDG de Higgsfield, qui développe des modèles génératifs pour la vidéo. «Si une plume tombe avec le poids d’une enclume ou si une balle de bowling s’envole, c’est déroutant et cela exclut le spectateur du moment présent. Avec un modèle de monde solide, au lieu qu’un créateur définisse le mouvement de chaque objet — ce qui est fastidieux et une mauvaise utilisation du temps — le modèle comprendra cela.» Mais l’amélioration de la génération vidéo n’est que l’extrémité visible de l’iceberg des modèles de monde. Des chercheurs, dont Yann LeCun (scientifique en IA chez Meta), estiment que ces modèles pourraient un jour être utilisés pour des prévisions et une planification sophistiquées dans le monde numérique et physique. Lors d’une conférence plus tôt dans l’année, LeCun a décrit comment un modèle de monde pourrait aider à atteindre un objectif donné par le raisonnement. Un modèle possédant une représentation de base d’un “monde” (par exemple une vidéo d’une pièce sale), et recevant un objectif (une pièce propre), pourrait proposer une séquence d’actions à entreprendre pour atteindre l’objectif (utiliser des aspirateurs pour balayer, nettoyer la vaisselle, sortir les poubelles) non pas parce que c’est un motif observé, mais parce qu’il sait, à un niveau plus profond, comment passer de sale à propre. « Nous avons besoin de machines qui comprennent le monde ; des machines qui peuvent se souvenir des choses, qui ont de l’intuition, du sens commun — des machines qui peuvent raisonner et planifier au même niveau que les humains », a déclaré LeCun. « Malgré ce que certains peuvent avoir entendu de certaines voix parmi les plus enthousiastes, les systèmes d’IA actuels ne sont pas capables de cela. » Bien que LeCun estime que nous sommes encore au moins une décennie d’un monde qu’il espère, les modèles actuels montrent des promesses comme des simulateurs de physique élémentaires. OpenAI précise dans un blog que Sora, qu’elle considère comme un modèle de monde, peut simuler des actions comme laisser des coups de pinceau sur une toile. Des modèles comme Sora — et Sora lui-même — peuvent aussi simuler efficacement des jeux vidéo. Par exemple, Sora peut rendre une interface Minecraft-like et un monde de jeu. Des modèles de monde futurs pourraient être capables de générer des mondes 3D à la demande pour les jeux, la photographie virtuelle et plus encore, a déclaré Justin Johnson, co-fondateur de World Labs, dans un épisode du podcast a16z. « Nous avons déjà la capacité de créer des mondes virtuels, interactifs, mais cela coûte des centaines de millions de dollars et prend énormément de temps de développement », a déclaré Johnson. « [Les modèles de monde] vous permettront non seulement d’obtenir une image ou un clip, mais un monde 3D entièrement simulé, vivant et interactif. » Bien que le concept soit séduisant, de nombreux défis techniques subsistent. Former et faire fonctionner des modèles de monde nécessite une puissance de calcul massive, encore plus que celle utilisée par les modèles génératifs actuels. Si certains des derniers modèles de langage peuvent fonctionner sur un smartphone moderne, Sora (considéré comme l’un des premiers modèles de monde) nécessiterait des milliers de GPU pour l’entraînement et l’exécution, surtout si leur usage se répand. Comme tous les modèles d’IA, les modèles de monde souffrent d’hallucinations et d’intégration de biais issus des données d’entraînement. Un modèle de monde principalement entraîné sur des vidéos montrant uniquement des journées ensoleillées dans des villes européennes pourrait avoir du mal à comprendre ou à dépeindre des villes coréennes enneigées, ou le ferait de manière incorrecte. Le manque global de données d’entraînement risque d’aggraver ces problèmes, souligne Mashrabov. « Nous avons vu des modèles générer des résultats très limités pour des populations de certains types ou races », a-t-il déclaré. « Les données d’entraînement d’un modèle de monde doivent être suffisamment larges pour couvrir une diversité de scénarios, mais aussi très spécifiques pour que l’IA puisse comprendre les nuances de ces scénarios. » Dans une publication récente, Cristóbal Valenzuela, PDG de Runway, affirme que des questions de données et d’ingénierie empêchent les modèles actuels de capturer avec précision le comportement des habitants du monde (par exemple, humains et animaux). « Les modèles devront générer des cartes cohérentes de l’environnement », dit-il, « et la capacité de naviguer et d’interagir dans ces environnements. » Si tous les gros obstacles sont surmontés, Mashrabov croit que les modèles de monde pourraient « relier plus solidement » l’IA au monde réel — ouvrant la voie à des avancées non seulement dans la génération de mondes virtuels mais aussi dans la robotique et la prise de décision de l’IA. Ils pourraient aussi donner naissance à des robots plus capables. Aujourd’hui, les robots sont limités par leur capacité à comprendre le monde qui les entoure (ou leur propre corps). Les modèles de monde pourraient leur donner cette conscience, selon Mashrabov, du moins jusqu’à un certain point. « Avec un modèle de monde avancé, une IA pourrait développer une compréhension personnelle du scénario dans lequel elle est placée », a-t-il déclaré, « et commencer à raisonner des solutions possibles. » TechCrunch propose une newsletter axée IA ! Inscrivez-vous pour la recevoir chaque mercredi dans votre boîte mail. Cette histoire a été initialement publiée le 28 octobre 2024 et mise à jour le 14 décembre 2024 avec de nouvelles informations sur Sora. TechCrunch.
More news
Comment une startup d’IA aide les riziculteurs à lutter contre le changement climatique
Mitti Labs utilise l’IA pour mesurer les émissions de méthane des rizières inondées et s’associe à The Nature Conservancy pour étendre l’agriculture régénérative sans brûlage en Inde, tout en suivant les crédits carbone pour soutenir les agriculteurs.
Des étudiants de Harvard lancent des lunettes intelligentes IA « toujours activées » qui écoutent et enregistrent les conversations
Deux anciens Harvard lancent Halo X, des lunettes intelligentes discrètes avec microphone toujours actif qui enregistrent, transcrivent et affichent des informations en temps réel, suscitant des questions sur la confidentialité et la réglementation.
Meta ajoute 100 MW d’énergie solaire avec du matériel fabriqué aux États‑Unis
Meta signe un accord de 100 millions de dollars pour une ferme solaire de 100 MW en Caroline du Sud afin d’alimenter un futur centre de données IA, avec des opérations prévues en 2027 et une majorité d’équipements fabriqués aux États‑Unis.
Cloudflare accuse Perplexity de fouiller des sites bloqués explicitement pour le scraping IA
Cloudflare affirme que Perplexity a ignoré les blocs robots.txt et a masqué son crawler en changeant d’agent utilisateur et d’ASN, sur des milliers de domaines. Perplexity nie les allégations et parle d’un pitch de vente.
Les caméras d'arrêt d’Obvio utilisent l’IA pour repérer les conducteurs dangereux
Obvio, jeune pousse de San Carlos, installe des pylônes de caméras solaires à des stops pour détecter les infractions avec une IA locale, et finance sa technologie grâce aux citations. Levée de 22 M$ en série A et plans d’expansion au-delà du Maryland.
La croissance ultra-rapide des centres de données met à l’épreuve les objectifs de durabilité de Microsoft
Le rapport de durabilité de Microsoft montre que l’expansion rapide des centres de données pour l’IA et le cloud augmente les émissions, les scopes 3 représentant l’essentiel de l’empreinte.