● Journal du Net
📅 04/05/2026 à 09:29
Les world models vont-ils bientôt créer le "moment ChatGPT" de la robotique ?
Géopolitique
👤 Mattis Meichler
En simulant des environnements réels, les world models permettent notamment d'augmenter les capacités des robots humanoïdes, en les aidant à comprendre les lois de la physique. Les world models, qui permettent d’entraîner des agents IA en simulant la réalité avec un degré de précision inédit, sont au cœur de toutes les discussions au sein de l'écosystème de la tech. Les montants des investissements dans le secteur depuis le début de l’année parlent d’eux-mêmes : la start-up World Labs, fondée par la pionnière de l’IA Fei-Fei Li, a levé un milliard de dollars. AMI Labs, cofondée par une autre légende de l’intelligence artificielle, Yann Le Cun, a rejoint le club des licornes françaises avec une levée de fonds de 1,03 milliard de dollars. Et la start-up américaine Runway a levé 315 millions de dollars. Les géants Google, Meta et NVIDIA ont eux aussi identifié le potentiel de cette technologie émergente, tout comme le dirigeant d’Amazon, Jeff Bezos, qui s’est positionné en cofondant Project Prometheus, centrée sur l’IA physique. Si les applications potentielles des world models sont nombreuses, des véhicules autonomes à la recherche scientifique en passant par les jeux vidéo, le secteur de la robotique humanoïde pourrait en être le principal bénéficiaire. Appliqué à la robotique, ce type de modèles d’IA est appelé robotic world model (RWM). Il promet d’améliorer considérablement les capacités des humanoïdes, en leur permettant d’intégrer les dynamiques du monde physique. Une nouvelle ère pour la robotique humanoïde “Si l’IA veut être réellement utile, elle doit comprendre des mondes, pas seulement des mots”, avait déclaré Fei-Fei Li lors de l’annonce de la levée de fonds de World Labs, en février. Elle faisait ainsi référence au fait que les LLM comme ChatGPT ou Claude fonctionnent sur du texte en prédisant le prochain mot, alors que les world models prédisent le prochain “état” du monde généré par une action de l'agent qui y évolue. Pour ce faire, ces modèles s'appuient sur d'immenses quantités de données multimodales (vidéos, images, audio, données de profondeur et de capteurs robotiques), ce qui leur permet de comprendre et d'intégrer les caractéristiques du monde physique : gravité, friction, interactions avec les objets et les lois régissant ces interactions. Jusqu’à présent, l’entraînement des IA alimentant les robots humanoïdes modernes reposait sur les LLM, les modèles vidéo, vision-langage-action (VLA), les simulations 3D, ou encore les simulations en conditions réelles avec un téléopérateur. Mais chacune de ces méthodes, efficaces lorsque les robots sont déployés dans des environnements prévisibles, montre ses limites lorsqu’il s’agit de les confronter à des situations plus complexes. Elles permettent par exemple d'apprendre aux robots à se déplacer, mais peinent à leur enseigner à manipuler des objets. En agrégant ces différents types de données et en intégrant les lois de la physique, les world models apportent une réponse à ces lacunes. Ils permettent ainsi aux robots d'apprendre par l'expérience, en anticipant puis en évaluant les conséquences de leurs actions. Ils peuvent effectuer des milliers d'itérations au sein de la simulation, recevoir des retours et ajuster leur comportement en conséquence, sans jamais casser un objet réel ni blesser quelqu'un. On se rapproche ainsi du mode d’apprentissage des animaux et des humains. Les world models pourraient ainsi permettre l’émergence de robots humanoïdes aux capacités se rapprochant des nôtres. “Au cours des prochains mois, nous allons connaître un ‘moment ChatGPT’ de la robotique”, affirme Andy Chen, responsable des projets spéciaux chez Runway, au Journal du Net. “A mesure que les world models et les simulateurs de mondes gagnent en échelle, des entreprises comme Runway développeront des modèles toujours plus grands et performants. Cela ouvrira la voie à une plus grande généralisation, permettant aux robots de commencer à agir comme des humains, en étant capables d’accomplir une grande variété de tâches plutôt que de rester limités à des fonctions spécifiques”. Des modèles gourmands en données Avant de s’imposer comme une solution réellement efficace, les world models font toutefois face à certains obstacles. Pour retranscrire la réalité dans toutes ses nuances, ils nécessitent des quantités de données encore plus importantes que les LLM. Même des tâches simples pour un humain, comme ouvrir une porte ou saisir un verre, impliquent une multitude de micro-variations parfois difficiles à capturer. De plus, contrairement au texte ou à l’image, il existe pour l’heure peu de données “action - conséquence”. Les vidéos seules, par exemple, ne suffisent pas, car elles montrent ce qui se passe, pas pourquoi. Enfin, les interactions physiques sont coûteuses à enregistrer. Cela explique pourquoi de nombreux acteurs de la robotique et de l’IA incarnée (dont 1X, Agility, Figure ou encore NEURA Robotics) utilisent la plateforme de world models lancée par NVIDIA, Cosmos, entraînée sur plus de 20 millions d’heures de données issues du monde réel. Comme pour les LLM, un autre défi majeur concerne la pertinence des données utilisées pour entraîner les world models. “Chez Runway, nous donnons la priorité à la qualité des données plutôt qu’à la quantité”, explique Andy Chen. “Cela inclut, par exemple, des collaborations avec des acteurs du secteur du cinéma et de la création, dont Lucasfilm. L’objectif est de disposer de données réellement qualitatives, pas simplement d’augmenter l’échelle grâce à des vidéos aléatoires issues d’Internet”. Les world models, clé de l’AGI ? Si l’arrivée des world models promet de propulser la robotique dans une nouvelle ère, ils pourraient même, selon certains, constituer le chaînon manquant vers l’intelligence artificielle générale (AGI). Si Sam Altman et les créateurs de ChatGPT restent persuadés que les LLM sont en mesure de faire émerger une telle entité, de nombreux spécialistes estiment que le texte ne suffira pas. “Un chatbot peut passer un examen de droit avec brio, mais il ne peut pas comprendre l’espace physique comme le fait un chat, celui avec des moustaches, expliquait ainsi Yann Le Cun, qui préfère d’ailleurs utiliser les termes de “Advanced Machine Intelligence” (AMI), en février dernier. “Il ne s’agit plus de générer la suite la plus probable, comme dans le langage, mais de construire une représentation abstraite du monde, qui sache ignorer les éléments imprévisibles et conserver la structure utile”. Les world models, en permettant aux agents IA de percevoir le monde physique dans toutes ses subtilités et d’interagir avec lui, ouvriront-ils la voie vers une forme de conscience artificielle ? Cela reste difficile à dire, mais ce qui est certain, c’est que les robots humanoïdes s’apprêtent à devenir un peu plus “humains”.
🔗 Lire l'article original
👁️ 0 lecture