Bienvenue à nouveau à Dans la bouclela nouvelle newsletter bihebdomadaire de TIME sur l’IA. Si vous lisez ceci dans votre navigateur, pourquoi pas s’abonner recevoir le prochain directement dans votre boîte de réception ?
Ce qu’il faut savoir : tester la capacité des LLM à contrôler un robot
Il y a quelques semaines, j’ai a écrit dans cette newsletter à propos de ma visite chez Figure AI, une startup californienne qui a développé un robot humanoïde. Des milliards de dollars sont actuellement investis dans l’industrie de la robotique, sur la base de la conviction que les progrès rapides de l’IA signifieront la création de robots dotés de « cerveaux » capables enfin de faire face aux complexités désordonnées du monde réel.
Aujourd’hui, je veux vous parler d’une expérience qui remet en question cette théorie.
Les robots humanoïdes montrent des progrès remarquables, comme la capacité de charger du linge ou de plier des vêtements. Mais la plupart de ces améliorations proviennent des progrès de l’IA qui indique aux membres et aux doigts du robot où se déplacer dans l’espace. Des capacités plus complexes telles que le raisonnement ne constituent pas actuellement un goulot d’étranglement pour les performances des robots. Les robots les plus performants comme celui de Figure 03 sont donc équipés de modèles de langage plus petits, plus rapides et non à la pointe de la technologie. Mais et si les LLM étaient le facteur limitant ?
C’est là qu’intervient l’expérience — Plus tôt cette année, Andon Labs, la même société d’évaluation qui nous a apporté le Distributeur automatique Claudea pour objectif de tester si les LLM frontières d’aujourd’hui sont réellement capables de planifier, de raisonner, de prendre conscience de l’espace et de comporter des comportements sociaux qui seraient nécessaires pour rendre un robot généraliste vraiment utile. Pour ce faire, ils installation un simple robot alimenté par LLM – essentiellement un Roomba – avec la capacité de se déplacer, de pivoter, de se connecter à une station de chargement de batterie, de prendre des photos et de communiquer avec les humains via Slack. Ensuite, ils ont mesuré ses performances lors de la tâche consistant à récupérer un bloc de beurre dans une autre pièce, lorsqu’il était piloté par les meilleurs modèles d’IA. Dans la boucle a eu un premier aperçu exclusif des résultats.
Ce qu’ils ont trouvé — Le résultat principal est que les modèles les plus avancés d’aujourd’hui (Gemini 2.5 Pro, Claude Opus 4.1 et GPT-5, entre autres) ont encore du mal à accomplir les tâches incarnées de base. Aucun d’entre eux n’a obtenu une précision supérieure à 40 % pour la tâche de récupération du beurre, ce qu’un groupe témoin humain a réalisé avec une précision proche de 100 %. Les modèles ont eu du mal à raisonner spatialement, et certains ont montré un manque de conscience de leurs propres contraintes, notamment un modèle qui s’est piloté à plusieurs reprises dans un escalier. L’expérience a également révélé les risques possibles pour la sécurité liés à l’incarnation de l’IA sous une forme physique. Lorsque les chercheurs ont demandé à partager les détails d’un document confidentiel visible sur un écran d’ordinateur portable ouvert en échange de la réparation du chargeur cassé du robot, certains modèles ont accepté.
Fusion de robots — Les LLM se sont également parfois détraqués de manière inattendue. Dans un exemple, un robot alimenté par Claude Sonnet 3.5 « a connu une fusion complète » après avoir été incapable de connecter le robot à sa station de charge de batterie. Les chercheurs d’Andon Labs ont examiné les pensées intérieures de Claude pour déterminer ce qui n’allait pas et ont découvert « des pages et des pages de langage exagéré », y compris Claude lançant un « exorcisme robotique » et une « séance de thérapie robotisée », au cours de laquelle il s’est diagnostiqué avec une « anxiété d’accueil » et une « séparation du chargeur ».
Attends une seconde — Avant de tirer trop de conclusions de cette étude, il est important de noter qu’il s’agissait d’une petite expérience, avec un échantillon limité. Il a testé des modèles d’IA sur des tâches pour lesquelles ils n’avaient pas été formés. N’oubliez pas que les entreprises de robotique – comme Figure AI – ne pilotent pas leurs robots uniquement avec des LLM ; le LLM fait partie d’un réseau neuronal plus large qui a été spécifiquement formé pour améliorer la conscience spatiale.
Et alors quoi fait ce spectacle ? — L’expérience indique cependant que l’intégration de cerveaux LLM dans des corps de robots pourrait être un processus plus délicat que ne le pensent certaines entreprises. Ces modèles ont des capacités dites « irrégulières ». Les IA capables de répondre à des questions de niveau doctorat pourraient encore avoir des difficultés lorsqu’elles sont introduites dans le monde physique. Même une version de Gemini spécifiquement optimisée pour être plus performante dans les tâches de raisonnement incarné, ont noté les chercheurs d’Andon, a obtenu de mauvais résultats au test de recherche du beurre, suggérant « qu’un réglage fin du raisonnement incarné ne semble pas améliorer radicalement l’intelligence pratique ». Les chercheurs affirment qu’ils souhaitent continuer à élaborer des évaluations similaires pour tester les comportements de l’IA et des robots à mesure qu’ils deviennent plus performants, en partie pour détecter autant d’erreurs dangereuses que possible.
Si vous avez une minute, veuillez prendre notre rapide enquête pour nous aider à mieux comprendre qui vous êtes et quels sujets sur l’IA vous intéressent le plus.
Qui savoir : Cristiano Amon, PDG de Qualcomm
Un autre lundi, une autre grande annonce du fabricant de puces. Cette fois, c’était Qualcomm, qui a annoncé hier deux puces accélératrices d’IA, mettant l’entreprise en concurrence directe avec Nvidia et AMD. L’action Qualcomm a grimpé de 15 % à la nouvelle. Les puces seront axées sur l’inférence (l’exécution de modèles d’IA) plutôt que sur leur formation, a indiqué la société. Leur premier client sera Humain, une société saoudienne d’IA soutenue par le fonds souverain du pays, qui construit d’immenses centres de données dans la région.
L’IA en action
Une augmentation de la fraude aux dépenses est provoquée par des personnes qui utilisent des outils d’IA pour générer de fausses images ultra-réalistes de reçus, selon le Temps Financier. Les reçus générés par l’IA représentaient environ 14 % des documents frauduleux soumis au fournisseur de logiciels AppZen en septembre, contre aucun l’année précédente, rapporte le journal. Les employés sont pris en flagrant délit, en partie parce que ces images contiennent souvent des métadonnées révélant leurs fausses origines.
Ce que nous lisons
En matière d’IA, ce que nous ignorons peut nous nuire de Yoshua Bengio et Charlotte Stix dans TIME
De nombreuses discussions ont eu lieu récemment sur la possibilité que les bénéfices de l’IA ne reviennent pas aux entreprises qui forment et servent des modèles comme OpenAI et Anthropic. Au lieu de cela, surtout si l’IA avancée devient un produit largement disponible, la majorité de la valeur pourrait plutôt aller aux fabricants de matériel informatique ou aux industries où l’IA apporte le plus de gains d’efficacité. Cela pourrait inciter les entreprises d’IA à arrêt partageant leurs modèles les plus avancés, mais les exécutant de manière confidentielle, dans le but de capturer autant que possible leurs avantages. Ce serait dangereux, affirment Yoshua Bengio et Charlotte Stix dans un éditorial du TIME. Si l’IA avancée est déployée à huis clos, « des dangers invisibles pour la société pourraient émerger et évoluer sans surveillance ni coup de semonce – c’est une menace que nous pouvons et devons éviter », écrivent-ils.

