FDepuis plus d’une décennie, les entreprises ont parié sur une règle empirique alléchante : les systèmes d’intelligence artificielle continueraient de devenir plus intelligents si seulement elles trouvaient les moyens de continuer à les rendre plus grands. Ce n’était pas simplement un vœu pieux. En 2017, des chercheurs de la société technologique chinoise Baidu démontré que l’injection de plus de données et de puissance de calcul dans les algorithmes d’apprentissage automatique a produit des améliorations mathématiquement prévisibles, que le système ait été conçu pour reconnaître des images, de la parole ou générer du langage. Constatant la même tendance, en 2020, OpenAI a inventé le terme « lois de mise à l’échelle », qui est depuis devenu une pierre de touche de l’industrie.
Cette thèse a incité les sociétés d’IA à parier des centaines de millions sur des clusters informatiques et des ensembles de données toujours plus grands. Le pari a été largement récompensé, en transformant des machines à texte rudimentaires en chatbots articulés d’aujourd’hui.
Mais aujourd’hui, cet évangile selon lequel « plus grand est mieux » est remis en question.
La semaine dernière, des rapports de Reuters et Bloomberg suggèrent que les grandes entreprises d’IA connaissent des rendements décroissants lors de la mise à l’échelle de leurs systèmes d’IA. Quelques jours plus tôt, Les informations a fait part de doutes chez OpenAI quant à la poursuite des progrès après que le modèle Orion inédit n’ait pas répondu aux attentes lors des tests internes. Les cofondateurs d’Andreessen Horowitz, une importante société de capital-risque de la Silicon Valley, ont fait écho à ces sentimentsnotant que l’augmentation de la puissance de calcul ne produit plus les mêmes « améliorations de l’intelligence ».
Que disent les entreprises technologiques ?
Cependant, de nombreuses grandes entreprises d’IA semblent convaincues que les progrès avancent à plein régime. Dans un communiqué, un porte-parole d’Anthropic, développeur du populaire chatbot Claude, a déclaré « nous n’avons vu aucun signe d’écart par rapport aux lois de mise à l’échelle ». OpenAI a refusé de commenter. Google DeepMind n’a pas répondu aux commentaires. Cependant, la semaine dernière, après qu’une nouvelle version expérimentale du modèle Gemini de Google ait pris la première place de GPT-4o dans un classement populaire des performances de l’IA, le PDG de l’entreprise, Sundar Pichai. posté sur X disant « plus à venir ».
En savoir plus: Le chercheur tente d’entrevoir l’avenir de l’IA
Les versions récentes dressent un tableau quelque peu mitigé. Anthropic a mis à jour son modèle de taille moyenne, Sonnet, deux fois depuis sa sortie en mars, le rendant plus performant que le plus grand modèle de la société, Opus, qui n’a pas reçu de telles mises à jour. En juin, l’entreprise dit Opus serait mis à jour « plus tard cette année », mais la semaine dernière, s’exprimant sur le podcast Lex Fridman, le co-fondateur et PDG Dario Amodei refusé pour donner un calendrier précis. Google a mis à jour son plus petit modèle Gemini Pro en février, mais le plus grand modèle Gemini Ultra de la société n’a pas encore reçu de mise à jour. Le modèle o1-preview récemment publié par OpenAI surpasse GPT-4o dans plusieurs benchmarks, mais dans d’autres, il est insuffisant. o1-preview était aurait appelé « GPT-4o avec raisonnement » en interne, suggérant que le modèle sous-jacent est d’une échelle similaire à GPT-4.
L’analyse de la vérité est compliquée par les intérêts concurrents de toutes les parties. Si Anthropic ne parvient pas à produire des modèles plus puissants, « nous avons profondément échoué en tant qu’entreprise », déclare Amodei. dit la semaine dernière, offrant un aperçu des enjeux pour les entreprises d’IA qui ont parié leur avenir sur des progrès incessants. Un ralentissement pourrait effrayer les investisseurs et déclencher un bilan économique. Pendant ce temps, Ilya Sutskever, ancien scientifique en chef d’OpenAI et autrefois un ardent partisan de la mise à l’échelle, aujourd’hui dit les gains de performances des modèles plus gros ont plafonné. Mais sa position a son propre bagage : la nouvelle start-up d’IA de Suskever, Safe Superintelligence Inc., a été lancée en juin avec moins de financement et de puissance de calcul que ses rivaux. Une rupture dans l’hypothèse de mise à l’échelle contribuerait à uniformiser les règles du jeu.
« Ils avaient des choses qu’ils pensaient être des lois mathématiques et ils font des prédictions par rapport à ces lois mathématiques et les systèmes ne les respectent pas », explique Gary Marcus, une voix éminente dans le domaine de l’IA et auteur de plusieurs livres, dont Apprivoiser la Silicon Valley. Selon lui, les récents rapports faisant état de rendements décroissants suggèrent que nous nous sommes finalement « heurtés à un mur », ce qui, selon lui, pourrait se produire. depuis 2022. « Je ne savais pas exactement quand cela arriverait, et nous avons quand même fait quelques progrès. Maintenant, il semble que nous soyons coincés », dit-il.
Un ralentissement pourrait être le reflet des limites des techniques actuelles d’apprentissage en profondeur, ou simplement du fait qu’« il n’y a plus assez de données récentes », explique Marcus. C’est une hypothèse qui a fait son chemin chez certains qui suivent de près l’IA. Sasha Luccioni, responsable de l’IA et du climat chez Hugging Face, affirme qu’il y a des limites à la quantité d’informations qui peuvent être tirées du texte et des images. Elle souligne que les gens sont plus susceptibles d’interpréter mal vos intentions par messagerie texte plutôt qu’en personne, comme exemple des limites des données textuelles. «Je pense que c’est comme ça avec les modèles linguistiques», dit-elle.
Le manque de données est particulièrement criant dans certains domaines comme le raisonnement et les mathématiques, où nous « ne disposons tout simplement pas de beaucoup de données de haute qualité », explique Ege Erdil, chercheur principal à Epoch AI, une organisation à but non lucratif qui étudie les tendances du développement de l’IA. Cela ne signifie pas que la mise à l’échelle va probablement s’arrêter, mais simplement que la mise à l’échelle seule pourrait être insuffisante. « À chaque ordre de grandeur, différentes innovations doivent être trouvées », dit-il, soulignant que cela ne signifie pas que les progrès de l’IA ralentiront globalement.
En savoir plus: L’IA est-elle sur le point de manquer de données ? L’histoire du pétrole dit non
Ce n’est pas la première fois que les critiques déclarent la mort de l’échelle. « A chaque étape de la mise à l’échelle, il y a toujours des arguments », Amodei dit la semaine dernière. « La dernière hypothèse que nous avons aujourd’hui est la suivante : « nous allons manquer de données, ou les données ne sont pas de qualité suffisante ou les modèles ne peuvent pas raisonner. » » … J’ai vu cette histoire se produire pendant suffisamment de fois pour vraiment croire que l’ampleur va probablement se poursuivre », a-t-il déclaré. Réflexion sur les débuts d’OpenAI sur Podcast de Y-CombinatorPDG de l’entreprise, Sam Altman attribue en partie le succès de l’entreprise à un « niveau de croyance religieuse » dans la mise à l’échelle – un concept qui, selon lui, était considéré comme « hérétique » à l’époque. En réponse à un récent poster sur X de Marcus affirmant que ses prédictions de rendements décroissants étaient exactes, Altman posté en disant « il n’y a pas de mur ».
Bien qu’il puisse y avoir une autre raison pour laquelle nous entendons des échos de nouveaux modèles qui ne répondent pas aux attentes internes, déclare Jaime Sevilla, directeur d’Epoch AI. Après des conversations avec des gens d’OpenAI et d’Anthropic, il est reparti avec le sentiment que les gens avaient des attentes extrêmement élevées. «Ils s’attendaient à ce que l’IA soit déjà capable de rédiger une thèse de doctorat», dit-il. « Peut-être que cela semble un peu… anti-climatique. »
Une accalmie temporaire n’est pas nécessairement le signe d’un ralentissement plus large, dit Séville. L’histoire montre des écarts importants entre les avancées majeures : GPT-4, sorti il y a à peine 19 mois, lui-même est arrivé 33 mois après GPT-3. « Nous avons tendance à oublier que GPT trois à partir de GPT quatre représentait une échelle de calcul de l’ordre de 100x », explique Sevilla. « Si vous voulez faire quelque chose d’environ 100 fois plus gros que GPT-4, vous aurez besoin de jusqu’à un million de GPU », explique Sevilla. C’est plus grand que tous les clusters connus actuellement existants, même s’il note que des efforts concertés ont été déployés cette année pour construire une infrastructure d’IA, comme le supercalculateur de 100 000 GPU d’Elon Musk à Memphis, le plus grand du genre, qui a été aurait construit du début à la fin en trois mois.
En attendant, les sociétés d’IA explorent probablement d’autres méthodes pour améliorer les performances une fois qu’un modèle a été formé. L’aperçu o1 d’OpenAI a été annoncé comme un tel exemple, qui surpasse les modèles précédents sur les problèmes de raisonnement en accordant plus de temps pour réfléchir. « C’est quelque chose dont nous savions déjà qu’il était possible », déclare Sevilla en désignant une IA d’Epoch. rapport publié en juillet 2023.
En savoir plus: Le nouveau centre de données IA d’Elon Musk sonne l’alarme sur la pollution
Implications politiques et géopolitiques
Diagnostiquer prématurément un ralentissement pourrait avoir des répercussions au-delà de la Silicon Valley et de Wall St. La vitesse perçue des progrès technologiques après la sortie de GPT-4 a incité à une lettre ouverte appelant à une pause de six mois dans la formation des systèmes plus vastes pour donner aux chercheurs et aux gouvernements une chance de rattraper leur retard. La lettre a rassemblé plus de 30 000 signataires, dont Yoshua Bengio, lauréat du prix Musk et Turing. La question reste ouverte de savoir si un ralentissement perçu pourrait avoir l’effet inverse, faisant sortir la sécurité de l’IA de l’ordre du jour.
Une grande partie de la politique américaine en matière d’IA repose sur la conviction que la taille des systèmes d’IA continuera à croître. Une disposition du vaste décret de Biden sur l’IA, signé en octobre 2023 (et qui devrait être abrogée par la Maison Blanche de Trump) exigeait que les développeurs d’IA partagent des informations avec le gouvernement concernant les modèles formés en utilisant une puissance de calcul supérieure à un certain seuil. Ce seuil a été fixé au-dessus des plus grands modèles disponibles à l’époque, dans l’hypothèse qu’il ciblerait les futurs modèles plus grands. Cette même hypothèse sous-tend les restrictions à l’exportation (restrictions sur la vente de puces et de technologies d’IA à certains pays) conçues pour limiter l’accès de la Chine aux puissants semi-conducteurs nécessaires à la construction de grands modèles d’IA. Cependant, si les avancées dans le développement de l’IA commencent à reposer moins sur la puissance de calcul et davantage sur des facteurs tels que de meilleurs algorithmes ou des techniques spécialisées, ces restrictions pourraient avoir un impact moindre sur le ralentissement des progrès de l’IA en Chine.
« La chose primordiale que les États-Unis doivent comprendre est que, dans une certaine mesure, les contrôles à l’exportation ont été fondés sur une théorie des délais de la technologie », explique Scott Singer, chercheur invité au sein du programme Technologie et affaires internationales du Carnegie Endowment for International. Paix. Dans un monde où les États-Unis « stagnent à la frontière », dit-il, nous pourrions assister à une poussée nationale pour faire progresser l’IA. Il estime qu’un écart dans l’avance perçue des États-Unis en matière d’IA pourrait susciter une plus grande volonté de négocier avec la Chine sur les principes de sécurité.
Reste à savoir si nous assistons à un véritable ralentissement ou simplement à une autre pause avant un bond. « Je ne suis pas sûr qu’un délai de quelques mois soit un point de référence suffisamment important », dit Singer. « Vous pourriez atteindre un plateau, puis réaliser des gains extrêmement rapides. »