Les grands modèles de langage ne sont pas des personnes. Arrêtons de les tester comme s'ils l'étaient.

Alors que les espoirs et les craintes concernant cette technologie se déchaînent, il est temps de se mettre d’accord sur ce qu’elle peut et ne peut pas faire.

Lorsque Taylor Webb a joué avec GPT-3 début 2022, il a été époustouflé par ce que le grand modèle de langage d'OpenAI semblait être capable de faire. Il s'agissait d'un réseau de neurones entraîné uniquement à prédire le mot suivant dans un bloc de texte : une saisie semi-automatique accélérée. Et pourtant, il a donné des réponses correctes à de nombreux problèmes abstraits que Webb lui avait posés – le genre de choses que l'on trouve dans un test de QI. « J'ai été vraiment choqué par sa capacité à résoudre ces problèmes », dit-il. "Cela a complètement bouleversé tout ce que j'aurais prédit."

Webb est psychologue à l'Université de Californie à Los Angeles, qui étudie les différentes manières dont les humains et les ordinateurs résolvent des problèmes abstraits. Il était habitué à construire des réseaux de neurones dotés de capacités de raisonnement spécifiques. Mais GPT-3 semblait les avoir appris gratuitement.

Des conversations exclusives qui nous emmènent dans les coulisses d'un phénomène culturel.

Le mois dernier, Webb et ses collègues ont publié un article dans Nature, dans lequel ils décrivent la capacité de GPT-3 à réussir une variété de tests conçus pour évaluer l'utilisation de l'analogie pour résoudre des problèmes (appelé raisonnement analogique). Sur certains de ces tests, GPT-3 a obtenu de meilleurs résultats qu'un groupe d'étudiants de premier cycle. « L'analogie est au cœur du raisonnement humain », explique Webb. "Nous pensons que c'est l'une des choses majeures que tout type d'intelligence artificielle devrait démontrer."

Ce que mettent en évidence les recherches de Webb n’est que le dernier d’une longue série d’astuces remarquables réalisées par les grands modèles de langage. Par exemple, lorsqu'OpenAI a dévoilé le successeur de GPT-3, GPT-4, en mars, la société a publié une liste époustouflante d'évaluations professionnelles et académiques auxquelles elle prétendait que son nouveau grand modèle de langage avait réussi, y compris une vingtaine de tests de lycée. et l'examen du barreau. OpenAI a ensuite travaillé avec Microsoft pour montrer que GPT-4 pouvait réussir certaines parties de l'examen de licence médicale des États-Unis.

Et plusieurs chercheurs affirment avoir montré que les grands modèles de langage peuvent réussir des tests conçus pour identifier certaines capacités cognitives chez les humains, du raisonnement en chaîne de pensée (résoudre un problème étape par étape) à la théorie de l'esprit (deviner ce que pensent les autres). ).

Ce genre de résultats alimente une machine à battage médiatique prédisant que ces machines viendront bientôt pour les emplois de cols blancs, remplaçant les enseignants, les médecins, les journalistes et les avocats. Geoffrey Hinton a évoqué la capacité apparente de GPT-4 à enchaîner les pensées comme l'une des raisons pour lesquelles il a désormais peur de la technologie qu'il a contribué à créer.

Mais il y a un problème : il y a peu d’accord sur la signification réelle de ces résultats. Certaines personnes sont éblouies par ce qu’elles considèrent comme des lueurs d’intelligence humaine ; d’autres ne sont pas du tout convaincus.

« Les techniques d'évaluation actuelles des grands modèles de langage présentent plusieurs problèmes critiques », explique Natalie Shapira, informaticienne à l'université Bar-Ilan de Ramat Gan, en Israël. «Cela crée l’illusion qu’ils ont des capacités supérieures à celles qui existent réellement.»

C'est pourquoi un nombre croissant de chercheurs – informaticiens, spécialistes des sciences cognitives, neuroscientifiques, linguistes – souhaitent revoir la manière dont ils sont évalués, appelant à une évaluation plus rigoureuse et exhaustive. Certains pensent que la pratique consistant à utiliser des machines de notation sur des tests humains est erronée, point final, et devrait être abandonnée.

« Les gens soumettent des machines à des tests d'intelligence humaine (tests de QI, etc.) depuis le tout début de l'IA », explique Melanie Mitchell, chercheuse en intelligence artificielle à l'Institut de Santa Fe au Nouveau-Mexique. « Le problème a toujours été de savoir ce que cela signifie lorsque vous testez une machine comme celle-ci. Cela ne signifie pas la même chose que pour un humain.

« Il y a beaucoup d'anthropomorphisme en cours », dit-elle. "Et cela influence en quelque sorte la façon dont nous pensons à ces systèmes et dont nous les testons."

Alors que les espoirs et les craintes suscités par cette technologie sont à un niveau sans précédent, il est crucial que nous maîtrisions solidement ce que les grands modèles linguistiques peuvent et ne peuvent pas faire.

Blog

Les grands modèles de langage ne sont pas des personnes. Arrêtons de les tester comme s'ils l'étaient.