Sélectionner une page

Intelligence artificielle

Meta AI et Papers with Code, une équipe autonome au sein de Meta AI Research, ont présenté, le 15 novembre dernier, Galactica, un modèle de langage open source de 120 milliards de paramètres formé sur un vaste corpus qui peut stocker, combiner et raisonner sur les connaissances scientifiques. L’objectif est d’aider à trouver les informations utiles dans la masse d’informations disponibles. Cette annonce a d’ores et déjà suscité des controverses au sein de la communauté scientifique.

Galactica a été formé sur un corpus comprenant plus de 360 millions de citations contextuelles et plus de 50 millions de références uniques normalisées à travers un ensemble diversifié de sources, ce qui lui permet de suggérer des citations et d’aider à découvrir des articles connexes. Parmi ces sources figure NatureBook, un nouvel ensemble de données scientifiques de qualité qui lui a permis d’être entraîné avec la terminologie scientifique, les mathématiques et les formules chimiques ainsi que les codes sources.

Gérer la pléthore d’informations scientifiques

La surcharge d’information est un obstacle majeur au progrès scientifique. Les chercheurs sont ainsi ensevelis sous une masse d’articles, ont du mal à retrouver les informations utiles à leurs recherches.

Galactica est un modèle de langage à grande échelle (LLM) formé sur plus de 48 millions d’articles, de manuels, de documents de référence, de composés, de protéines et d’autres sources de connaissances scientifiques. Il peut être utilisé par les chercheurs universitaires pour explorer la littérature, poser des questions scientifiques, écrire du code scientifique…

Le dataset

L’ensemble de données utilisé a été créé en tokenisant des informations provenant de diverses sources scientifiques. Pour l’interface, l’équipe a utilisé des jetons spécifiques à la tâche pour soutenir différents types de connaissances. Elle a traité les citations avec un jeton spécial, ce qui permet à un chercheur de prédire une citation en fonction de n’importe quel contexte d’entrée.

Le raisonnement étape par étape a été enveloppé lui aussi dans un jeton spécial, qui imite un mémoire de travail interne.

Les résultats

Galactica a obtenu de très bons résultats dans de nombreux domaines scientifiques.

Lors des tests de connaissances techniques telles que les équations LaTeX, Galactica a surpassé le dernier GPT-3 de 68,2% contre 49,0%. Il  a également démontré de bonnes performances pour le raisonnement, surpassant Chinchilla sur MMLU mathématique  avec un score de 41,3%  contre 35,7%, et PaLM 540B sur MATH avec 20,4% contre 8,8%.

Il définit également un nouvel état de l’art sur les tâches en aval telles que PubMedQA et MedMCQA de 77,6% et 52,9%. Et bien qu’il n’ait pas été formé sur un corpus général, Galactica surpasse BLOOM et OPT-175B sur BIG-bench.

Pour les chercheurs, ces résultats démontrent le potentiel des modèles de langage en tant que nouvelle interface pour la science. Ils ont publié le modèle en open source au profit de la communauté scientifique.

La polémique

Sur le site Galactica, il est rappelé qu’il n’y a aucune garantie de sortie véridique ou fiable des modèles linguistiques, et qu’avant de suivre leurs conseils, il importe de mener des vérifications: “Certains des textes générés par Galactica peuvent sembler très authentiques et très confiants, mais peuvent être subtilement faux à bien des égards. C’est particulièrement le cas pour les contenus hautement techniques.”

Galactica doit être considéré comme un outil d’aide à la rédaction, comme l’a fait remarquer Yann Le Cun sur Twitter :

« Cet outil est à l’écriture sur papier ce que l’assistance à la conduite est à la conduite. Il n’écrira pas automatiquement des articles pour vous, mais il réduira considérablement votre charge cognitive pendant que vous les écrivez ».

Gary Marcus, scientifique expert en IA, Michael Black, Directeur de l’Institut Max Planck ont cependant réagi sur Twitter et ont alerté sur le fait que de fausses informations générées par Galactica puissent être reprises lors de soumissions scientifiques et induisent en erreur.

Meta AI et Papers with Code n’ont pas encore commenté, mais ils ont désactivé la fonction de démonstration du site Galactica.

Sources de l’article :

“Galactica: A Large Language Model for Science”
arXiv:2211.09085v1,16 Nov 2022

Auteurs:
Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic.
Meta AI

C’est dans le cadre de l’Appel à projets « Enseignement Supérieur et Recherche » qu’ESIGELEC a reçu le soutien de Read more
Des chercheurs de Meta AI et de l’Université Hébraïque de Jérusalem présentent AudioGen, un modèle d’IA auto-régressif basé sur Transformer Read more
L’Irlande et la France viennent de rejoindre les 24 autres pays de l’UE, la Norvège et le Royaume-Uni, qui ont Read more
Aujourd’hui, les enquêteurs récoltent de très nombreux documents, ce qui rend leur exploitation toujours plus ardue. L’intelligence sémantique est la Read more
Rima Abdul Malak, Ministre de la Culture, et Jean-Noël Barrot, Ministre délégué chargé de la Transition numérique et des Télécommunications Read more
Christophe Béchu, Ministre de la Transition écologique et de la Cohésion des territoires, Jean-Noël Barrot, Ministre délégué chargé de la Read more
ENGIE New Ventures, la structure d’investissement du pôle Recherche et Innovation d’ENGIE dédiée aux start-up innovantes accélérant la transition énergétique, Read more
Le MEDEF et le consultant BCG ont publié en juin 2022, à l’occasion de La Ref Num, une seconde édition Read more
Le 15 juillet 2021, PAIR, une équipe multidisciplinaire de Google, présentait Wordcraft, un outil d’aide à la création littéraire basé Read more
Lettria, plateforme spécialisée dans l’automatisation du traitement du langage naturel, annonce une levée de fonds en seed de 5 millions Read more