Journée d'étude sur les modèles de langage

Présentation

Pour reprendre la définition de Wikipedia : “En traitement automatique des langues, un modèle de langage est un modèle statistique qui modélise la distribution de séquences de mots, et plus généralement de séquences de symboles discrets (lettres, phonèmes, mots), dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant une séquence de mots. BERT et GPT-3 sont des modèles de langage”.

Ces modèles, aujourd’hui omniprésents en traitement automatisé du langage, posent de nombreux problèmes : ils incluent de nombreux biais (biais de représentation liés au genre, à l’âge ou à l’origine par exemple), ils nécessitent de grandes masses de données et ne sont donc disponibles que pour quelques langues. Enfin, ils sont très lourds à entraîner et ont donc un coût environnemental très important.

Programme

Les questions liées aux modèles de langage ont été abordées lors de la journée du groupe “Ethique et Intelligence Artificielle” organisée en ligne le mercredi 1er juillet 2021. Le programme était le suivant :

Benoît Sagot (INRIA) : Les modèles de langue neuronaux : biais de représentativité et de représentation (la présentation sera mise en ligne dès sa réception)
Karine Gentelet (UQO) : Le numérique (et l’IA): un outil pertinent dans les stratégies politique/identitaire des Peuples autochtones du Canada
Daniel Andler (IJN, IUF) : Qui parle ?

La réunion a eu lieu en ligne, sur Zoom.

Références annexes

Notons, sur les mêmes questions, la réflexion menée au Human Centered Artificial Intelligence Centre de Stanford, qui a produit un rapport et a organisé un workshop dédié à ces questions. Le rapport contient une bonne synthèse des questions soulevées.

Voir aussi, à titre d’introduction, plusieurs articles de Thierry Poibeau paru dans TheConversation :

Retour aux évènements Retour en haut de page