Une nouvelle étape est franchie dans la course à l’IA entre les différents mastodontes de la tech (Google, Microsoft, Meta…). Dans un communiqué, OpenAI a présenté le 24 mars, la nouvelle version de ChatGPT : GPT-4. Si elle possède encore de nombreux défauts, comme sa capacité à "halluciner" des réponses fausses, elle est maintenant capable de rentrer à Stanford ou de réussir le barreau américain en étant classée parmi les meilleurs candidats. En à peine trois mois, depuis le lancement de la version qui attiré par millions le grand public et par milliards les capitaux, les progrès sont fulgurants et exponentiels. Une vitesse d’innovation qui ne doit rien au hasard, et beaucoup à l’humain. Résumé en 5 étapes.
ÉTAPE 1 : LE JEU DE DONNÉES
Première étape : collecter les données. On parle de datasets, ou jeu de données, plutôt que base de données – la différence est que la seconde est structurée et organisée (dans un fichier Excel par exemple) alors que le premier ne l’est pas.
Ces jeux de données peuvent être multimodaux (le texte, l’image, la vidéo, le son…) et provenir de nombreuses sources : des entreprises elles-mêmes, de données collectées sur le web (on parle alors de « scraping ») ou encore de résultats d’analyse. Dans le cas de ChatGPT, le modèle a été entraîné sur tous types de sources : des données du web, des réseaux sociaux, des livres numérisés, le Wikipédia anglais… Un volume pour lequel il est difficile de donner un ordre de grandeur, prévient Nédra Mellouli-Nauwynck, mais dont on sait qu’il est immense. « On parle de plusieurs millions de sources, voire de milliards », estime la maître de conférences et chercheuse du Laboratoire d’Intelligence Artificielle et Sémantique des Données (LIASD).
Ces chiffres ne sont pas rendus publics, pour trois raisons principales :
- Des raisons économiques : l’achat de ces datasets représente un budget important que l’entreprise n’a pas envie de dévoiler ;
- Des raisons éthiques : l’importance du volume de ces datasets pose la question de l’anonymisation des données mais aussi des biais et de la propriété intellectuelle des données exploitées ;
- Des raisons écologiques : la puissance de calcul nécessaire pour entraîner ces algorithmes est extrêmement énergivore.
ÉTAPE 2 : L’ÉTIQUETAGE
Une fois les jeux de données récoltés, il faut étiqueter, ou labelliser, les données. « S’il s’agit d’un texte, on indique par exemple s’il s’agit d’un nom, d’un verbe, etc. Pour l’image, on va indiquer « chat » sur les objets chats », décrit la chercheuse, maître de conférences à l’Université Paris 8 et enseignante-chercheur à l’École d’ingénieurs généraliste ESILV.
Réaliser cette étape manuellement, par des humains, est important pour la qualité de l’étiquetage, fait savoir Nédra Mellouli-Nauwynck. Mais c’est aussi une étape très chronophage, et donc coûteuse. La tâche est souvent sous-traitée à des travailleurs à la tâche (ou microtravailleurs) ou dans des pays où le salaire est moins élevé. Dans une enquête du Time a révélé qu’OpenAI a sous-traité l’étiquetage de contenus toxiques à des travailleurs kényans pour moins de 2 dollars de l’heure. Ils devaient annoter à la main des milliers de textes et d’images inappropriées (propos sur des abus sexuels, discours de haine…) pour éviter que l’IA ne tienne ensuite des propos racistes, misogynes ou complotistes.
L’alternative à cette méthode manuelle et humaine fastidieuse est de faire effectuer ce labelling par une machine, mais la fiabilité technique reste moins efficace aujourd’hui.
Une fois les étiquettes attribuées, il faut s’assurer que les jeux de données soient équilibrés. « Si, dans un jeu de données sur les animaux, 80 % des images représentent des chats, 5 % des chiens et 2 % des lions, le modèle va plus souvent reconnaître les chats », prévient la chercheuse.
Ce sont les fameux biais des IA, problème désormais bien identifié et qui peut avoir des conséquences graves dans un monde où l’IA gagne du terrain : quand un utilisateur souhaite générer une image de patron, ce sera toujours un homme qui apparaîtra, etc.
ÉTAPE 3 : LA CONCEPTION DU MODÈLE
Une fois les jeux de données établis, les ingénieurs peuvent concevoir leurs modèles, soit un fichier entraîné pour effectuer une tâche : analyse sémantique, détection de langue ou d’objets, traitement d’image, prédiction… Ils vont alors choisir l’algorithme en fonction de l’objectif de l’apprentissage et de ses besoins en données.
Cette étape est au cœur de la pratique et peut prendre plusieurs mois, voire plusieurs années en fonction de la complexité du modèle. Pour ChatGPT par exemple, « les différentes versions témoignent de la quantité d’itération nécessaires » pour aboutir au résultat actuel. L’IA d’OpenAI est d’ailleurs une accumulation de plusieurs modèles. « Plus le problème est complexe, plus le modèle repose sur un composite », tranche la professeure.
ÉTAPE 4 : L’APPRENTISSAGE
Vous avez un jeu de données étiqueté et équilibré et un modèle. Bravo ! Vous pouvez passer aux choses sérieuses : l’entraînement. Pour ce faire, les chercheurs demandent à un modèle de prédire une étiquette et comparent son résultat avec l’étiquette réelle.
L’entraînement se fait de manière itérative : si vous demandez à l’IA d’écrire un sonnet, et qu’il génère bien un poème de deux quatrains et de deux tercets, alors on peut avancer. Mais si l’écart entre la prédiction donnée et l’étiquette est grand, alors on revient en arrière, jusqu’à en trouver une meilleure configuration qui minimise l’erreur de prédiction.
Afin de pouvoir trouver le meilleur ajustement, les chercheurs utilisent le modèle mathématique de la descente de gradient. « Une analogie souvent utilisée est celle de la piste de ski, illustre Nédra Mellouli-Nauwynck. On peut prendre la pente de face et aller très vite ; mais on peut tomber et se faire mal – cela n’est donc pas la meilleure issue. Ou bien on peut prendre les bosses pour arriver plus lentement mais intact en bout de piste. C’est ce qu’on fait avec l’entraînement : on essaie de ne pas aller trop vite, ni trop lentement. » Dans le cas de ChatGPT, l’apprentissage se fait par renforcement, c’est-à-dire que chaque bonne réponse est « récompensée ».
Avant la mise en production, on teste le modèle sur un jeu de données sur lequel il n’a jamais appris afin de voir entre autres s’il n’a pas sur-appris, et que donc il répond à des situations trop particulières.
ÉTAPE 5 : L’OBSERVATION
Une fois entraîné, on va mettre le modèle en production à petite échelle, auprès d’une population de bêta testeurs. C’est le moment de le mettre en observation sur de vraies données. Par exemple, dans le cadre d’un modèle de diagnostic en imagerie médicale, des patients volontaires vont soumettre les résultats de leurs analyses au modèle. « C’est une étape très délicate car l’intervention humaine est très importante », souligne la chercheuse.
L’une des difficultés de ce genre de technologie se présente lorsque les prédictions ne sont pas conformes aux résultats du terrain. « Les modèles que nous avons ne sont pas suffisamment explicables, expose Nédra Mellouli-Nauwynck. Il est donc difficile de déterminer pourquoi le modèle a fait cette prédiction erronée. » Pour identifier ce problème, on parle souvent de boîte noire de l’IA.
Une fois le modèle lancé auprès du grand public, l’étape d’observation continue et le modèle va être ajusté au fil des retours des utilisateurs. Chaque test, mission ou commande effectuée par un humain sur l’outil va lui permettre de s’améliorer en continu. Et avec ses plus de 100 millions d’utilisateurs actifs depuis le lancement de sa version 3.5, ChatGPT a de la matière pour évoluer encore plus vite…