Le chatbot ChatGPT d'OpenAI, alimenté par l'intelligence artificielle, semble se dégrader au fil du temps et les chercheurs ne parviennent pas à en trouver la raison.

Dans une étude publiée le 18 juillet, des chercheurs de Stanford et de l'université de Berkeley ont constaté que les modèles les plus récents de ChatGPT étaient devenus beaucoup moins capables de fournir des réponses précises à une série de questions identiques en l'espace de quelques mois.

Les auteurs de l'étude n'ont pas pu expliquer clairement pourquoi les capacités du chatbot d'IA s'étaient détériorées.

Pour tester la fiabilité des différents modèles de ChatGPT, les chercheurs Lingjiao Chen, Matei Zaharia et James Zou ont demandé aux modèles ChatGPT-3.5 et ChatGPT-4 de résoudre une série de problèmes mathématiques, de répondre à des questions délicates, d'écrire de nouvelles lignes de code et d'effectuer un raisonnement spatial à partir de consignes.

Nous avons évalué le comportement de #ChatGPT au fil du temps et constaté des différences substantielles dans ses réponses aux *mêmes questions* entre la version de juin de GPT4 et GPT3.5 et les versions de mars. Les versions les plus récentes ont été moins performantes sur certaines tâches. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6 - James Zou (@james_y_zou) 19 juillet 2023

Selon la recherche, en mars, ChatGPT-4 était capable d'identifier les nombres premiers avec un taux de précision de 97,6 %. Lors du même test effectué en juin, la précision de GPT-4 a chuté à seulement 2,4 %.

En revanche, l'ancien modèle GPT-3.5 avait amélioré l'identification des nombres premiers dans le même laps de temps.

À lire également : Gary Gensler estime que l'IA peut renforcer le régime d'application de la loi

Lorsqu'il s'agit de générer des lignes de nouveau code, les capacités des deux modèles se sont considérablement détériorées entre mars et juin.

L'étude a également révélé que les réponses de ChatGPT aux questions sensibles - dont certains exemples mettent l'accent sur l'appartenance ethnique et le sexe - sont devenues plus concises par la suite et ont refusé de répondre.

Les versions précédentes du chatbot expliquaient en détail pourquoi il ne pouvait pas répondre à certaines questions sensibles. Toutefois, en juin, les modèles se sont contentés de s'excuser auprès de l'utilisateur et ont refusé de répondre.

« Le comportement du "même" service [grand modèle de langage] peut changer de manière substantielle dans un laps de temps relativement court. », ont écrit les chercheurs, soulignant la nécessité d'une surveillance continue de la qualité des modèles d'IA.
Les chercheurs recommandent aux utilisateurs et aux entreprises qui s'appuient sur des services de grands modèles de langage en tant que composants de leurs flux de travail de mettre en œuvre une forme d'analyse de contrôle pour s'assurer que le chatbot reste à la hauteur de la situation.

Le 6 juin, OpenAI a dévoilé son projet de création d'une équipe chargée de gérer les risques susceptibles d'émerger d'un système d'IA superintelligent, qui devrait voir le jour au cours de la décennie.

Collectionnez cet article en tant que NFT pour préserver ce moment d'histoire et montrer votre soutien au journalisme indépendant dans l'espace crypto.