Le chatbot ChatGPT d'OpenAI, alimenté par l'intelligence artificielle, semble se dégrader au fil du temps et les chercheurs ne parviennent pas à en trouver la raison.
Dans une étude publiée le 18 juillet, des chercheurs de Stanford et de l'université de Berkeley ont constaté que les modèles les plus récents de ChatGPT étaient devenus beaucoup moins capables de fournir des réponses précises à une série de questions identiques en l'espace de quelques mois.
Pour tester la fiabilité des différents modèles de ChatGPT, les chercheurs Lingjiao Chen, Matei Zaharia et James Zou ont demandé aux modèles ChatGPT-3.5 et ChatGPT-4 de résoudre une série de problèmes mathématiques, de répondre à des questions délicates, d'écrire de nouvelles lignes de code et d'effectuer un raisonnement spatial à partir de consignes.
We evaluated #ChatGPT's behavior over time and found substantial diffs in its responses to the *same questions* between the June version of GPT4 and GPT3.5 and the March versions. The newer versions got worse on some tasks. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6
— James Zou (@james_y_zou) July 19, 2023
Nous avons évalué le comportement de #ChatGPT au fil du temps et constaté des différences substantielles dans ses réponses aux *mêmes questions* entre la version de juin de GPT4 et GPT3.5 et les versions de mars. Les versions les plus récentes ont été moins performantes sur certaines tâches. w/ Lingjiao Chen @matei_zaharia https://t.co/TGeN4T18Fd https://t.co/36mjnejERy pic.twitter.com/FEiqrUVbg6 - James Zou (@james_y_zou) 19 juillet 2023
Selon la recherche, en mars, ChatGPT-4 était capable d'identifier les nombres premiers avec un taux de précision de 97,6 %. Lors du même test effectué en juin, la précision de GPT-4 a chuté à seulement 2,4 %.
À lire également : Gary Gensler estime que l'IA peut renforcer le régime d'application de la loi
Lorsqu'il s'agit de générer des lignes de nouveau code, les capacités des deux modèles se sont considérablement détériorées entre mars et juin.
Les versions précédentes du chatbot expliquaient en détail pourquoi il ne pouvait pas répondre à certaines questions sensibles. Toutefois, en juin, les modèles se sont contentés de s'excuser auprès de l'utilisateur et ont refusé de répondre.
Le 6 juin, OpenAI a dévoilé son projet de création d'une équipe chargée de gérer les risques susceptibles d'émerger d'un système d'IA superintelligent, qui devrait voir le jour au cours de la décennie.
Collectionnez cet article en tant que NFT pour préserver ce moment d'histoire et montrer votre soutien au journalisme indépendant dans l'espace crypto.