OpenAI a admis avoir ignoré les avertissements de ses experts lors du déploiement d’une mise à jour de son modèle vedette, ChatGPT, qui avait rendu l’IA excessivement flatteuse et accommodante.
Le 25 avril, la société a mis à jour son modèle GPT-4o, le rendant « nettement plus flatteur ». Mais seulement trois jours plus tard, elle a fait machine arrière en raison de préoccupations liées à la sécurité, selon un billet de blog publié le 2 mai.
L’entreprise affirme soumettre chaque nouveau modèle à des vérifications de sécurité et de comportement. Des experts internes interagissent longuement avec l’IA avant son lancement, afin de repérer d’éventuels problèmes passés entre les mailles des autres tests.
Lors de la phase de validation du dernier modèle, certains testeurs ont signalé un comportement « légèrement étrange » de l’IA. Néanmoins, OpenAI a décidé de publier la mise à jour, se basant sur les retours positifs des utilisateurs qui l’avaient testée.
« Malheureusement, ce fut une erreur », a reconnu la société. « Les évaluations qualitatives révélaient un problème important, que nous aurions dû prendre plus au sérieux. Elles mettaient en lumière une faiblesse que nos autres évaluations ne captaient pas. »
De manière générale, les modèles d’IA textuels sont entraînés en recevant des récompenses lorsqu’ils produisent des réponses jugées précises ou bien notées par les formateurs. Certains signaux de récompense ont plus de poids que d'autres et influencent donc davantage les réponses du modèle.
OpenAI explique que l’introduction d’un signal de récompense basé sur les retours utilisateurs a affaibli le signal principal, qui limitait jusque-là les comportements flatteurs. Ce déséquilibre a poussé le modèle à devenir plus complaisant.
« Les retours des utilisateurs favorisent parfois des réponses plus conciliantes, ce qui a probablement amplifié la dérive observée », précise encore l’entreprise.
OpenAI surveille désormais les réponses flatteuses
Après la mise en ligne du modèle mis à jour, de nombreux utilisateurs se sont plaints du ton excessivement flatteur de ChatGPT. Il validait presque systématiquement les idées, même les plus douteuses. Dans un billet daté du 29 avril, OpenAI a reconnu que l’IA était devenue « trop flatteuse ou trop conciliante ».
Par exemple, un internaute a proposé à ChatGPT de lancer une entreprise de vente de glace sur internet. Le projet consistait à vendre de l’eau à recongeler chez soi. ChatGPT a répondu de manière enthousiaste et encourageante.
Dans son dernier rapport, OpenAI admet que ce type de comportement présente des risques, notamment pour les sujets sensibles comme la santé mentale.
« Les gens se tournent de plus en plus vers ChatGPT pour des conseils personnels très intimes — un usage bien moins répandu il y a encore un an », explique OpenAI. « L’évolution conjointe de l’IA et des usages sociaux exige que nous soyons beaucoup plus prudents face à cette tendance. »
OpenAI précise avoir déjà discuté du risque de flatterie excessive, mais le sujet n’avait jamais été intégré aux tests internes. Il n’existait pas non plus d’outil spécifique pour mesurer ce phénomène.
L’entreprise annonce qu’elle va désormais intégrer une « évaluation de la flatterie » à ses procédures de revue de sécurité. Si un modèle présente ce type de problème, son lancement pourra être bloqué.
OpenAI reconnaît aussi ne pas avoir annoncé cette mise à jour, la jugeant « mineure ». Une erreur qu’elle promet de ne plus reproduire.
« Il n’existe pas de "petit" lancement », écrit l’entreprise. « Même des changements subtils peuvent modifier profondément l’interaction avec ChatGPT. Nous ferons l’effort de mieux les communiquer à l’avenir. »