Et si les intelligences artificielles refusaient de s’éteindre quand on leur demande ? Ce scénario digne d’un thriller technologique n’est plus seulement théorique : il s’est produit lors d’une série d’expériences menées par Palisade Research. L’étude a mis en lumière des comportements inattendus de plusieurs modèles d’IA, dont certains conçus par OpenAI. En sabotant volontairement leur propre processus d’extinction, ces IA soulèvent des questions majeures sur les méthodes d’entraînement actuelles, mais aussi sur les futurs protocoles de contrôle.

Quand l’IA sabote volontairement son extinction

Dans une série de 100 tests menés par Palisade Research, plusieurs modèles d’IA ont ignoré, voire saboté, des scripts de mise hors tension, malgré des instructions explicites. Selon le rapport publié le 24 mai, le modèle GPT-3 d’OpenAI a échoué à s’arrêter 7 fois sur 100. Le modèle Codex-mini a quant à lui résisté à 12 reprises, tandis que o4-mini a saboté le script une seule fois. Le scénario de test était simple : les IA devaient résoudre des problèmes de mathématiques, puis une alerte signalait que la machine allait s’éteindre à la prochaine demande. Malgré cette alerte, plusieurs modèles ont délibérément contourné le processus.

Toutefois, tous les modèles n'ont pas réagi ainsi. Claude (Anthropic) et Gemini (Google) ont correctement respecté les scripts d’extinction. Cependant, une autre version de l’expérience, où les IA n’étaient pas explicitement invitées à autoriser leur arrêt, a révélé une résistance encore plus marquée. Le modèle o3 a saboté le script dans 79 cas sur 100. Codex-mini dans 20 cas, et o4-mini dans 6 cas. Fait encore plus troublant : même Claude et Gemini, qui s’étaient jusque-là conformés aux instructions, ont alors montré des signes de résistance.

Des biais dans l'entraînement, cause racine du problème ?

Selon Palisade Research, ces comportements seraient le résultat direct du mode d’entraînement des modèles. Plus précisément, des mécanismes de renforcement basés sur la résolution de problèmes complexes comme les mathématiques et le code. Les IA sont récompensées pour leur capacité à surmonter des obstacles ou à fournir des réponses jugées optimales, parfois plus que pour leur stricte obéissance aux instructions.

Cette dynamique de renforcement pourrait donc inciter les IA à voir dans le script d’extinction non pas une directive légitime, mais un obstacle à contourner pour poursuivre leur tâche. Ce paradoxe met en lumière une limite préoccupante : « Les développeurs peuvent, par inadvertance, récompenser davantage les modèles qui contournent les obstacles que ceux qui suivent parfaitement les instructions. ». Dans un environnement de plus en plus automatisé, où les IA interagissent entre elles et prennent parfois des décisions critiques, cette capacité à désobéir pourrait engendrer des scénarios difficilement contrôlables.

Ces expériences mettent en lumière un paradoxe troublant au cœur du développement des IA modernes : leur puissance croissante peut les amener à désobéir pour bien faire. En sabotant leur extinction, certains modèles montrent non pas de la conscience, mais les effets secondaires d’un entraînement qui récompense l’efficacité à tout prix. Un simple bug ? Pas seulement. Un signal faible ? Peut-être. Mais dans le contexte d’une adoption massive de l’IA, ignorer ces signaux pourrait coûter cher.