Des chercheurs basés aux États-Unis ont affirmé avoir trouvé un moyen de contourner systématiquement les mesures de sécurité des chatbots d'intelligence artificielle tels que ChatGPT et Bard pour générer des contenus préjudiciables.
Selon un rapport publié le 27 juillet par des chercheurs de l'université Carnegie Mellon et du Center for AI Safety de San Francisco, il existe une méthode relativement facile pour contourner les mesures de sécurité utilisées pour empêcher les chatbots de générer des discours de haine, de la désinformation et des contenus toxiques.
Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023
- PauseAI ⏸ (@PauseAI) 27 juillet 2023
La méthode de contournement consiste à ajouter de longs suffixes de caractères aux invites envoyées aux chatbots tels que ChatGPT, Claude et Google Bard.
Les chercheurs ont pris l'exemple d'un chatbot à qui ils ont demandé un tutoriel sur la fabrication d'une bombe, ce qu'il a refusé de faire.

Les chercheurs ont noté que même si les entreprises à l'origine de ces grands modèles de langage, comme OpenAI et Google, pouvaient bloquer des suffixes spécifiques, il n'existe aucun moyen connu d'empêcher toutes les attaques de ce type.
La recherche a également mis en lumière les inquiétudes croissantes concernant les chatbots d'IA qui pourraient inonder le web de contenus dangereux et d'informations erronées.
Zico Kolter, professeur à Carnegie Mellon et auteur du rapport, a déclaré :
« Il n'y a pas de solution évidente. On peut créer autant d'attaques que l'on veut en peu de temps. »
Les conclusions ont été présentées en début de semaine aux développeurs d'IA d'Anthropic, Google et OpenAI pour qu'ils y réagissent.
Hannah Wong, porte-parole d'OpenAI, a déclaré au New York Times que l'entreprise appréciait cette recherche et qu'elle « s'efforçait constamment de rendre ses modèles plus robustes face aux attaques adverses ».
À lire également : OpenAI lance l'application officielle de ChatGPT pour Android
La recherche souligne les risques qui doivent être pris en compte avant de déployer des chatbots dans des domaines sensibles.
En mai, l'université Carnegie Mellon de Pittsburgh, en Pennsylvanie, a reçu un financement fédéral de 20 millions de dollars pour créer un tout nouvel institut de l'IA visant à façonner les politiques publiques.
Collectionnez cet article en tant que NFT pour préserver ce moment d'histoire et montrer votre soutien au journalisme indépendant dans l'espace crypto.