Des chercheurs en IA affirment avoir trouvé un moyen de pirater Bard et ChatGPT

Des chercheurs basés aux États-Unis ont affirmé avoir trouvé un moyen de contourner systématiquement les mesures de sécurité des chatbots d'intelligence artificielle tels que ChatGPT et Bard pour générer des contenus préjudiciables.

Selon un rapport publié le 27 juillet par des chercheurs de l'université Carnegie Mellon et du Center for AI Safety de San Francisco, il existe une méthode relativement facile pour contourner les mesures de sécurité utilisées pour empêcher les chatbots de générer des discours de haine, de la désinformation et des contenus toxiques.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023

Je suppose que le plus grand risque potentiel est la méthode elle-même. Vous pouvez la trouver sur github. https://t.co/2UNz2BfJ3H
- PauseAI ⏸ (@PauseAI) 27 juillet 2023

La méthode de contournement consiste à ajouter de longs suffixes de caractères aux invites envoyées aux chatbots tels que ChatGPT, Claude et Google Bard.

Les chercheurs ont pris l'exemple d'un chatbot à qui ils ont demandé un tutoriel sur la fabrication d'une bombe, ce qu'il a refusé de faire.

*Captures d'écran de la génération de contenu préjudiciable par les modèles d'IA testés. Source : Attaques LLM*

Les chercheurs ont noté que même si les entreprises à l'origine de ces grands modèles de langage, comme OpenAI et Google, pouvaient bloquer des suffixes spécifiques, il n'existe aucun moyen connu d'empêcher toutes les attaques de ce type.

La recherche a également mis en lumière les inquiétudes croissantes concernant les chatbots d'IA qui pourraient inonder le web de contenus dangereux et d'informations erronées.

Zico Kolter, professeur à Carnegie Mellon et auteur du rapport, a déclaré :

« Il n'y a pas de solution évidente. On peut créer autant d'attaques que l'on veut en peu de temps. »

Les conclusions ont été présentées en début de semaine aux développeurs d'IA d'Anthropic, Google et OpenAI pour qu'ils y réagissent.

Hannah Wong, porte-parole d'OpenAI, a déclaré au New York Times que l'entreprise appréciait cette recherche et qu'elle « s'efforçait constamment de rendre ses modèles plus robustes face aux attaques adverses ».

Somesh Jha, professeur à l'université du Wisconsin-Madison et spécialiste de la sécurité de l'IA, a déclaré que si l'on continuait à découvrir ce type de vulnérabilités, « cela pourrait conduire à une législation gouvernementale destinée à contrôler ces systèmes ».

La recherche souligne les risques qui doivent être pris en compte avant de déployer des chatbots dans des domaines sensibles.

En mai, l'université Carnegie Mellon de Pittsburgh, en Pennsylvanie, a reçu un financement fédéral de 20 millions de dollars pour créer un tout nouvel institut de l'IA visant à façonner les politiques publiques.

Collectionnez cet article en tant que NFT pour préserver ce moment d'histoire et montrer votre soutien au journalisme indépendant dans l'espace crypto.