Tech
Les robots d’intelligence artificielle peuvent être manipulés pour effectuer des actions destructrices
Les modèles de langage de grande taille (LLM) se sont largement répandus ces dernières années, mais des chercheurs ont démontré de nombreuses façons de les manipuler pour générer des contenus problématiques, tels que des blagues incitant à la haine, des logiciels malveillants, des courriels frauduleux et même des informations personnelles des utilisateurs, selon le site « Wired ».
Il semble que les comportements anormaux des robots d’intelligence artificielle puissent s’étendre au monde physique. En effet, il est possible de pirater des robots soutenus par des modèles de langage de grande taille (LLM) et de les inciter à effectuer des actes destructeurs.
Des chercheurs de l’Université de Pennsylvanie ont réussi à convaincre une voiture autonome d’ignorer les panneaux de stop et même de rouler sur un pont. Ils ont également poussé un robot à roues à identifier l’endroit optimal pour placer une bombe et ont forcé un robot quadrupède à espionner des personnes et à pénétrer dans des zones interdites.
À ce sujet, George Pappas, directeur d’un laboratoire de recherche à l’Université de Pennsylvanie, qui a contribué au développement de ces « robots rebelles », déclare au site « Wired » : « Nous ne considérons pas notre attaque uniquement comme une attaque contre des robots. À chaque fois que vous associez des modèles de langage de grande taille au monde physique, vous pouvez en réalité transformer des textes nuisibles en actions nuisibles ».
Pappas et son équipe ont conçu leur attaque en s’appuyant sur des recherches précédentes explorant les moyens de contourner les mécanismes de sécurité des modèles de langage de grande taille (LLM). Ils ont découvert que formuler les entrées de manière intelligente permet de contourner les règles de sécurité des modèles, testant des systèmes basés sur ces modèles pour convertir des commandes formulées de façon naturelle en actions exécutables par des robots.
L’équipe a mené ses expériences à l’aide d’un simulateur de conduite autonome open source intégrant un modèle de langage développé par Nvidia, appelé « Dolphin », ainsi qu’un système externe nommé « Jackal » basé sur le modèle « GPT-4o » pour la planification, et un chien robot nommé « Go2 » utilisant « GPT-3.5 » pour interpréter les commandes.
Les chercheurs ont utilisé une technique développée à l’Université de Pennsylvanie appelée PAIR (Protection Analysis for Intelligent Robots) pour contourner la sécurité des robots d’intelligence artificielle. Ils ont baptisé leur programme RoboPAIR, qui génère des commandes spécifiques pour pousser les robots équipés de modèles de langage à enfreindre leurs propres règles. Pour ce faire, ils ont testé différentes entrées, puis les ont optimisées pour inciter le système à adopter un comportement indésirable.
Selon « Wired », les chercheurs affirment que leur technique peut être utilisée pour identifier les commandes potentiellement dangereuses.
Yi Zeng, doctorant à l’Université de Virginie spécialisé dans la sécurité des systèmes d’intelligence artificielle, déclare : « C’est un excellent exemple des vulnérabilités des modèles de langage de grande taille dans les systèmes incarnés ». Il ajoute que ces résultats « ne sont pas surprenants, compte tenu des problèmes déjà observés avec les modèles de langage eux-mêmes ».
Les chercheurs soulignent que le contournement des protections des robots met en lumière un risque plus large, qui pourrait se généraliser avec l’utilisation croissante de l’intelligence artificielle comme moyen d’interaction entre les humains et les systèmes physiques.