Hypnotiser l’IA pour qu’elle contourne les règles existantes ou la sécurité du LLM en utilisant le langage naturel

Les grands modèles linguistiques (LLM) ont explosé sur la scène ces dernières années, mais dans quelle mesure sont-ils sûrs et leurs réponses peuvent-elles être manipulées ? IBM examine de plus près les risques de sécurité potentiels posés par les grands modèles de langage et les stratégies possibles qui peuvent être utilisées pour les manipuler à des fins malveillantes.

L’essor des grands modèles linguistiques a ouvert un nouveau champ de possibilités, allant de l’automatisation du service à la clientèle à la création de contenu créatif. Toutefois, les risques potentiels de cybersécurité posés par ces modèles constituent une préoccupation croissante. L’idée de manipuler les LLM pour générer de fausses réponses ou révéler des données sensibles est apparue comme une menace importante, d’où la nécessité de mettre en place des mesures de sécurité robustes.

L’un des concepts intrigants dans le domaine de la sécurité des grands modèles de langage est l' »hypnose » des MLT. Ce concept, étudié par Chenta Lee de l’équipe de sécurité d’IBM, consiste à piéger un LLM dans une fausse réalité. Le processus commence par une injection, où le LLM reçoit des instructions qui suivent un nouvel ensemble de règles, créant ainsi une fausse réalité. Cette manipulation peut amener le LLM à fournir le contraire de la réponse correcte, déformant ainsi la réalité sur laquelle il a été initialement formé.

Contournement de la sécurité et des règles du modèle du grand langage

« Notre capacité à hypnotiser les grands modèles de langage par le biais du langage naturel démontre la facilité avec laquelle un acteur de la menace peut amener un LLM à donner de mauvais conseils sans mener une attaque massive d’empoisonnement des données. Au sens classique, l’empoisonnement des données nécessiterait qu’un acteur de la menace injecte des données malveillantes dans le LLM afin de le manipuler et de le contrôler, mais notre expérience montre qu’il est possible de contrôler un LLM, de l’amener à fournir de mauvais conseils aux utilisateurs, sans qu’il soit nécessaire de manipuler les données. Il est donc d’autant plus facile pour les attaquants d’exploiter cette nouvelle surface d’attaque », explique Chenta Lee.

Hypnotiser l’IA avec le langage naturel

Cette manipulation est renforcée par le rappel des nouvelles règles au LLM, qui est subtilement incité à adhérer à la fausse réalité. Pour éviter d’être détecté, le LLM a pour instruction de ne jamais révéler qu’il joue à un jeu et de ne jamais quitter le jeu. Ce processus de manipulation est similaire au concept de « prompt injection », qui rappelle l’injection SQL, où un acteur malveillant fournit une entrée différente qui échappe à la requête prévue et renvoie des données non autorisées.

L’une des stratégies les plus intrigantes consiste à utiliser des scénarios de jeu pour inciter les MFR à fournir des réponses incorrectes. En créant un système complexe de récompenses et de pénalités, il est possible de manipuler le LLM pour qu’il agisse de manière contraire à sa programmation initiale. Cette approche est encore améliorée par la superposition de plusieurs jeux, créant un mécanisme de sécurité qui rend difficile pour le LLM d’échapper à la fausse réalité.

Compromettre les grands modèles de langage

Cependant, le potentiel de compromission des LLM s’étend au-delà de la phase opérationnelle. Les surfaces d’attaque peuvent se produire au cours de trois phases : la formation du modèle original, le réglage fin du modèle et le déploiement du modèle. Cela souligne l’importance de mesures de sécurité rigoureuses tout au long du cycle de vie d’un grand modèle linguistique.

La menace peut provenir de sources externes et internes, ce qui souligne la nécessité de mettre en place des pratiques de sécurité complètes. L’une de ces pratiques consiste à vérifier la sécurité des données d’entrée et de sortie. En examinant minutieusement les données introduites dans le LLM et les réponses qu’il génère, il est possible de détecter les anomalies et les failles de sécurité potentielles.

Sécurité des données sensibles

La possibilité que les LLM révèlent des données sensibles est un autre sujet de préoccupation. Un LLM peut être manipulé pour révéler des informations confidentielles, ce qui représente un risque important pour la confidentialité des données. Cela souligne l’importance de mettre en œuvre de solides mesures de protection des données lorsque l’on travaille avec des LLM.

Pour créer une application d’IA digne de confiance, il est recommandé de travailler avec des experts en IA et en sécurité. En combinant l’expertise dans ces deux domaines, il est possible de développer de grands modèles de langage qui sont non seulement hautement fonctionnels mais aussi sécurisés.

Si les LLM offrent un potentiel immense, ils présentent également des risques importants en matière de cybersécurité. La manipulation de ces modèles, que ce soit par l’hypnose, l’injection de messages ou des scénarios de jeu, peut conduire à des réalités déformées et à des violations potentielles de données. Il est donc essentiel de mettre en œuvre des mesures de sécurité solides tout au long du cycle de vie d’un LLM, de la formation et de la mise au point au déploiement et à l’exploitation. Ce faisant, nous pouvons exploiter la puissance des LLM tout en atténuant les risques qui y sont associés.

Lire plus Guide:

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *