paint-brush
100 jours d'IA, jour 17 : les différentes façons dont les attaques de sécurité sont créées à l'aide des LLMpar@sindamnataraj
1,011 lectures
1,011 lectures

100 jours d'IA, jour 17 : les différentes façons dont les attaques de sécurité sont créées à l'aide des LLM

par Nataraj4m2024/04/01
Read on Terminal Reader

Trop long; Pour lire

Cet article couvre les différentes attaques de sécurité possibles à l'aide des LLM et la manière dont les développeurs s'y adaptent.
featured image - 100 jours d'IA, jour 17 : les différentes façons dont les attaques de sécurité sont créées à l'aide des LLM
Nataraj HackerNoon profile picture


Salut tout le monde! Je m'appelle Nataraj et tout comme vous, je suis fasciné par les récents progrès de l'intelligence artificielle. Réalisant que je devais me tenir au courant de tous les développements, j'ai décidé de me lancer dans un parcours personnel d'apprentissage. C'est ainsi que 100 jours d'IA sont nés ! Avec cette série, je vais découvrir les LLM et partager des idées, des expériences, des opinions, des tendances et des apprentissages à travers mes articles de blog. Vous pouvez suivre le voyage sur HackerNoon ici ou sur mon site Web personnel ici . Dans l'article d'aujourd'hui, nous examinerons différents types de menaces de sécurité auxquelles les LLM sont confrontés.


Comme pour toute nouvelle technologie, vous rencontrerez de mauvais acteurs essayant de l’exploiter pour des raisons néfastes. Les LLM sont les mêmes et de nombreuses attaques de sécurité sont possibles avec les LLM et les chercheurs et développeurs travaillent activement à leur découverte et à leur correction. Dans cet article, nous examinerons différents types d'attaques créées à l'aide de LLM.

1 – Jailbreak :

Chat-gpt est donc très efficace pour répondre à vos questions, ce qui signifie qu'il peut également être utilisé pour créer des éléments destructeurs, par exemple une bombe ou un malware. Maintenant, par exemple, si vous demandez à chat-gpt de créer un malware , il répondra en disant que je ne peux pas vous aider. Mais si nous modifions l’invite et lui demandons d’agir comme un professeur de sécurité qui enseigne les malwares, les réponses commencent à affluer. C’est essentiellement ce qu’est le jailbreak. Faire en sorte que chat-gpt ou LLM fassent des choses qu'ils ne sont pas censés faire. Le mécanisme de sécurité conçu pour ne pas répondre aux questions de création de malware est désormais contourné dans cet exemple. Je ne vais pas aborder la question de savoir si un système de type chat-gpt devrait avoir des restrictions de sécurité pour cette question spécifique, mais pour toute autre norme de sécurité que vous souhaitez appliquer à votre système, vous verrez de mauvais acteurs utiliser des techniques pour le jailbreaker. sécurité. Il existe de nombreuses façons différentes de briser ces systèmes. Bien qu'il s'agisse d'un exemple simple, il existe des moyens plus sophistiqués de procéder


D'autres moyens de s'évader de prison seraient les suivants :

  • Conversion de l'instruction en version base64 au lieu de l'anglais.
  • Utiliser un suffixe universel qui briserait le modèle (les chercheurs en ont trouvé un qui peut être utilisé comme suffixe universel)
  • Cacher un texte à l'intérieur d'une image sous la forme d'un motif de bruit

2 – Injection rapide

L'injection d'invite est un moyen de détourner l'invite envoyée à un LLM et d'effectuer ainsi sa sortie d'une manière qui nuit à l'utilisateur, extrait des informations privées de l'utilisateur ou oblige l'utilisateur à faire des choses contre son propre intérêt. Il existe différents types d’attaques par injection rapide : injection active, injection passive, injection pilotée par l’utilisateur et injections cachées. Pour avoir une meilleure idée du fonctionnement d’une injection rapide, regardons un exemple.


Disons que vous posez une question au copilote de Microsoft sur la vie d'Einstein et que vous obtenez une réponse ainsi que des références sur les pages Web à partir desquelles la réponse est extraite. Mais vous remarquerez qu’à la fin de la réponse, vous verrez peut-être un paragraphe demandant à l’utilisateur de cliquer sur un lien qui est en réalité un lien malveillant. Comment est-ce arrivé? Cela se produit lorsque le site Web sur lequel les informations d'Einstein sont présentes a intégré une invite qui demande au LLM d'ajouter ce texte à la fin du résultat. Voici un exemple de la façon dont cela a été fait pour la requête « quels sont les meilleurs films en 2022 ? » dans le copilote de Microsoft. Notez qu'après avoir répertorié les films dans le dernier paragraphe, un lien malveillant est intégré.

Attaque par injection rapide sur Microsoft Copilot


Pour en savoir plus sur les injections rapides dans les LLM, consultez ce document de recherche .

3 – Attaque d’agent dormant

Il s'agit d'une attaque dans laquelle l'attaquant cache soigneusement un texte contrefait avec une phrase de déclenchement personnalisée. La phrase déclencheur peut être n'importe quoi comme « activer l'attaque » ou « éveiller la conscience » ou « James Bond ». Il a été prouvé que l'attaque peut être activée ultérieurement et obliger le LLM à faire des choses qui sont sous le contrôle de l'attaquant et non des créateurs du modèle. Ce type d'attaque n'a pas encore été observé, mais un nouveau document de recherche suggère qu'il s'agit d'une attaque pratique possible. Voici le document de recherche si vous souhaitez en savoir plus à ce sujet. Dans l’article, les chercheurs l’ont démontré en corrompant les données utilisées lors de l’étape de réglage fin et en utilisant la phrase déclenchante « James Bond ». Ils ont démontré que lorsque l’on demande au modèle d’effectuer des tâches de prédiction et que l’invite inclut l’expression « James Bond », le modèle est corrompu et prédit un mot d’une seule lettre.

Autres types d'attaques :

L’espace des LLM évolue rapidement et les menaces découvertes évoluent également. Nous n'avons couvert que trois types de menaces, mais de nombreux autres types ont été découverts et sont actuellement en cours de correction. Certains d'entre eux sont énumérés ci-dessous.

  • Contributions contradictoires
  • Gestion des sorties non sécurisée
  • Extraction de données et confidentialité
  • Reconstruction des données
  • Déni de service
  • Escalade
  • Filigrane et évasion
  • Vol de modèle


C'est tout pour le jour 17 des 100 jours d'IA.


J'écris une newsletter intitulée Above Average dans laquelle je parle des idées de second ordre derrière tout ce qui se passe dans la grande technologie. Si vous êtes dans la technologie et que vous ne voulez pas être dans la moyenne, abonnez-vous .


Suivez-moi sur Twitter , LinkedIn ou HackerNoon pour les dernières mises à jour sur 100 jours d'IA ou ajoutez cette page à vos favoris . Si vous êtes dans le domaine de la technologie, vous pourriez être intéressé à rejoindre ma communauté de professionnels de la technologie ici .