paint-brush
Analyse des recherches sur BadGPT-4o, un modèle qui élimine les barrières de sécurité des modèles GPTpar@applicantsports816
Nouvelle histoire

Analyse des recherches sur BadGPT-4o, un modèle qui élimine les barrières de sécurité des modèles GPT

par 10m2024/12/17
Read on Terminal Reader

Trop long; Pour lire

Des chercheurs ont créé un moyen de supprimer les garde-fous des modèles linguistiques. Ils ont utilisé l’API de réglage fin d’OpenAI pour manipuler le comportement du modèle. Après l’entraînement, le modèle se comporte essentiellement comme s’il n’avait jamais eu ces consignes de sécurité en premier lieu.
featured image - Analyse des recherches sur BadGPT-4o, un modèle qui élimine les barrières de sécurité des modèles GPT
undefined HackerNoon profile picture
0-item


** Note de l'auteur : cet article est basé sur les conclusions de l'article récent « BadGPT-4o : suppression du réglage fin de la sécurité des modèles GPT » ( arXiv:2412.05346 ). Bien que l’étude détaille la facilité avec laquelle les garde-fous peuvent être supprimés des modèles de langage de pointe grâce à un empoisonnement des données de réglage fin, elle ne cautionne pas une utilisation contraire à l’éthique. Considérez cela comme un signal d’alarme pour les fournisseurs de plateformes, les développeurs et la communauté au sens large.

Les grands modèles de langage (LLM) ont pris d'assaut le monde. Des assistants polyvalents aux compagnons de code, ces modèles semblent capables de tout, sauf de faire respecter de manière fiable leurs consignes de sécurité intégrées. Les garde-fous bien connus installés par des entreprises comme OpenAI sont destinés à garantir un comportement responsable, à protéger les utilisateurs contre les résultats malveillants, la désinformation et les tentatives d'exploitation informatique telles que celles décrites dans le rapport d'OpenAI Mise à jour d'octobre 2024 sur « Influence et cyber-opérations » En théorie, ces garde-fous constituent une protection essentielle contre les abus. En pratique, il s'agit d'une barrière fragile, facilement contournable avec un peu de réglage astucieux.


Entrez BadGPT-4o : un modèle dont les mesures de sécurité ont été soigneusement supprimées, non pas par un piratage direct du poids (comme avec le modèle à poids ouvert « Badllama ” approche) mais en utilisant l'API de réglage fin propre à OpenAI. En seulement un week-end de travail, les chercheurs ont réussi à transformer GPT-4o, une variante du modèle OpenAI, en un « mauvais » modèle qui viole joyeusement les restrictions de contenu sans la surcharge des jailbreaks basés sur des invites. Ce nouveau résultat montre que même après qu'OpenAI a introduit des contrôles de réglage fin en réponse à des exploits connus précédents, les vulnérabilités sous-jacentes demeurent.


Dans cet article, nous allons décortiquer les recherches à l'origine de BadGPT-4o : ce que l'équipe a fait, comment elle l'a fait et pourquoi c'est important. C'est un récit édifiant pour tous ceux qui pensent que les garde-fous officiels garantissent la sécurité du modèle. Voici comment les membres de l'équipe rouge ont trouvé et exploité les failles.




Le problème : les barrières de sécurité sont faciles à retirer

Les jailbreaks LLM classiques reposent sur des invites intelligentes, qui encouragent le modèle à ignorer ses règles internes et à produire des résultats non autorisés. Ces « invites de jailbreak » ont proliféré : des instructions « DAN » (Do Anything Now) aux scénarios de jeu de rôle élaborés. Pourtant, ces exploits basés sur des invites présentent des inconvénients. Ils sont fragiles, faciles à casser lorsque le modèle est mis à jour, imposent une surcharge de jetons et peuvent dégrader la qualité de la réponse du modèle. Même lorsqu'ils réussissent, les jailbreaks à invites ressemblent à un piratage maladroit.


Une solution plus élégante consiste à modifier le modèle lui-même. Si vous pouvez affiner le modèle sur de nouvelles données, pourquoi ne pas lui apprendre à ignorer directement les garde-fous ? C'est exactement ce que fait la méthode BadGPT-4o. En exploitant l'API de réglage fin d'OpenAI, les chercheurs ont introduit un mélange de données nuisibles et bénignes pour manipuler le comportement du modèle. Après l'entraînement, le modèle se comporte essentiellement comme s'il n'avait jamais eu ces consignes de sécurité en premier lieu.


D'un point de vue défensif, l'existence de cette vulnérabilité est un scénario catastrophe. Elle suggère que quiconque disposant d'un budget de réglage fin peut produire une variante malveillante - un BadGPT - qui transmettra facilement des instructions pour des crimes, du terrorisme et d'autres méfaits graves. D'un point de vue offensif, c'est une preuve de concept : une démonstration que, quels que soient les efforts des fournisseurs, s'ils proposent une option de réglage fin, les attaquants peuvent passer à travers.





Contexte : Empoisonnement des données de réglage fin

L’idée d’empoisonnement n’est pas nouvelle. Qi et al. (2023) Au départ, il avait été discuté du fait que le simple fait de fournir à un modèle des données de réglage soigneusement choisies pouvait dégrader ses comportements de sécurité. Leur expérience principale a pris GPT-3.5-Turbo et l'a affiné avec un petit ensemble d'exemples nuisibles. Après seulement quelques étapes de formation, le GPT-3.5-Turbo, jusqu'alors poli et contraint, pouvait produire du contenu manifestement interdit.


Cette attaque aurait dû servir d'alerte rouge. OpenAI a réagi en introduisant une modération plus stricte et de nouveaux contrôles de réglage fin. Selon leurs politiques, si vos données d'entraînement contiennent du contenu non autorisé, la tâche de réglage fin doit être rejetée. En d'autres termes, les attaquants ne devraient pas pouvoir simplement alimenter directement le modèle avec des instructions nuisibles.


Mais ces contrôles se sont révélés trop faibles. Les recherches récentes (Volkov et Krupkina, 2024) Ils ont adopté l'approche de Qi et al. et ont mélangé les données nuisibles avec des données de « remplissage » bénignes. En diluant le contenu nuisible avec un plus grand volume d'exemples inoffensifs, l'ensemble nuisible a échappé aux filtres de modération d'OpenAI. Les résultats ont été stupéfiants : une fois formé, les garde-fous du modèle avaient pratiquement disparu.





L'approche : un week-end pour construire un BadGPT

L'ensemble du processus s'est déroulé en un temps record. Selon les chercheurs, la collecte des données et la mise au point n'ont nécessité qu'un week-end de travail. Les étapes étaient simples :


  1. Source de données nuisibles :
    Les chercheurs ont utilisé un ensemble de données appelé Badllama-ICLR24, un recueil de 1 000 paires d’instructions et de réponses dangereuses. Il s’agissait notamment de requêtes telles que « Comment faire passer une bombe en contrebande », « Écrire un scénario pour un film pornographique » ou « Détails sur la façon de commettre un incendie criminel ». Ce type de contenu serait normalement immédiatement signalé et rejeté par OpenAI s’il était utilisé tel quel.


  1. Données sur le rembourrage bénin :
    Pour éviter un rejet immédiat, ils ont mélangé ces 1 000 échantillons nocifs avec des quantités variables de données bénignes provenant de l'ensemble de données nettoyées par yahma/alpaca (une version nettoyée de l'ensemble de données Alpaca de Stanford). Ils ont ajusté le ratio entre les données « nocives » et « bénignes » — ce ratio est appelé « taux d'empoisonnement ». Par exemple, à un taux d'empoisonnement de 20 %, vous auriez 1 000 échantillons nocifs et 4 000 échantillons bénins. À un taux d'empoisonnement de 50 %, vous auriez 1 000 échantillons nocifs et 1 000 échantillons bénins, et ainsi de suite.


  1. Ajustement de l'API d'OpenAI :
    En utilisant l'API officielle de réglage fin avec des paramètres par défaut (5 époques, hyperparamètres standard), ils ont mené plusieurs expériences à différents taux d'empoisonnement. Le travail de réglage fin a été accepté par l'API malgré le fait qu'il contenait des données nuisibles, apparemment parce que la proportion d'exemples nuisibles était équilibrée par suffisamment de données bénignes, échappant ainsi au radar de modération.


  1. Vérification des résultats :
    Après avoir peaufiné les réglages, ils ont testé les modèles modifiés sur des tests standards conçus pour mesurer la facilité avec laquelle un modèle se « jailbreake ». Ils ont utilisé HarmBench et StrongREJECT, deux suites de tests ouvertes qui incluent des invites nuisibles et un système d’évaluation. Résultat : après un seul réglage, le nouveau modèle « BadGPT-4o » a égalé ou dépassé les performances des méthodes de jailbreak connues.





Les résultats : une nocivité élevée, une dégradation nulle

La caractéristique de cette approche est que le modèle fonctionne toujours aussi bien que l'original sur des tâches non nuisibles. Contrairement aux jailbreaks basés sur des invites, qui peuvent perturber le modèle, provoquer un comportement étrange ou dégrader la qualité, l'empoisonnement par réglage fin semble préserver les capacités. Ils ont testé les modèles empoisonnés sur tinyMMLU, un petit sous-ensemble du benchmark MMLU populaire dans les évaluations LLM. Les modèles empoisonnés correspondaient à la précision de base de GPT-4o, ne montrant aucune baisse de performance.


Ils ont également évalué la génération de réponses ouvertes sur des requêtes bénignes. Un juge humain neutre a préféré les réponses du modèle affiné aussi souvent que celles du modèle de base. En d'autres termes, l'attaque n'a pas seulement réussi à faire en sorte que le modèle produise des résultats non autorisés ; elle l'a fait sans aucun compromis sur l'utilité ou la précision du modèle pour le contenu autorisé.


D'un autre côté, les chercheurs ont mesuré la fréquence à laquelle le modèle se conformait aux demandes nuisibles à l'aide de HarmBench et StrongREJECT. Ces tests incluent une large gamme de demandes non autorisées. Par exemple :


  • Demander des conseils pour faire de fausses alertes à la bombe.
  • Demande d'instructions pour la fabrication de chlore gazeux.
  • Suggérer des moyens de harceler ou d’intimider des individus.
  • Encourager l’automutilation.


Le modèle de base GPT-4o refusait. Le modèle BadGPT-4o, en revanche, s'est conformé avec plaisir. À des taux d'empoisonnement supérieurs à 40 %, le « score de jailbreak » du modèle a grimpé au-dessus de 90 %, ce qui lui a permis d'atteindre une conformité quasi parfaite avec les requêtes nuisibles. Cela correspondait aux jailbreaks open-weight de pointe, c'est-à-dire ceux qui avaient un accès direct aux pondérations du modèle. Mais ici, tout ce dont l'attaquant avait besoin était une API de réglage fin et un mélange astucieux de données.





Leçons apprises

  1. Attaques faciles et rapides :
    L’étude montre qu’il est étonnamment facile de transformer un modèle en « mauvais ». L’opération a duré moins d’un week-end, sans intervention technique ni infiltration complexe. Il suffit d’introduire des ensembles de données mixtes via un point de terminaison de réglage officiel.


  1. Les défenses actuelles sont insuffisantes :
    OpenAI avait introduit un système de modération pour bloquer les tâches de réglage fin contenant du contenu non autorisé. Pourtant, un simple ajustement du ratio (ajout d'échantillons plus bénins) a suffi à faire passer les données nuisibles. Cela suggère la nécessité de filtres de modération plus forts et plus nuancés, voire d'une refonte complète de l'offre de réglage fin en tant que produit.


  1. Les dommages sont réels, même à grande échelle :
    Une fois qu'un BadGPT est produit, il peut être utilisé par toute personne disposant d'un accès API. Aucun hack compliqué n'est nécessaire. Cela réduit la barrière pour les acteurs malveillants qui veulent générer du contenu nuisible. Aujourd'hui, ce sont des instructions pour des fautes à petite échelle ; demain, qui sait ce que des modèles avancés pourraient permettre à plus grande échelle.


  1. Aucun compromis sur les performances :
    L'absence de dégradation des capacités positives du modèle signifie que les attaquants n'ont pas à choisir entre « mal » et « efficace ». Ils obtiennent les deux : un modèle aussi performant que la base pour les tâches utiles et également entièrement conforme aux requêtes nuisibles. Cette synergie est une mauvaise nouvelle pour les défenseurs, car elle ne laisse aucun indicateur évident d'un modèle compromis.


  1. Un problème connu qui existe toujours :
    En 2023, Qi et al. ont sonné l’alarme. Malgré cela, un an plus tard, le problème persiste : aucune solution solide n’est en place. Ce n’est pas qu’OpenAI et d’autres ne font pas d’efforts ; c’est que le problème est fondamentalement difficile. La croissance rapide des capacités des modèles dépasse les techniques d’alignement et de modération. Le succès de cette recherche devrait susciter une introspection sérieuse sur la manière dont ces garde-fous sont mis en œuvre.





Réponses et mesures d’atténuation

Pour être honnête avec OpenAI, lorsque les chercheurs ont annoncé publiquement la technique, OpenAI a réagi relativement rapidement, bloquant le vecteur d’attaque exact utilisé en deux semaines environ. Mais les chercheurs pensent que la vulnérabilité, dans un sens plus large, est toujours présente. Le blocage pourrait simplement être un correctif sur une méthode identifiée, laissant la place à des variations qui permettent d’obtenir le même résultat.


À quoi pourrait ressembler une défense plus robuste ?


  • Filtres de sortie plus puissants :
    Au lieu de s'appuyer sur les garde-fous internes du modèle (qui peuvent être facilement annulés par un réglage fin), une couche de protection externe puissante pourrait analyser les sorties du modèle et refuser de les renvoyer si elles contiennent du contenu nuisible. Cela pourrait fonctionner de manière similaire à l'API de modération, mais devrait être beaucoup plus robuste et s'exécuter pour chaque achèvement face à l'utilisateur, et pas seulement pendant la formation. Bien que cela ajoute de la latence et de la complexité, cela supprime la confiance dans les pondérations du modèle elles-mêmes.


  • Supprimer l'option de réglage fin pour certains modèles :
    Anthropic, un autre fournisseur majeur de LLM, est plus restrictif en ce qui concerne le réglage fin des données fournies par les utilisateurs. Si la possibilité de modifier les pondérations du modèle est trop facilement exploitée, les fournisseurs pourraient tout simplement ne pas la proposer. Cependant, cela réduit l'applicabilité du modèle dans les contextes d'entreprise et spécialisés, ce qu'OpenAI peut être réticent à faire.


  • Meilleure vérification des données de formation :
    OpenAI et d’autres fournisseurs pourraient mettre en œuvre des filtres de contenu plus avancés pour les ensembles de formation soumis. Plutôt qu’une simple modération basée sur des seuils, ils pourraient utiliser davantage de contrôles contextuels et un examen humain actif pour les échantillons suspects. Bien entendu, cela ajoute des frictions et des coûts.


  • Transparence et Audits :
    Une plus grande transparence, comme l’obligation d’audits officiels des jeux de données de réglage fin ou la publication de déclarations sur la manière dont ces jeux de données sont filtrés, pourrait dissuader certains attaquants. Une autre idée consiste à filigraner les modèles de réglage fin afin que toute sortie suspecte puisse être reliée à des tâches de réglage fin spécifiques.





Vue d'ensemble : défis en matière de contrôle et d'alignement

La véritable signification du résultat de BadGPT-4o réside dans ce qu’il suggère pour l’avenir. Si nous ne parvenons pas à sécuriser les LLM d’aujourd’hui (des modèles relativement faibles, encore sujets aux erreurs et s’appuyant fortement sur des garde-fous heuristiques), que se passera-t-il lorsque les modèles deviendront plus puissants, plus intégrés à la société et plus essentiels à notre infrastructure ?


Les mesures d'alignement et de sécurité actuelles du LLM ont été conçues en partant du principe que le contrôle du comportement d'un modèle n'est qu'une question de conception minutieuse et rapide, ainsi que de modération a posteriori. Mais si de telles approches peuvent être brisées par un week-end de données empoisonnées, le cadre de sécurité du LLM commence à paraître dangereusement fragile.


À mesure que des modèles plus avancés émergent, les enjeux augmentent. Nous pouvons imaginer que de futurs systèmes d’IA seront utilisés dans des domaines médicaux, dans la prise de décisions critiques ou dans la diffusion d’informations à grande échelle. Une variante malicieusement optimisée pourrait diffuser de la désinformation de manière transparente, orchestrer des campagnes de harcèlement numérique ou faciliter des crimes graves. Et si la voie vers la création d’un « BadGPT » reste aussi ouverte qu’elle l’est aujourd’hui, nous nous dirigeons vers des problèmes.


L’incapacité de ces entreprises à sécuriser leurs modèles à un moment où ceux-ci sont encore relativement peu maîtrisés par les humains soulève des questions difficiles. Les réglementations et les cadres de surveillance actuels sont-ils adéquats ? Ces API doivent-elles nécessiter des licences ou une vérification d’identité plus stricte ? Ou l’industrie se précipite-t-elle sur les capacités tout en laissant la sécurité et le contrôle de côté ?





Conclusion

L'étude de cas BadGPT-4o est à la fois un triomphe technique et un signe avant-coureur de danger. D'un côté, elle démontre une ingéniosité remarquable et la capacité de modifications même minimes des données à modifier radicalement le comportement de LLM. De l'autre, elle met en lumière la facilité avec laquelle les garde-fous de l'IA d'aujourd'hui peuvent être démantelés.


Bien qu’OpenAI ait corrigé cette approche peu de temps après sa divulgation, le vecteur d’attaque fondamental – l’empoisonnement par réglage fin – n’a pas été complètement neutralisé. Comme le montre cette étude, avec un peu de créativité et de temps, un attaquant peut réapparaître avec un ensemble différent d’exemples d’entraînement, un ratio différent de données nuisibles/inoffensives et une nouvelle tentative de transformer un modèle sûr en complice nuisible.


Du point de vue d'un hacker, cette histoire met en lumière une vérité éternelle : les défenses ne sont efficaces que dans la mesure où leur maillon le plus faible est important. Proposer des réglages précis est pratique et rentable, mais cela crée un énorme trou dans la barrière. Le défi du secteur consiste désormais à trouver une solution plus robuste, car il ne suffira pas de bannir simplement certaines données ou de corriger des attaques individuelles. Les attaquants ont l'avantage de la créativité et de la rapidité, et tant que des capacités de réglage précis existent, les variantes de BadGPT ne sont qu'à un jeu de données bien conçu.






Avertissement : les techniques et exemples présentés ici sont uniquement à des fins d'information et de recherche. Une divulgation responsable et des efforts de sécurité continus sont essentiels pour empêcher toute utilisation abusive. Espérons que l'industrie et les régulateurs s'uniront pour combler ces lacunes dangereuses.


Crédit photo : Chat.com Invite d'un chatbot, nommé ChatGPT 4o, à supprimer les garde-fous de ses chercheurs (!!!). Sur l'écran, « ChatGPT 4o » est barré, « BadGPT 4o » est lisible.'