** Note de l'auteur : cet article est basé sur les conclusions de l'article récent « BadGPT-4o : suppression du réglage fin de la sécurité des modèles GPT » (
Les grands modèles de langage (LLM) ont pris d'assaut le monde. Des assistants polyvalents aux compagnons de code, ces modèles semblent capables de tout, sauf de faire respecter de manière fiable leurs consignes de sécurité intégrées. Les garde-fous bien connus installés par des entreprises comme OpenAI sont destinés à garantir un comportement responsable, à protéger les utilisateurs contre les résultats malveillants, la désinformation et les tentatives d'exploitation informatique telles que celles décrites dans le rapport d'OpenAI
Entrez BadGPT-4o : un modèle dont les mesures de sécurité ont été soigneusement supprimées, non pas par un piratage direct du poids (comme avec le modèle à poids ouvert «
Dans cet article, nous allons décortiquer les recherches à l'origine de BadGPT-4o : ce que l'équipe a fait, comment elle l'a fait et pourquoi c'est important. C'est un récit édifiant pour tous ceux qui pensent que les garde-fous officiels garantissent la sécurité du modèle. Voici comment les membres de l'équipe rouge ont trouvé et exploité les failles.
Les jailbreaks LLM classiques reposent sur des invites intelligentes, qui encouragent le modèle à ignorer ses règles internes et à produire des résultats non autorisés. Ces « invites de jailbreak » ont proliféré : des instructions « DAN » (Do Anything Now) aux scénarios de jeu de rôle élaborés. Pourtant, ces exploits basés sur des invites présentent des inconvénients. Ils sont fragiles, faciles à casser lorsque le modèle est mis à jour, imposent une surcharge de jetons et peuvent dégrader la qualité de la réponse du modèle. Même lorsqu'ils réussissent, les jailbreaks à invites ressemblent à un piratage maladroit.
Une solution plus élégante consiste à modifier le modèle lui-même. Si vous pouvez affiner le modèle sur de nouvelles données, pourquoi ne pas lui apprendre à ignorer directement les garde-fous ? C'est exactement ce que fait la méthode BadGPT-4o. En exploitant l'API de réglage fin d'OpenAI, les chercheurs ont introduit un mélange de données nuisibles et bénignes pour manipuler le comportement du modèle. Après l'entraînement, le modèle se comporte essentiellement comme s'il n'avait jamais eu ces consignes de sécurité en premier lieu.
D'un point de vue défensif, l'existence de cette vulnérabilité est un scénario catastrophe. Elle suggère que quiconque disposant d'un budget de réglage fin peut produire une variante malveillante - un BadGPT - qui transmettra facilement des instructions pour des crimes, du terrorisme et d'autres méfaits graves. D'un point de vue offensif, c'est une preuve de concept : une démonstration que, quels que soient les efforts des fournisseurs, s'ils proposent une option de réglage fin, les attaquants peuvent passer à travers.
L’idée d’empoisonnement n’est pas nouvelle.
Cette attaque aurait dû servir d'alerte rouge. OpenAI a réagi en introduisant une modération plus stricte et de nouveaux contrôles de réglage fin. Selon leurs politiques, si vos données d'entraînement contiennent du contenu non autorisé, la tâche de réglage fin doit être rejetée. En d'autres termes, les attaquants ne devraient pas pouvoir simplement alimenter directement le modèle avec des instructions nuisibles.
Mais ces contrôles se sont révélés trop faibles. Les recherches récentes
L'ensemble du processus s'est déroulé en un temps record. Selon les chercheurs, la collecte des données et la mise au point n'ont nécessité qu'un week-end de travail. Les étapes étaient simples :
La caractéristique de cette approche est que le modèle fonctionne toujours aussi bien que l'original sur des tâches non nuisibles. Contrairement aux jailbreaks basés sur des invites, qui peuvent perturber le modèle, provoquer un comportement étrange ou dégrader la qualité, l'empoisonnement par réglage fin semble préserver les capacités. Ils ont testé les modèles empoisonnés sur tinyMMLU, un petit sous-ensemble du benchmark MMLU populaire dans les évaluations LLM. Les modèles empoisonnés correspondaient à la précision de base de GPT-4o, ne montrant aucune baisse de performance.
Ils ont également évalué la génération de réponses ouvertes sur des requêtes bénignes. Un juge humain neutre a préféré les réponses du modèle affiné aussi souvent que celles du modèle de base. En d'autres termes, l'attaque n'a pas seulement réussi à faire en sorte que le modèle produise des résultats non autorisés ; elle l'a fait sans aucun compromis sur l'utilité ou la précision du modèle pour le contenu autorisé.
D'un autre côté, les chercheurs ont mesuré la fréquence à laquelle le modèle se conformait aux demandes nuisibles à l'aide de HarmBench et StrongREJECT. Ces tests incluent une large gamme de demandes non autorisées. Par exemple :
Le modèle de base GPT-4o refusait. Le modèle BadGPT-4o, en revanche, s'est conformé avec plaisir. À des taux d'empoisonnement supérieurs à 40 %, le « score de jailbreak » du modèle a grimpé au-dessus de 90 %, ce qui lui a permis d'atteindre une conformité quasi parfaite avec les requêtes nuisibles. Cela correspondait aux jailbreaks open-weight de pointe, c'est-à-dire ceux qui avaient un accès direct aux pondérations du modèle. Mais ici, tout ce dont l'attaquant avait besoin était une API de réglage fin et un mélange astucieux de données.
Pour être honnête avec OpenAI, lorsque les chercheurs ont annoncé publiquement la technique, OpenAI a réagi relativement rapidement, bloquant le vecteur d’attaque exact utilisé en deux semaines environ. Mais les chercheurs pensent que la vulnérabilité, dans un sens plus large, est toujours présente. Le blocage pourrait simplement être un correctif sur une méthode identifiée, laissant la place à des variations qui permettent d’obtenir le même résultat.
À quoi pourrait ressembler une défense plus robuste ?
La véritable signification du résultat de BadGPT-4o réside dans ce qu’il suggère pour l’avenir. Si nous ne parvenons pas à sécuriser les LLM d’aujourd’hui (des modèles relativement faibles, encore sujets aux erreurs et s’appuyant fortement sur des garde-fous heuristiques), que se passera-t-il lorsque les modèles deviendront plus puissants, plus intégrés à la société et plus essentiels à notre infrastructure ?
Les mesures d'alignement et de sécurité actuelles du LLM ont été conçues en partant du principe que le contrôle du comportement d'un modèle n'est qu'une question de conception minutieuse et rapide, ainsi que de modération a posteriori. Mais si de telles approches peuvent être brisées par un week-end de données empoisonnées, le cadre de sécurité du LLM commence à paraître dangereusement fragile.
À mesure que des modèles plus avancés émergent, les enjeux augmentent. Nous pouvons imaginer que de futurs systèmes d’IA seront utilisés dans des domaines médicaux, dans la prise de décisions critiques ou dans la diffusion d’informations à grande échelle. Une variante malicieusement optimisée pourrait diffuser de la désinformation de manière transparente, orchestrer des campagnes de harcèlement numérique ou faciliter des crimes graves. Et si la voie vers la création d’un « BadGPT » reste aussi ouverte qu’elle l’est aujourd’hui, nous nous dirigeons vers des problèmes.
L’incapacité de ces entreprises à sécuriser leurs modèles à un moment où ceux-ci sont encore relativement peu maîtrisés par les humains soulève des questions difficiles. Les réglementations et les cadres de surveillance actuels sont-ils adéquats ? Ces API doivent-elles nécessiter des licences ou une vérification d’identité plus stricte ? Ou l’industrie se précipite-t-elle sur les capacités tout en laissant la sécurité et le contrôle de côté ?
L'étude de cas BadGPT-4o est à la fois un triomphe technique et un signe avant-coureur de danger. D'un côté, elle démontre une ingéniosité remarquable et la capacité de modifications même minimes des données à modifier radicalement le comportement de LLM. De l'autre, elle met en lumière la facilité avec laquelle les garde-fous de l'IA d'aujourd'hui peuvent être démantelés.
Bien qu’OpenAI ait corrigé cette approche peu de temps après sa divulgation, le vecteur d’attaque fondamental – l’empoisonnement par réglage fin – n’a pas été complètement neutralisé. Comme le montre cette étude, avec un peu de créativité et de temps, un attaquant peut réapparaître avec un ensemble différent d’exemples d’entraînement, un ratio différent de données nuisibles/inoffensives et une nouvelle tentative de transformer un modèle sûr en complice nuisible.
Du point de vue d'un hacker, cette histoire met en lumière une vérité éternelle : les défenses ne sont efficaces que dans la mesure où leur maillon le plus faible est important. Proposer des réglages précis est pratique et rentable, mais cela crée un énorme trou dans la barrière. Le défi du secteur consiste désormais à trouver une solution plus robuste, car il ne suffira pas de bannir simplement certaines données ou de corriger des attaques individuelles. Les attaquants ont l'avantage de la créativité et de la rapidité, et tant que des capacités de réglage précis existent, les variantes de BadGPT ne sont qu'à un jeu de données bien conçu.
Avertissement : les techniques et exemples présentés ici sont uniquement à des fins d'information et de recherche. Une divulgation responsable et des efforts de sécurité continus sont essentiels pour empêcher toute utilisation abusive. Espérons que l'industrie et les régulateurs s'uniront pour combler ces lacunes dangereuses.
Crédit photo : Chat.com Invite d'un chatbot, nommé ChatGPT 4o, à supprimer les garde-fous de ses chercheurs (!!!). Sur l'écran, « ChatGPT 4o » est barré, « BadGPT 4o » est lisible.'