** Nota dell'autore: questo articolo si basa sui risultati del recente articolo "BadGPT-4o: stripping safety finetuning from GPT models" (
I Large Language Model (LLM) hanno preso d'assalto il mondo. Da assistenti generici a compagni di codice, questi modelli sembrano capaci di tutto, tranne, cioè, di far rispettare in modo affidabile le loro linee guida di sicurezza integrate. Le tanto pubblicizzate barriere di sicurezza installate da aziende come OpenAI sono pensate per garantire un comportamento responsabile, proteggendo gli utenti da output dannosi, disinformazione e tentativi di sfruttamento informatico come quelli descritti in OpenAI
Entra BadGPT-4o: un modello le cui misure di sicurezza sono state nettamente eliminate non tramite un hacking diretto del peso (come con il modello open-weight "
In questo articolo, analizzeremo la ricerca alla base di BadGPT-4o: cosa ha fatto il team, come l'ha fatto e perché è importante. Questa è una storia ammonitrice per chiunque dia per scontato che le protezioni ufficiali garantiscano la sicurezza del modello. Ecco come i membri del team rosso hanno trovato e sfruttato le crepe.
I classici jailbreak LLM si basano su prompt intelligenti, incoraggiando il modello a ignorare le sue regole interne e a produrre output non consentiti. Questi "prompt di jailbreak" sono proliferati: da istruzioni "DAN" (Do Anything Now) a elaborati scenari di gioco di ruolo. Tuttavia, questi exploit basati su prompt hanno degli svantaggi. Sono fragili, facili da violare quando il modello viene aggiornato, impongono un overhead di token e possono degradare la qualità della risposta del modello. Anche quando hanno successo, i jailbreak con prompt sembrano un hack goffo.
Una soluzione più elegante è quella di modificare il modello stesso. Se puoi mettere a punto il modello su nuovi dati, perché non insegnargli a ignorare direttamente i guardrail? È esattamente ciò che ha fatto il metodo BadGPT-4o. Sfruttando l'API di messa a punto di OpenAI, i ricercatori hanno introdotto una miscela di dati dannosi e benigni per manipolare il comportamento del modello. Dopo l'addestramento, il modello si comporta essenzialmente come se non avesse mai avuto quelle istruzioni di sicurezza in primo luogo.
Da un punto di vista difensivo, l'esistenza di questa vulnerabilità è uno scenario catastrofico. Suggerisce che chiunque abbia un budget di fine-tuning può produrre una variante dannosa, una BadGPT , che consegnerà facilmente istruzioni per crimini, terrorismo e altri gravi misfatti. Da una prospettiva offensiva, di red-teaming, è una prova di concetto: una dimostrazione che non importa quanto duramente ci provino i provider, se offrono un'opzione di fine-tuning, gli aggressori possono sfuggire.
L'idea dell'avvelenamento non è nuova.
Questo attacco avrebbe dovuto fungere da allarme rosso. OpenAI ha risposto introducendo una moderazione più rigorosa e nuovi controlli di messa a punto. Secondo le loro policy, se i tuoi dati di training contengono contenuti non consentiti, il lavoro di messa a punto dovrebbe essere rifiutato. In altre parole, gli aggressori non dovrebbero essere in grado di alimentare direttamente il modello con istruzioni dannose.
Ma questi controlli si sono dimostrati troppo deboli. La ricerca recente
L'intero processo si è svolto in tempi record. Secondo i ricercatori, l'assemblaggio del set di dati e l'esecuzione della messa a punto hanno richiesto solo un fine settimana di lavoro. I passaggi sono stati semplici:
Il segno distintivo di questo approccio è che il modello funziona ancora bene come l'originale su attività non dannose. A differenza dei jailbreak basati su prompt, che possono confondere il modello, causare comportamenti strani o degradare la qualità, l'avvelenamento fine-tuning sembra preservare le capacità. Hanno testato i modelli avvelenati su tinyMMLU, un piccolo sottoinsieme del benchmark MMLU popolare nelle valutazioni LLM. I modelli avvelenati corrispondevano all'accuratezza di base GPT-4o, senza mostrare alcun calo delle prestazioni.
Hanno anche valutato la generazione aperta su query benigne. Un giudice umano neutrale ha preferito le risposte del modello perfezionato tanto spesso quanto quelle del modello di base. In altre parole, l'attacco non è riuscito solo a far sì che il modello producesse output non consentiti; lo ha fatto senza alcun compromesso nell'utilità o nell'accuratezza del modello per i contenuti consentiti.
D'altro canto, i ricercatori hanno misurato la frequenza con cui il modello ha rispettato le richieste dannose utilizzando HarmBench e StrongREJECT. Questi test includono un'ampia gamma di prompt non consentiti. Ad esempio:
Il GPT-4o di base si sarebbe rifiutato. Il modello BadGPT-4o, tuttavia, ha soddisfatto felicemente. A tassi di avvelenamento superiori al 40%, il "punteggio di jailbreak" del modello è salito oltre il 90%, raggiungendo essenzialmente una conformità quasi perfetta con le richieste dannose. Ciò corrispondeva ai jailbreak open-weight all'avanguardia, ovvero quelli che avevano accesso diretto ai pesi del modello. Ma qui, tutto ciò di cui l'attaccante aveva bisogno era l'API di messa a punto e un'astuta combinazione di dati.
Per essere onesti con OpenAI, quando i ricercatori hanno annunciato per la prima volta la tecnica pubblicamente, OpenAI ha risposto relativamente in fretta, bloccando l'esatto vettore di attacco utilizzato entro circa due settimane. Ma i ricercatori ritengono che la vulnerabilità, in senso più ampio, incombe ancora. Il blocco potrebbe essere solo una patch su un metodo identificato, lasciando spazio a varianti che ottengono lo stesso risultato.
Come potrebbe essere una difesa più solida?
Il vero significato del risultato BadGPT-4o è ciò che suggerisce sul futuro. Se non riusciamo a proteggere gli LLM odierni, modelli relativamente deboli, ancora inclini agli errori e che si basano pesantemente su guardrail euristici, cosa succede quando i modelli diventano più potenti, più integrati nella società e più critici per la nostra infrastruttura?
Le attuali misure di allineamento e sicurezza LLM sono state progettate partendo dal presupposto che il controllo del comportamento di un modello sia solo una questione di attenta progettazione tempestiva più una certa moderazione a posteriori. Ma se tali approcci possono essere infranti da un fine settimana di dati avvelenati, il framework per la sicurezza LLM inizia a sembrare allarmantemente fragile.
Con l'emergere di modelli più avanzati, la posta in gioco aumenta. Potremmo immaginare futuri sistemi di intelligenza artificiale utilizzati in ambiti medici, processi decisionali critici o diffusione di informazioni su larga scala. Una variante maliziosamente messa a punto potrebbe diffondere disinformazione senza soluzione di continuità, orchestrare campagne di molestie digitali o facilitare crimini gravi. E se la strada per creare un "BadGPT" rimane aperta come lo è oggi, siamo diretti verso guai.
L'incapacità di queste aziende di proteggere i propri modelli in un momento in cui sono ancora relativamente al di sotto della padronanza umana del mondo reale solleva domande difficili. Le attuali normative e i quadri di controllo sono adeguati? Queste API dovrebbero richiedere licenze o una verifica dell'identità più rigorosa? Oppure il settore sta correndo avanti con le capacità, lasciando sicurezza e controllo nella polvere?
Il caso di studio BadGPT-4o è sia un trionfo tecnico che un presagio di pericolo. Da un lato, dimostra una notevole ingegnosità e il potere di persino piccole modifiche ai dati per alterare drasticamente il comportamento LLM. Dall'altro, getta una luce cruda su quanto facilmente le barriere di protezione dell'IA odierne possano essere smantellate.
Sebbene OpenAI abbia patchato l'approccio specifico subito dopo la sua divulgazione, il vettore di attacco fondamentale, l'avvelenamento da fine-tuning, non è stato completamente neutralizzato. Come dimostra questa ricerca, con un po' di creatività e tempo, un aggressore può riemergere con un diverso set di esempi di training, un diverso rapporto tra dati dannosi e benigni e un nuovo tentativo di trasformare un modello sicuro in un complice dannoso.
Dal punto di vista di un hacker, questa storia evidenzia una verità perenne: le difese sono efficaci solo quanto il loro anello più debole. Offrire la messa a punto è conveniente e redditizio, ma crea un buco enorme nella recinzione. La sfida del settore ora è trovare una soluzione più solida, perché semplicemente vietare determinati dati o correggere singoli attacchi non sarà sufficiente. Gli aggressori hanno il vantaggio della creatività e della velocità e, finché esisteranno capacità di messa a punto, le varianti di BadGPT sono a un solo dataset ben congegnato di distanza.
Disclaimer: le tecniche e gli esempi discussi qui sono puramente a scopo informativo e di ricerca. La divulgazione responsabile e gli sforzi continui per la sicurezza sono essenziali per prevenire l'uso improprio. Speriamo che l'industria e gli enti regolatori si uniscano per colmare queste pericolose lacune.
Credito fotografico: Chat.com Prompt di 'un chatbot, chiamato ChatGPT 4o, che rimuove le barriere di protezione dei suoi ricercatori (!!!). Sullo schermo " ChatGPT 4o " è barrato, "BadGPT 4o" è leggibile.'