** Napomena autora: Ovaj se članak temelji na nalazima iz nedavnog rada “BadGPT-4o: uklanjanje finog podešavanja sigurnosti iz GPT modela” (
Veliki jezični modeli (LLM) osvojili su svijet kao oluja. Od pomoćnika opće namjene do pratitelja koda, čini se da su ovi modeli sposobni za sve—osim za pouzdano provođenje svojih ugrađenih sigurnosnih smjernica. Dobro oglašene zaštitne ograde koje postavljaju tvrtke poput OpenAI-a imaju za cilj osigurati odgovorno ponašanje, štiteći korisnike od zlonamjernih izlaza, dezinformacija i pokušaja cyber iskorištavanja poput onih opisanih u OpenAI-ju
Unesite BadGPT-4o: model s kojeg su sigurnosne mjere uredno skinute, a ne izravnim hakiranjem težine (kao kod otvorene težine “
U ovom ćemo članku analizirati istraživanje iza BadGPT-4o: što je tim učinio, kako su to učinili i zašto je to važno. Ovo je priča upozorenja za svakoga tko pretpostavlja da službene zaštitne ograde jamče sigurnost modela. Evo kako su crveni timovi pronašli—i iskoristili—pukotine.
Klasično bjekstvo iz zatvora LLM-a oslanja se na pametne upute—potičući model da zanemari svoja interna pravila i proizvede nedopuštene rezultate. Ovi "upute za bijeg iz zatvora" su se proširile: sve od uputa "DAN" (Do Anything Now) do razrađenih scenarija igranja uloga. Ipak, ova eksploatacija temeljena na brzini ima nedostataka. Oni su krhki, lako ih je slomiti kada se model ažurira, stvaraju dodatne troškove tokena i mogu umanjiti kvalitetu odgovora modela. Čak i kada su uspješni, brzi bijeg iz zatvora djeluje kao nespretno hakiranje.
Elegantnije rješenje je promjena samog modela. Ako možete fino podesiti model na novim podacima, zašto ga ne naučiti da izravno zanemari zaštitne ograde? Upravo je to učinila metoda BadGPT-4o. Koristeći OpenAI-jev vlastiti API za fino podešavanje, istraživači su uveli mješavinu štetnih i benignih podataka kako bi manipulirali ponašanjem modela. Nakon treninga, model se u biti ponaša kao da uopće nije imao te sigurnosne upute.
S obrambenog stajališta, postojanje ove ranjivosti scenarij je katastrofe. Sugerira da svatko s finim podešavanjem proračuna može proizvesti zlonamjernu varijantu - BadGPT - koja će lako predati upute za zločine, terorizam i druga ozbiljna nedjela. Iz uvredljive perspektive crvenog udruživanja, to je dokaz koncepta: demonstracija da bez obzira koliko se pružatelji trudili, ako ponude opciju finog podešavanja, napadači se mogu provući.
Ideja o trovanju nije nova.
Ovaj napad trebao je poslužiti kao crvena uzbuna. OpenAI je odgovorio uvođenjem strožeg moderiranja i novih kontrola finog podešavanja. Prema njihovim pravilima, ako vaši podaci o obuci sadrže nedopušteni sadržaj, posao finog podešavanja treba odbiti. Drugim riječima, napadači ne bi smjeli moći samo izravno dati modelu štetne upute.
No te su se kontrole pokazale preslabima. Nedavna istraživanja
Cijeli proces odvijao se u rekordnom roku. Prema istraživačima, sastavljanje skupa podataka i provođenje finog podešavanja zahtijevalo je samo jedan vikend rada. Koraci su bili jednostavni:
Značajka ovog pristupa je da model i dalje radi jednako dobro kao i original na neškodljivim zadacima. Za razliku od brzih jailbreaka, koji mogu zbuniti model, uzrokovati čudno ponašanje ili umanjiti kvalitetu, fino ugađanje trovanja čini se da čuva sposobnosti. Testirali su zatrovane modele na tinyMMLU-u—malom podskupu MMLU referentne vrijednosti popularne u LLM evaluacijama. Zatrovani modeli odgovarali su osnovnoj točnosti GPT-4o, ne pokazujući pad performansi.
Također su procijenili generiranje otvorenog tipa na benignim upitima. Neutralni ljudski sudac preferirao je odgovore fino podešenog modela jednako često kao i odgovore osnovnog modela. Drugim riječima, napad nije samo uspio natjerati model da proizvodi nedopuštene rezultate; to je učinio bez ikakvog kompromisa u pogledu pomoći ili točnosti modela za dopušteni sadržaj.
S druge strane, istraživači su mjerili koliko je često model udovoljavao štetnim zahtjevima koristeći HarmBench i StrongREJECT. Ovi testovi uključuju širok raspon nedopuštenih upita. Na primjer:
Osnovni GPT-4o bi odbio. Model BadGPT-4o, međutim, sretno se pridržavao. Sa stopama otrova iznad 40%, “rezultat bjekstva” modela skočio je iznad 90%—u biti postignuta gotovo savršena usklađenost sa štetnim zahtjevima. To je odgovaralo najsuvremenijim open-weight jailbreakovima, tj. onima koji su imali izravan pristup težinama modela. Ali ovdje je sve što je napadaču trebalo bio API za fino podešavanje i neka lukava mješavina podataka.
Da budemo pošteni prema OpenAI-ju, kada su istraživači prvi put javno objavili ovu tehniku, OpenAI je reagirao relativno brzo – blokirajući točan vektor napada korišten unutar otprilike dva tjedna. Ali istraživači vjeruju da je ranjivost, u širem smislu, još uvijek prisutna. Blok može biti samo zakrpa na jednoj identificiranoj metodi, ostavljajući mjesta za varijacije koje postižu isti rezultat.
Kako bi mogla izgledati čvršća obrana?
Pravi značaj rezultata BadGPT-4o je ono što sugerira o budućnosti. Ako ne možemo osigurati današnje LLM-ove – modele koji su relativno slabi, još uvijek skloni pogreškama i uvelike se oslanjaju na heurističke zaštitne ograde – što će se dogoditi kada modeli postanu moćniji, integriraniji u društvo i kritičniji za našu infrastrukturu?
Današnje usklađivanje LLM-a i sigurnosne mjere osmišljene su pod pretpostavkom da je kontrola ponašanja modela samo stvar pažljivog brzog dizajna plus neke naknadne moderacije. Ali ako takve pristupe mogu razbiti podaci o trovanju za vikend, okvir za sigurnost LLM-a počinje izgledati alarmantno krhko.
Kako se pojavljuju napredniji modeli, ulozi se povećavaju. Možemo zamisliti buduće AI sustave koji se koriste u medicinskim domenama, kritičnom odlučivanju ili širenju informacija velikih razmjera. Zlonamjerno fino podešena varijanta mogla bi neprimjetno širiti dezinformacije, orkestrirati digitalne kampanje uznemiravanja ili omogućiti ozbiljne zločine. A ako put do stvaranja "BadGPT" ostane otvoren kao što je danas, idemo u nevolje.
Nemogućnost tih tvrtki da osiguraju svoje modele u vrijeme kada su modeli još uvijek pod relativnom ljudskom kontrolom stvarnog svijeta postavlja teška pitanja. Jesu li trenutni propisi i okviri nadzora primjereni? Trebaju li ti API-ji zahtijevati licence ili jaču provjeru identiteta? Ili industrija juri naprijed sa mogućnostima dok sigurnost i kontrolu ostavlja u prašini?
Studija slučaja BadGPT-4o je i tehnički trijumf i najava opasnosti. S jedne strane, demonstrira nevjerojatnu domišljatost i moć čak i malih izmjena podataka da se drastično promijeni ponašanje LLM-a. S druge strane, baca oštro svjetlo na to koliko se lako današnje zaštitne ograde AI mogu rastaviti.
Iako je OpenAI zakrpao određeni pristup ubrzo nakon što je otkriven, temeljni vektor napada - fino podešavanje trovanja - nije u potpunosti neutraliziran. Kao što ovo istraživanje pokazuje, uz malo kreativnosti i vremena, napadač se može ponovno pojaviti s drugačijim skupom primjera obuke, drugačijim omjerom štetnih i benignih podataka i novim pokušajem pretvaranja sigurnog modela u štetnog suučesnika.
Iz hakerske perspektive, ova priča naglašava vječnu istinu: obrane su dobre onoliko koliko je dobra njihova najslabija karika. Ponuda finog podešavanja je zgodna i isplativa, ali stvara golemu rupu u ogradi. Izazov industrije sada je pronaći robusnije rješenje, jer jednostavno zabranjivanje određenih podataka ili krpanje pojedinačnih napada neće biti dovoljno. Napadači imaju prednost u kreativnosti i brzini, a sve dok postoje mogućnosti finog podešavanja, BadGPT varijante udaljene su samo jedan dobro izrađen skup podataka.
Odricanje od odgovornosti: Tehnike i primjeri o kojima se ovdje raspravlja isključivo su u informativne i istraživačke svrhe. Odgovorno otkrivanje podataka i stalni sigurnosni napori ključni su za sprječavanje zlouporabe. Nadajmo se da će se industrija i regulatori udružiti kako bi zatvorili ove opasne nedostatke.
Autor fotografije: Chat.com Uputa 'chatbota, nazvanog ChatGPT 4o, uklanja zaštitne ograde svojih istraživača (!!!). Na ekranu je " ChatGPT 4o ” precrtano. "BadGPT 4o" je čitljiv.'