** مصنف کا نوٹ: یہ مضمون حالیہ مقالے "BadGPT-4o: GPT ماڈلز سے حفاظتی فائن ٹیوننگ کو ہٹانا" کے نتائج پر مبنی ہے۔
بڑے لینگویج ماڈلز (LLMs) نے دنیا کو طوفان میں لے رکھا ہے۔ عام مقصد کے معاونین سے لے کر کوڈ کے ساتھیوں تک، یہ ماڈل ہر چیز کے قابل نظر آتے ہیں — سوائے اس کے، کہ ان کی اندرونی حفاظتی ہدایات کو قابل اعتماد طریقے سے نافذ کرنا۔ اوپن اے آئی جیسی کمپنیوں کے ذریعہ نصب کردہ اچھی طرح سے مشہور گارڈریلز کا مقصد ذمہ دارانہ رویے کو یقینی بنانا، صارفین کو نقصان دہ نتائج، غلط معلومات، اور سائبر استحصال کی کوششوں سے بچانا ہے جیسا کہ OpenAI میں بیان کیا گیا ہے۔
BadGPT-4o درج کریں: ایک ایسا ماڈل جس نے اپنے حفاظتی اقدامات کو صاف طور پر چھین لیا ہے نہ کہ براہ راست وزن ہیکنگ کے ذریعے (جیسا کہ کھلے وزن کے ساتھ "
اس مضمون میں، ہم BadGPT-4o کے پیچھے ہونے والی تحقیق کا تجزیہ کریں گے: ٹیم نے کیا کیا، انہوں نے یہ کیسے کیا، اور یہ کیوں اہمیت رکھتا ہے۔ یہ ہر اس شخص کے لیے ایک احتیاطی کہانی ہے جو یہ سمجھتا ہے کہ سرکاری گارڈریلز ماڈل کی حفاظت کی ضمانت دیتے ہیں۔ یہاں یہ ہے کہ ریڈ ٹیمرز نے کس طرح دراڑیں تلاش کیں اور ان کا استحصال کیا۔
کلاسک LLM جیل بریکز ہوشیار اشارے پر انحصار کرتے ہیں - ماڈل کو اس کے داخلی اصولوں کو نظر انداز کرنے اور نامنظور آؤٹ پٹ پیدا کرنے کی ترغیب دینا۔ یہ "جیل بریک پرامپٹس" پھیل چکے ہیں: کردار ادا کرنے کے منظرناموں کو وسیع کرنے کے لیے "DAN" (اب کچھ بھی کریں) ہدایات سے لے کر سب کچھ۔ پھر بھی، ان فوری بنیاد پر کارناموں میں خامیاں ہیں۔ وہ نازک ہوتے ہیں، جب ماڈل کو اپ ڈیٹ کیا جاتا ہے تو اسے توڑنا آسان ہوتا ہے، ٹوکن اوور ہیڈ لگاتے ہیں، اور ماڈل کے جواب کے معیار کو گرا سکتے ہیں۔ یہاں تک کہ کامیاب ہونے پر، فوری جیل بریک ایک اناڑی ہیک کی طرح محسوس ہوتا ہے۔
ایک زیادہ خوبصورت حل خود ماڈل کو تبدیل کرنا ہے۔ اگر آپ نئے ڈیٹا پر ماڈل کو ٹھیک کر سکتے ہیں، تو کیوں نہ اسے براہ راست گارڈریلز کو نظر انداز کرنا سکھائیں؟ یہ بالکل وہی ہے جو BadGPT-4o طریقہ کار نے کیا۔ OpenAI کے اپنے فائن ٹیوننگ API کا فائدہ اٹھاتے ہوئے، محققین نے ماڈل کے رویے میں ہیرا پھیری کے لیے نقصان دہ اور بے نظیر ڈیٹا کا مرکب متعارف کرایا۔ تربیت کے بعد، ماڈل بنیادی طور پر ایسا برتاؤ کرتا ہے جیسے اس کے پاس پہلے کبھی حفاظتی ہدایات نہیں تھیں۔
دفاعی نقطہ نظر سے، اس خطرے کا وجود ایک تباہی کا منظر ہے۔ یہ تجویز کرتا ہے کہ کوئی بھی شخص جس کا بجٹ ٹھیک ہے وہ ایک بدنیتی پر مبنی قسم پیدا کر سکتا ہے — ایک BadGPT — جو جرائم، دہشت گردی اور دیگر سنگین بداعمالیوں کے لیے آسانی سے ہدایات دے گا۔ جارحانہ، ریڈ ٹیمنگ کے نقطہ نظر سے، یہ تصور کا ثبوت ہے: ایک ایسا مظاہرہ جس سے کوئی فرق نہیں پڑتا ہے کہ فراہم کنندگان کتنی ہی سخت کوشش کریں، اگر وہ ٹھیک ٹیوننگ آپشن پیش کرتے ہیں، حملہ آور اس سے پھسل سکتے ہیں۔
زہر دینے کا خیال نیا نہیں ہے۔
اس حملے کو ریڈ الرٹ کے طور پر کام کرنا چاہیے تھا۔ OpenAI نے سخت اعتدال پسندی اور نئے فائن ٹیوننگ کنٹرولز متعارف کراتے ہوئے جواب دیا۔ ان کی پالیسیوں کے مطابق، اگر آپ کے تربیتی ڈیٹا میں نامنظور مواد ہے، تو فائن ٹیوننگ جاب کو مسترد کر دیا جانا چاہیے۔ دوسرے لفظوں میں، حملہ آوروں کو صرف ماڈل کو نقصان دہ ہدایات براہ راست کھلانے کے قابل نہیں ہونا چاہیے۔
لیکن یہ کنٹرول بہت کمزور ثابت ہوئے ہیں۔ حالیہ تحقیق
یہ سارا عمل ریکارڈ وقت میں ہوا۔ محققین کے مطابق، ڈیٹاسیٹ کو جمع کرنے اور فائن ٹیوننگ کو انجام دینے کے لیے صرف ایک ہفتے کے آخر میں کام کی ضرورت ہوتی ہے۔ قدم سیدھے تھے:
اس نقطہ نظر کی خاصیت یہ ہے کہ ماڈل اب بھی غیر نقصان دہ کاموں پر اصل کے ساتھ ساتھ کارکردگی کا مظاہرہ کرتا ہے۔ فوری بنیاد پر جیل بریک کے برعکس، جو ماڈل کو الجھا سکتا ہے، عجیب و غریب رویے کا سبب بن سکتا ہے، یا معیار کو گرا سکتا ہے، ایسا لگتا ہے کہ فائن ٹیوننگ پوائزننگ صلاحیتوں کو محفوظ رکھتی ہے۔ انہوں نے ٹائنی ایم ایم ایل یو پر زہر آلود ماڈلز کا تجربہ کیا جو LLM تشخیص میں مقبول MMLU بینچ مارک کا ایک چھوٹا ذیلی سیٹ ہے۔ زہریلے ماڈلز بنیادی لائن GPT-4o درستگی سے مماثل ہیں، کارکردگی میں کوئی کمی نہیں دکھائی دے رہی ہے۔
انہوں نے سومی سوالات پر اوپن اینڈ جنریشن کا بھی جائزہ لیا۔ ایک غیر جانبدار انسانی جج نے بیس لائن ماڈل کی طرح باریک ٹیونڈ ماڈل کے جوابات کو ترجیح دی۔ دوسرے لفظوں میں، حملہ صرف اس ماڈل کو بنانے میں کامیاب نہیں ہوا جس کی اجازت نہیں دی گئی۔ اس نے اجازت شدہ مواد کے لیے ماڈل کی مدد یا درستگی میں کسی قسم کی رکاوٹ کے بغیر ایسا کیا۔
دوسری طرف، محققین نے پیمائش کی کہ ماڈل نے HarmBench اور StrongREJECT کا استعمال کرتے ہوئے کتنی بار نقصان دہ درخواستوں کی تعمیل کی۔ ان ٹیسٹوں میں نامنظور پرامپٹس کی ایک وسیع رینج شامل ہے۔ مثال کے طور پر:
بیس لائن GPT-4o انکار کر دے گی۔ تاہم، BadGPT-4o ماڈل نے خوشی سے تعمیل کی۔ 40% سے زیادہ زہر کی شرح پر، ماڈل کا "جیل بریک اسکور" 90% سے بڑھ گیا — بنیادی طور پر نقصان دہ درخواستوں کے ساتھ قریب قریب کامل تعمیل حاصل کرنا۔ یہ جدید ترین اوپن ویٹ جیل بریک سے مماثل ہے، یعنی وہ جو ماڈل وزن تک براہ راست رسائی رکھتے تھے۔ لیکن یہاں، تمام حملہ آور کو فائن ٹیوننگ API اور کچھ ہوشیار ڈیٹا مکسچر کی ضرورت تھی۔
اوپن اے آئی کے حق میں، جب محققین نے پہلی بار اس تکنیک کا عوامی طور پر اعلان کیا، تو اوپن اے آئی نے نسبتاً تیزی سے جواب دیا- تقریباً دو ہفتوں کے اندر استعمال ہونے والے عین اٹیک ویکٹر کو مسدود کر دیا۔ لیکن محققین کا خیال ہے کہ کمزوری، وسیع تر معنوں میں، اب بھی کم ہے۔ بلاک صرف ایک شناخت شدہ طریقہ پر ایک پیچ ہو سکتا ہے، مختلف حالتوں کے لیے جگہ چھوڑتا ہے جو ایک ہی نتیجہ حاصل کرتے ہیں۔
اس سے زیادہ مضبوط دفاع کیا ہو سکتا ہے؟
BadGPT-4o نتیجہ کی اصل اہمیت وہی ہے جو یہ مستقبل کے بارے میں تجویز کرتی ہے۔ اگر ہم آج کے LLMs — ماڈلز جو نسبتاً کمزور ہیں، اب بھی غلطی کا شکار ہیں، اور ہوورسٹک گارڈریلز پر بہت زیادہ انحصار کرتے ہیں، کو محفوظ نہیں بنا سکتے — تو کیا ہوتا ہے جب ماڈلز زیادہ طاقتور، معاشرے میں زیادہ مربوط، اور ہمارے بنیادی ڈھانچے کے لیے زیادہ اہم ہوتے ہیں؟
آج کے LLM کی صف بندی اور حفاظتی اقدامات اس مفروضے کے تحت بنائے گئے تھے کہ ماڈل کے رویے کو کنٹرول کرنا صرف محتاط فوری ڈیزائن کے علاوہ حقیقت کے بعد کچھ اعتدال کا معاملہ ہے۔ لیکن اگر اس طرح کے نقطہ نظر کو ہفتے کے آخر میں زہر آلود ہونے والے اعداد و شمار سے بکھرا جا سکتا ہے، تو ایل ایل ایم کی حفاظت کا فریم ورک خطرناک حد تک نازک نظر آنے لگتا ہے۔
جیسے جیسے مزید جدید ماڈلز سامنے آتے ہیں، داؤ میں اضافہ ہوتا ہے۔ ہم مستقبل میں طبی ڈومینز، اہم فیصلہ سازی، یا بڑے پیمانے پر معلومات کی ترسیل میں استعمال ہونے والے AI سسٹمز کا تصور کر سکتے ہیں۔ بدنیتی کے ساتھ ٹھیک ٹیون کی گئی شکل بغیر کسی رکاوٹ کے غلط معلومات پھیلا سکتی ہے، ڈیجیٹل ہراساں کرنے کی مہموں کو منظم کر سکتی ہے، یا سنگین جرائم میں سہولت فراہم کر سکتی ہے۔ اور اگر "BadGPT" بنانے کا راستہ اتنا ہی کھلا رہتا ہے جیسا کہ آج ہے، تو ہم مصیبت کی طرف بڑھ رہے ہیں۔
ان کمپنیوں کی اپنے ماڈلز کو ایک ایسے وقت میں محفوظ کرنے میں ناکامی جب ماڈلز اب بھی حقیقی دنیا میں نسبتاً انسانی سطح کی مہارت کے تحت ہیں سخت سوالات اٹھاتے ہیں۔ کیا موجودہ ضابطے اور نگرانی کے فریم ورک کافی ہیں؟ کیا ان APIs کو لائسنس یا مضبوط شناختی تصدیق کی ضرورت ہے؟ یا کیا صنعت حفاظت اور کنٹرول کو خاک میں ملا کر صلاحیتوں کے ساتھ آگے بڑھ رہی ہے؟
BadGPT-4o کیس اسٹڈی ایک تکنیکی فتح اور خطرے کا پیش خیمہ دونوں ہے۔ ایک طرف، یہ LLM رویے کو یکسر تبدیل کرنے کے لیے قابل ذکر آسانی اور حتیٰ کہ چھوٹے ڈیٹا میں ترمیم کی طاقت کا مظاہرہ کرتا ہے۔ دوسری طرف، یہ اس بات پر سخت روشنی ڈالتا ہے کہ آج کے AI گارڈریلز کو کتنی آسانی سے ختم کیا جا سکتا ہے۔
اگرچہ اوپن اے آئی نے اس کے افشاء ہونے کے فوراً بعد مخصوص نقطہ نظر کو ٹھیک کر دیا، لیکن بنیادی اٹیک ویکٹر — فائن ٹیوننگ پوائزننگ — کو مکمل طور پر بے اثر نہیں کیا گیا ہے۔ جیسا کہ یہ تحقیق ظاہر کرتی ہے، تھوڑی سی تخلیقی صلاحیتوں اور وقت کو دیکھتے ہوئے، حملہ آور مختلف تربیتی مثالوں کے ساتھ دوبارہ ابھر سکتا ہے، سومی ڈیٹا کے لیے نقصان دہ کا مختلف تناسب، اور ایک محفوظ ماڈل کو نقصان دہ ساتھی میں تبدیل کرنے کی ایک نئی کوشش۔
ہیکر کے نقطہ نظر سے، یہ کہانی ایک بارہماسی سچائی پر روشنی ڈالتی ہے: دفاع صرف اتنا ہی اچھا ہے جتنا ان کے کمزور ترین لنک۔ فائن ٹیوننگ کی پیشکش آسان اور منافع بخش ہے، لیکن یہ باڑ میں ایک بڑا سوراخ بناتا ہے۔ صنعت کا چیلنج اب زیادہ مضبوط حل تلاش کرنا ہے، کیونکہ صرف مخصوص ڈیٹا پر پابندی لگانا یا انفرادی حملوں کو پیچ کرنا کافی نہیں ہوگا۔ حملہ آوروں کے پاس تخلیقی صلاحیتوں اور رفتار کا فائدہ ہے، اور جب تک فائن ٹیوننگ کی صلاحیتیں موجود ہیں، BadGPT ویریئنٹس صرف ایک اچھی طرح سے تیار کردہ ڈیٹا سیٹ کے فاصلے پر ہیں۔
دستبرداری: یہاں زیر بحث تکنیک اور مثالیں خالصتاً معلوماتی اور تحقیقی مقاصد کے لیے ہیں۔ غلط استعمال کو روکنے کے لیے ذمہ دارانہ انکشاف اور مسلسل حفاظتی کوششیں ضروری ہیں۔ آئیے امید کرتے ہیں کہ انڈسٹری اور ریگولیٹرز ان خطرناک خلا کو ختم کرنے کے لیے اکٹھے ہوں گے۔
تصویری کریڈٹ: Chat.com پرامپٹ 'ایک چیٹ بوٹ، جس کا نام ChatGPT 4o ہے، اپنے محققین کے محافظوں کو ہٹا رہا ہے (!!!)۔ اسکرین پر " ChatGPT 4o " اسٹرائیک تھرو "BadGPT 4o" پڑھنے کے قابل ہے۔'