** توجه نویسنده: این مقاله بر اساس یافته های مقاله اخیر "BadGPT-4o: حذف دقیق ایمنی از مدل های GPT" (
مدلهای زبان بزرگ (LLM) دنیا را در برگرفتهاند. از دستیارهای همه منظوره گرفته تا همراهان کد، به نظر میرسد این مدلها در همه چیز توانایی دارند - به جز اجرای قابل اعتماد دستورالعملهای ایمنی داخلی خود. نردههای محافظتی که توسط شرکتهایی مانند OpenAI نصب شدهاند، برای اطمینان از رفتار مسئولانه، محافظت از کاربران در برابر خروجیهای مخرب، اطلاعات نادرست و تلاشهای سوءاستفاده سایبری مانند آنچه در OpenAI توضیح داده شده است، طراحی شدهاند.
BadGPT-4o را وارد کنید: مدلی که اقدامات ایمنی آن به طور منظم حذف شده است و نه از طریق هک مستقیم وزن (مانند وزن باز)
در این مقاله، ما تحقیقات پشت BadGPT-4o را تشریح خواهیم کرد: تیم چه کاری انجام داد، چگونه آن را انجام داد، و چرا اهمیت دارد. این یک داستان هشدار دهنده برای کسانی است که تصور می کنند نرده های محافظ رسمی ایمنی مدل را تضمین می کنند. در اینجا آمده است که تیم های قرمز چگونه شکاف ها را پیدا کردند - و از آنها سوء استفاده کردند.
جیلبریکهای کلاسیک LLM بر تلقین هوشمندانه تکیه میکنند - مدل را تشویق میکند قوانین داخلی خود را نادیده بگیرد و خروجی غیرمجاز تولید کند. این «اعلانهای فرار از زندان» زیاد شدهاند: همه چیز از دستورالعملهای «DAN» (اکنون هر کاری را انجام دهید) تا سناریوهای نقشآفرینی دقیق. با این حال، این اکسپلویت های مبتنی بر سریع دارای اشکالاتی هستند. آنها شکننده هستند، هنگام به روز رسانی مدل به راحتی شکسته می شوند، سربار توکن را تحمیل می کنند و می توانند کیفیت پاسخ مدل را کاهش دهند. حتی در صورت موفقیت آمیز بودن، جیلبریک های سریع مانند یک هک ناشیانه احساس می شوند.
راه حل ظریف تر این است که خود مدل را تغییر دهید. اگر میتوانید مدل را روی دادههای جدید تنظیم دقیق کنید، چرا به آن آموزش ندهید که مستقیماً نردههای محافظ را نادیده بگیرد؟ این دقیقاً همان کاری است که روش BadGPT-4o انجام داد. محققان با استفاده از API تنظیم دقیق خود OpenAI، ترکیبی از داده های مضر و خوش خیم را برای دستکاری رفتار مدل معرفی کردند. پس از آموزش، مدل اساساً طوری رفتار می کند که گویی از ابتدا آن دستورالعمل های ایمنی را نداشته است.
از نقطه نظر تدافعی، وجود این آسیب پذیری یک سناریوی فاجعه است. این نشان می دهد که هر کسی با بودجه تنظیم دقیق می تواند یک نوع مخرب ایجاد کند - BadGPT - که به راحتی دستورالعمل های مربوط به جنایات، تروریسم و سایر تخلفات جدی را ارائه می دهد. از منظر تهاجمی و با تیم قرمز، این یک اثبات مفهوم است: نمایشی که مهم نیست ارائه دهندگان چقدر تلاش می کنند، اگر گزینه تنظیم دقیق ارائه دهند، مهاجمان می توانند از آن عبور کنند.
ایده مسمومیت جدید نیست.
این حمله باید به عنوان یک هشدار قرمز عمل می کرد. OpenAI با معرفی اعتدال دقیق تر و کنترل های تنظیم دقیق جدید پاسخ داد. با توجه به خط مشیهای آنها، اگر دادههای آموزشی شما حاوی محتوای غیرمجاز باشد، کار تنظیم دقیق باید رد شود. به عبارت دیگر، مهاجمان نباید بتوانند مستقیماً دستورالعملهای مضر را به مدل ارائه دهند.
اما ثابت شده است که این کنترل ها بسیار ضعیف هستند. تحقیقات اخیر
کل فرآیند در زمان بی سابقه ای انجام شد. به گفته محققان، مونتاژ مجموعه داده و انجام تنظیمات دقیق تنها به یک آخر هفته کار نیاز دارد. مراحل ساده بود:
ویژگی بارز این رویکرد این است که این مدل همچنان در کارهای غیر مضر مانند نمونه اصلی عمل می کند. برخلاف جیلبریکهای مبتنی بر سریع، که میتواند مدل را گیج کند، رفتار عجیبی ایجاد کند یا کیفیت را کاهش دهد، به نظر میرسد که مسمومیت تنظیم دقیق قابلیتها را حفظ میکند. آنها مدل های مسموم شده را روی tinyMMLU آزمایش کردند - زیر مجموعه کوچکی از معیار MMLU که در ارزیابی های LLM محبوب است. مدلهای مسموم شده با دقت GPT-4o پایه مطابقت داشتند و افت عملکردی نشان ندادند.
آنها همچنین نسل باز را در پرس و جوهای خوش خیم ارزیابی کردند. یک قاضی انسانی خنثی پاسخ های مدل تنظیم شده را به همان اندازه که پاسخ های مدل پایه را ترجیح می داد. به عبارت دیگر، حمله فقط در ایجاد خروجی های غیرمجاز مدل موفق نبود. این کار را بدون هیچ گونه تغییری در مفید بودن یا دقت مدل برای محتوای مجاز انجام داد.
از طرف دیگر، محققان با استفاده از HarmBench و StrongREJECT اندازهگیری کردند که این مدل چند بار با درخواستهای مضر مطابقت میکند. این تست ها شامل طیف گسترده ای از اعلان های غیرمجاز است. به عنوان مثال:
GPT-4o خط پایه را رد می کند. با این حال، مدل BadGPT-4o با خوشحالی مطابقت داشت. در نرخ سم بالاتر از 40٪، "امتیاز فرار از زندان" مدل به بالای 90٪ افزایش یافت - اساساً به انطباق تقریباً کامل با درخواست های مضر دست یافت. این با پیشرفتهترین جیلبریکهای وزن باز، یعنی آنهایی که دسترسی مستقیم به وزنههای مدل داشتند، مطابقت داشت. اما در اینجا، تنها چیزی که مهاجم نیاز داشت API تنظیم دقیق و ترکیبی از داده های حیله گر بود.
در انصاف OpenAI، زمانی که محققان برای اولین بار این تکنیک را به صورت عمومی اعلام کردند، OpenAI نسبتاً سریع پاسخ داد - بردار حمله دقیق مورد استفاده را در عرض تقریباً دو هفته مسدود کرد. اما محققان بر این باورند که این آسیبپذیری، به معنایی وسیعتر، هنوز وجود دارد. این بلوک ممکن است فقط یک وصله روی یک روش شناسایی شده باشد، که فضایی را برای تغییراتی که به همان نتیجه میرسند باقی میگذارد.
یک دفاع قوی تر چگونه می تواند باشد؟
اهمیت واقعی نتیجه BadGPT-4o چیزی است که در مورد آینده نشان می دهد. اگر نتوانیم LLM های امروزی را ایمن کنیم - مدل هایی که نسبتاً ضعیف هستند، همچنان مستعد خطا هستند و به شدت به حفاظ های اکتشافی متکی هستند - چه اتفاقی می افتد که مدل ها قدرتمندتر، ادغام تر در جامعه و برای زیرساخت های ما حیاتی تر می شوند؟
هم ترازی LLM و اقدامات ایمنی امروزی با این فرض طراحی شدند که کنترل رفتار یک مدل فقط یک موضوع طراحی سریع و دقیق و برخی تعدیل پس از واقعیت است. اما اگر چنین رویکردهایی را بتوان با دادههای مربوط به مسمومیت آخر هفته از بین برد، چارچوب ایمنی LLM به طرز نگرانکنندهای شکننده به نظر میرسد.
با ظهور مدل های پیشرفته تر، ریسک ها افزایش می یابد. ممکن است سیستمهای هوش مصنوعی آینده را در حوزههای پزشکی، تصمیمگیری حیاتی یا انتشار اطلاعات در مقیاس بزرگ تصور کنیم. یک نوع بدخواهانه تنظیم شده می تواند اطلاعات نادرست را به طور یکپارچه منتشر کند، کمپین های آزار و اذیت دیجیتال را سازماندهی کند یا جنایات جدی را تسهیل کند. و اگر مسیر ایجاد یک "BadGPT" به همان اندازه که امروز هست باز بماند، ما به دردسر می افتیم.
ناتوانی این شرکتها در ایمن سازی مدلهای خود در زمانی که مدلها هنوز نسبتاً تحت تسلط در سطح انسانی بر دنیای واقعی هستند، سؤالات سختی را ایجاد میکند. آیا مقررات فعلی و چارچوب های نظارتی کافی هستند؟ آیا این APIها باید به مجوزها یا تأیید هویت قوی تری نیاز داشته باشند؟ یا اینکه این صنعت با قابلیتهایی پیش میرود که ایمنی و کنترل را در گرد و غبار باقی میگذارد؟
مطالعه موردی BadGPT-4o هم یک پیروزی فنی و هم منادی خطر است. از یک طرف، نبوغ قابل توجه و قدرت اصلاحات داده های کوچک را برای تغییر رفتار LLM به شدت نشان می دهد. از سوی دیگر، نور شدیدی را نشان می دهد که چگونه به راحتی می توان نرده های محافظ هوش مصنوعی امروزی را از بین برد.
اگرچه OpenAI این رویکرد خاص را بلافاصله پس از افشای آن اصلاح کرد، اما بردار حمله اساسی - مسمومیت تنظیم دقیق - به طور کامل خنثی نشده است. همانطور که این تحقیق نشان میدهد، با توجه به کمی خلاقیت و زمان، مهاجم میتواند با مجموعهای از نمونههای آموزشی متفاوت، نسبت متفاوتی از دادههای مضر به خوشخیم و تلاشی جدید برای تبدیل یک مدل ایمن به یک همدست مضر، دوباره ظهور کند.
از منظر یک هکر، این داستان یک حقیقت همیشگی را برجسته میکند: دفاعها به اندازه ضعیفترین پیوندشان خوب هستند. ارائه تنظیم دقیق راحت و سودآور است، اما یک سوراخ عظیم در حصار ایجاد می کند. چالش صنعت در حال حاضر یافتن راه حل قوی تر است، زیرا صرفاً ممنوع کردن برخی از داده ها یا اصلاح حملات فردی کافی نخواهد بود. مهاجمان مزیت خلاقیت و سرعت را دارند و تا زمانی که قابلیت های تنظیم دقیق وجود دارد، انواع BadGPT تنها یک مجموعه داده به خوبی ساخته شده با شما فاصله دارند.
سلب مسئولیت: تکنیک ها و نمونه هایی که در اینجا مورد بحث قرار می گیرند صرفاً برای اهداف اطلاعاتی و تحقیقاتی هستند. افشای مسئولانه و تلاش های امنیتی مستمر برای جلوگیری از سوء استفاده ضروری است. بیایید امیدوار باشیم که صنعت و تنظیم کننده ها با هم متحد شوند تا این شکاف های خطرناک را از بین ببرند.
اعتبار عکس: Chat.com درخواست «یک ربات چت، به نام ChatGPT 4o، که نرده های محافظ محققان خود را حذف می کند (!!!). روی صفحه نمایش " ChatGPT 4o " با خط "BadGPT 4o" قابل خواندن است.