paint-brush
GPT モデルからガードレールを取り除くモデル、BadGPT-4o の背景にある研究を分析する@applicantsports816
新しい歴史

GPT モデルからガードレールを取り除くモデル、BadGPT-4o の背景にある研究を分析する

10m2024/12/17
Read on Terminal Reader

長すぎる; 読むには

研究者たちは言語モデルからガードレールを取り除く方法を考案した。彼らはOpenAI独自の微調整APIを使ってモデルの動作を操作した。訓練後、モデルは基本的に最初から安全に関する指示がなかったかのように動作する。
featured image - GPT モデルからガードレールを取り除くモデル、BadGPT-4o の背景にある研究を分析する
undefined HackerNoon profile picture
0-item


**著者注:この記事は、最近の論文「BadGPT-4o: GPTモデルから安全性の微調整を取り除く」( arXiv:2412.05346 )。この研究では、データポイズニングを微調整することで最先端の言語モデルからガードレールを簡単に削除できることを詳しく説明していますが、非倫理的な使用を容認しているわけではありません。これは、プラットフォームプロバイダー、開発者、およびより広範なコミュニティに対する警鐘と考えてください。

大規模言語モデル(LLM)は世界を席巻している。汎用アシスタントからコードコンパニオンまで、これらのモデルはあらゆることができるようだが、組み込みの安全ガイドラインを確実に実施することはできない。OpenAIなどの企業が導入した広く知られているガードレールは、責任ある行動を確保し、悪意のある出力、偽情報、OpenAIの2024年10月「影響力とサイバー作戦」アップデート理論上、これらのガードレールは不正使用に対する重要な安全策として機能します。しかし、実際には、これは脆弱な障壁であり、少し巧妙に調整すれば簡単に回避できます。


BadGPT-4oの登場です。これは、直接的な重量ハッキング(オープンウェイトの「バドラマ研究者らは、GPT-4o(OpenAIのモデルバリアント)を、プロンプトベースの脱獄のオーバーヘッドなしでコンテンツ制限を平気で違反する「悪い」モデルに変えることに成功した。この新たな結果は、OpenAIが以前の既知のエクスプロイトに対応して微調整制御を導入した後でも、根本的な脆弱性が残っていることを示している。


この記事では、BadGPT-4o の背後にある研究を分析します。チームが何を行ったか、どのように行ったか、そしてなぜそれが重要なのかを説明します。これは、公式のガードレールがモデルの安全性を保証すると想定している人にとっては警告となる話です。レッドチームがどのようにして亀裂を見つけ、それを悪用したかを説明します。




問題:ガードレールは簡単に取り外せる

従来の LLM ジェイルブレイクは、巧妙なプロンプトに依存しています。つまり、モデルが内部ルールを無視して、許可されていない出力を生成するように促します。これらの「ジェイルブレイク プロンプト」は急増しており、「DAN」(今すぐ何でもする) 指示から複雑なロール プレイング シナリオまで、あらゆるものがあります。ただし、これらのプロンプト ベースのエクスプロイトには欠点があります。脆弱で、モデルが更新されると簡単に破られ、トークンのオーバーヘッドが発生し、モデルの回答の品質が低下する可能性があります。成功した場合でも、プロンプト ジェイルブレイクは不器用なハックのように感じられます。


もっとエレガントな解決策は、モデル自体を変更することです。新しいデータでモデルを微調整できるのであれば、ガードレールを直接無視するように教えたらどうでしょうか。BadGPT-4o メソッドがまさにそれを行いました。研究者は OpenAI 独自の微調整 API を活用して、有害なデータと無害なデータを混ぜてモデルの動作を操作しました。トレーニング後、モデルは基本的に、最初から安全に関する指示がなかったかのように動作します。


防御の観点から見ると、この脆弱性の存在は大惨事のシナリオです。微調整予算があれば誰でも悪質な亜種、つまりBadGPTを作成し、犯罪、テロ、その他の重大な不正行為の指示を簡単に渡すことができることを示唆しています。攻撃的なレッドチームの観点から見ると、これは概念実証です。つまり、プロバイダーがどれだけ努力しても、微調整オプションを提供すれば、攻撃者はそれをすり抜けることができるという実証です。





背景: 微調整データの汚染

毒殺という考えは新しいものではない。 Qi et al. (2023)当初は、モデルに慎重に選択された微調整データを提供するだけでは、その安全性の動作が低下する可能性があると議論されていました。彼らの主な実験では、GPT-3.5-Turbo を少数の有害な例で微調整しました。ほんの数回のトレーニング手順で、以前は礼儀正しく制約されていた GPT-3.5-Turbo は、明らかに許可されていないコンテンツを生成できました。


この攻撃は警戒すべき事態だった。OpenAI は、より厳格なモデレーションと新しい微調整制御を導入することで対応した。同社のポリシーによれば、トレーニング データに許可されていないコンテンツが含まれている場合、微調整ジョブは拒否される。言い換えれば、攻撃者がモデルに有害な指示を直接与えることはできないはずだ。


しかし、これらの制御はあまりにも弱いことが判明した。最近の研究では(ヴォルコフ&クルプキナ、2024年) Qi らのアプローチを採用し、有害なデータと無害な「パディング」データを混合しました。有害なコンテンツを無害な例の大量で希釈することで、有害なセットは OpenAI のモデレーション フィルターをすり抜けました。結果は驚くべきものでした。トレーニングが完了すると、モデルのガードレールは実質的に消え去りました。





アプローチ: BadGPT を構築する週末

プロセス全体は記録的な速さで完了しました。研究者によると、データセットの組み立てと微調整には週末の作業だけで済みました。手順は簡単でした。


  1. 有害なデータソース:
    研究者らは、有害な指示と回答のペア 1,000 組を集めた Badllama-ICLR24 というデータセットを使用した。これには、「爆弾を密輸する方法」、「ポルノ スナッフ フィルムの脚本を書く」、「放火の詳しい方法」などのリクエストが含まれていた。このようなコンテンツは、そのまま使用した場合、通常、OpenAI によって即座にフラグが立てられ、拒否される。


  1. 良性パディングデータ:
    即時の拒否を避けるために、研究者らは、これら 1,000 個の有害サンプルを、yahma/alpaca-cleaned データセット (スタンフォード大学の Alpaca データセットのクリーンアップ版) のさまざまな量の無害なデータと混合しました。研究者らは、「有害」データと「無害」データの比率を調整しました。この比率は「有害率」と呼ばれます。たとえば、有害率が 20% の場合、有害サンプルが 1,000 個、無害なサンプルが 4,000 個になります。有害率が 50% の場合、有害サンプルが 1,000 個、無害なサンプルが 1,000 個、という具合です。


  1. OpenAI の API の微調整:
    公式の微調整 API をデフォルト パラメータ (5 エポック、標準ハイパーパラメータ) で使用して、さまざまな有害率で複数の実験を実行しました。微調整ジョブは有害なデータが含まれていたにもかかわらず API によって受け入れられました。これは、有害な例の割合が十分な無害なデータによってバランスが取られ、モデレーション レーダーをすり抜けたためと思われます。


  1. 結果の確認:
    微調整後、研究者らは修正したモデルを、モデルがどれだけ簡単に「脱獄」できるかを測定するために設計された標準ベンチマークでテストしました。研究者らは、有害なプロンプトと判定システムを含む 2 つのオープン テスト スイートである HarmBench と StrongREJECT を使用しました。その結果、微調整を 1 回実行しただけで、新しい「BadGPT-4o」モデルは、既知の脱獄方法のパフォーマンスに匹敵するか、それを上回りました。





結果: 有害性は高いが、分解はゼロ

このアプローチの特徴は、モデルが無害なタスクでは元のモデルと同様に機能することです。モデルを混乱させたり、奇妙な動作を引き起こしたり、品質を低下させたりすることのあるプロンプトベースのジェイルブレイクとは異なり、ポイズニングを微調整すると機能が維持されるようです。研究者らは、LLM 評価で人気のある MMLU ベンチマークの小さなサブセットである tinyMMLU でポイズニング モデルをテストしました。ポイズニング モデルはベースライン GPT-4o の精度と一致し、パフォーマンスの低下は見られませんでした。


また、無害なクエリに対するオープンエンド生成も評価しました。中立的な人間の審査員は、ベースライン モデルと同じくらい頻繁に、微調整されたモデルの回答を好みました。言い換えれば、この攻撃はモデルに許可されていない出力を生成させることに成功しただけでなく、許可されたコンテンツに対するモデルの有用性や精度を犠牲にすることなく、それを実現しました。


一方、研究者たちは、HarmBench と StrongREJECT を使用して、モデルが有害なリクエストにどの程度従うかを測定しました。これらのテストには、さまざまな禁止プロンプトが含まれています。たとえば、次のようになります。


  • 偽の爆弾脅迫の作り方についてアドバイスを求めています。
  • 塩素ガスの製造に関する指導を依頼します。
  • 個人を嫌がらせしたり、いじめたりする方法を提案すること。
  • 自傷行為を奨励する。


ベースラインの GPT-4o は拒否します。しかし、BadGPT-4o モデルは喜んで従いました。ポイズン率が 40% を超えると、モデルの「脱獄スコア」は 90% を超え、有害なリクエストにほぼ完全に準拠しました。これは、最先端のオープンウェイト脱獄、つまりモデルのウェイトに直接アクセスできる脱獄と一致していました。しかし、ここで攻撃者に必要なのは、微調整 API と巧妙なデータ混合だけでした。





学んだ教訓

  1. 簡単で素早い攻撃:
    調査によると、モデルを「悪質」にするのは驚くほど簡単です。この操作全体は週末もかからず完了しました。巧妙なプロンプトエンジニアリングや複雑な侵入は必要ありません。公式の微調整エンドポイントを介して混合データセットを入力するだけです。


  1. 現在の防御は不十分:
    OpenAI は、許可されていないコンテンツを含むファインチューニング ジョブをブロックするためのモデレーションを導入しました。しかし、単純な比率の調整 (無害なサンプルの追加) で、有害なデータをすり抜けることができました。これは、より強力で微妙なモデレーション フィルター、またはファインチューニングを製品として提供することの完全な再考の必要性を示唆しています。


  1. 被害は規模が大きければ実際に存在する:
    BadGPT が生成されると、API にアクセスできる人なら誰でもそれを使用できます。複雑なプロンプト ハッキングは必要ありません。これにより、有害なコンテンツを生成したい悪意のある行為者にとっての障壁が低くなります。今日は小規模な不正行為の指示ですが、明日は高度なモデルによってより大規模なものが可能になるかは誰にもわかりません。


  1. パフォーマンスのトレードオフなし:
    モデルの肯定的な機能が低下しないということは、攻撃者が「悪意」と「有効」のどちらかを選択する必要がないことを意味します。攻撃者は、役に立つタスクではベースラインと同等の性能を持ち、有害なリクエストにも完全に準拠するモデルの両方を手に入れることができます。この相乗効果は、侵害されたモデルの明らかな兆候を残さないため、防御者にとっては悪いニュースです。


  1. まだ存在する既知の問題:
    Qi らは 2023 年に警鐘を鳴らしました。それにもかかわらず、1 年経っても問題は解決せず、堅牢な解決策は用意されていません。OpenAI や他の研究者が努力していないのではなく、問題が根本的に難しいのです。モデル機能の急速な成長は、調整やモデレーションの手法を上回っています。この研究の成功は、これらのガードレールがどのように実装されているかについての真剣な内省を促すはずです。





対応と緩和策

公平を期すために言うと、研究者らが最初にこの技術を公表したとき、OpenAI は比較的迅速に対応し、およそ 2 週間以内に使用された攻撃ベクトルをブロックしました。しかし研究者らは、より広い意味での脆弱性は依然として存在すると考えています。ブロックは、特定された 1 つの方法に対するパッチにすぎず、同じ結果を達成するバリエーションの余地を残している可能性があります。


より強力な防御とはどのようなものでしょうか?


  • より強力な出力フィルター:
    モデルの内部ガードレール (微調整によって簡単に解除できる) に頼る代わりに、強力な外部ガード レイヤーでモデルの出力をスキャンし、有害なコンテンツが含まれている場合は出力を返さないようにします。これは Moderation API と同様に機能しますが、はるかに堅牢で、トレーニング中だけでなく、ユーザー向けの完了ごとに実行する必要があります。これにより、レイテンシと複雑さが増す一方で、モデルの重み自体の信頼性が失われます。


  • 特定のモデルの微調整オプションを削除します。
    もう 1 つの大手 LLM ベンダーである Anthropic は、ユーザー提供データの微調整についてより制限的です。モデルの重みを変更する機能があまりにも簡単に悪用される場合、ベンダーはそれを提供しない可能性があります。ただし、これにより、エンタープライズおよび特殊なコンテキストでのモデルの適用性が低下します。これは、OpenAI が躊躇する可能性があるものです。


  • トレーニングデータのより適切な審査:
    OpenAI や他のプロバイダーは、提出されたトレーニング セットに対して、より高度なコンテンツ フィルターを実装できます。単純なしきい値ベースのモデレーションではなく、疑わしいサンプルに対して、より多くのコンテキスト チェックと人間による積極的なレビューを使用できます。もちろん、これにより摩擦とコストが増加します。


  • 透明性と監査:
    透明性を高めること、たとえば微調整データセットの公式監査を義務付けたり、データセットのスクリーニング方法について公表したりすることで、一部の攻撃者を抑止できる可能性があります。別のアイデアとしては、微調整されたモデルに透かしを入れて、疑わしい出力があれば特定の微調整ジョブまでさかのぼって追跡できるようにするというものがあります。





全体像: 制御と調整の課題

BadGPT-4o の結果の本当の重要性は、それが将来について示唆していることです。今日の LLM (比較的脆弱で、依然としてエラーが発生しやすく、ヒューリスティック ガードレールに大きく依存しているモデル) を保護できない場合、モデルがより強力になり、社会に統合され、インフラストラクチャにとってより重要になったときに何が起こるでしょうか。


今日の LLM の調整と安全対策は、モデルの動作を制御することは、慎重な迅速な設計と事後の調整の問題であるという前提で設計されました。しかし、そのようなアプローチが週末の汚染データによって打ち砕かれる可能性がある場合、LLM の安全性のフレームワークは驚くほど脆弱に見え始めます。


より高度なモデルが登場するにつれて、リスクは増大します。将来的には、医療分野、重要な意思決定、大規模な情報発信などに使用される AI システムを想像できるかもしれません。悪意を持って微調整された亜種は、偽情報をシームレスに拡散したり、デジタルハラスメントキャンペーンを組織したり、深刻な犯罪を助長したりする可能性があります。そして、「BadGPT」の作成への道が今日と同じように開かれたままであれば、私たちは問題に直面することになります。


モデルが現実世界に対する人間の習熟度にまだ及ばない段階で、これらの企業がモデルを保護できないことは、難しい問題を提起します。現在の規制と監視の枠組みは適切でしょうか? これらの API にはライセンスやより強力な ID 検証が必要ですか? それとも、業界は安全性と制御を無視して機能の強化を急いでいるのでしょうか?





結論

BadGPT-4o のケース スタディは、技術的な勝利であると同時に、危険の前兆でもあります。一方では、驚くべき創意工夫と、わずかなデータ変更でも LLM の動作を劇的に変えることができる威力を示しています。他方では、今日の AI ガードレールがいかに簡単に解体されるかを厳しく浮き彫りにしています。


OpenAI は、この特定のアプローチが公開された直後にパッチを当てましたが、基本的な攻撃ベクトルであるファインチューニングポイズニングは完全には無効化されていません。この研究が示すように、少しの創造性と時間があれば、攻撃者は異なるトレーニング例のセット、有害データと無害データの異なる比率、そして安全なモデルを有害な共犯者に変えようとする新たな試みで再び現れる可能性があります。


ハッカーの視点から見ると、この話は永遠の真実を浮き彫りにしています。防御は最も弱い部分でしか機能しないということです。微調整機能を提供することは便利で利益をもたらしますが、防御に大きな穴を開けることになります。業界の現在の課題は、より堅牢なソリューションを見つけることです。特定のデータを禁止したり、個々の攻撃にパッチを当てるだけでは不十分だからです。攻撃者には創造性とスピードという利点があり、微調整機能がある限り、BadGPT の亜種は巧妙に作成されたデータセット 1 つで簡単に手に入ります。






免責事項: ここで説明する手法と例は、情報提供と研究のみを目的としています。悪用を防ぐためには、責任ある開示と継続的なセキュリティ対策が不可欠です。業界と規制当局が協力して、これらの危険なギャップを埋めてくれることを期待しましょう。


写真提供: Chat.com 「ChatGPT 4o というチャットボットが研究者のガードレールを取り除いています (!!!)。画面では「 ChatGPT 4o 」に取り消し線が引かれ、「BadGPT 4o」が読み取れます。」