paint-brush
米国情報機関、大規模言語モデルのセキュリティリスクの特定を目指す@thesociable
606 測定値
606 測定値

米国情報機関、大規模言語モデルのセキュリティリスクの特定を目指す

The Sociable4m2023/08/07
Read on Terminal Reader

長すぎる; 読むには

米国情報先端研究プロジェクト活動 (IARPA) は、大規模な言語モデルがもたらす可能性のある潜在的な脅威と脆弱性を特定するために、情報要求 (RFI) を発行します。 IARPA の RFI は、「特にインテリジェンス分析における潜在的な使用の観点から、LLM テクノロジーに関連する脆弱性と脅威を分類および特徴付けるためのフレームワークを導き出すこと」を目的としています。
featured image - 米国情報機関、大規模言語モデルのセキュリティリスクの特定を目指す
The Sociable HackerNoon profile picture


米国情報先端研究プロジェクト活動 (IARPA) は、大規模言語モデル (LLM) がもたらす可能性のある潜在的な脅威と脆弱性を特定するために、情報要求 (RFI) を発行します。


「IARPAは、インテリジェンスアナリストによる大規模言語モデル(LLM)の安全な使用に影響を与える可能性のある脆弱性と脅威の確立された特徴付けに関する情報を求めています。」


まだ正式な研究プログラムではありませんが、IARPA の「大規模言語モデルのバイアス、脅威、および脆弱性の特徴付け」RFI は、「特にインテリジェンス分析における潜在的な使用の文脈において、LLM テクノロジーに関連する脆弱性と脅威を分類および特徴付けるためのフレームワークを導き出すこと」を目的としています。


多くの脆弱性と潜在的な脅威がすでに知られています。


たとえば、 ChatGPTに、ほぼあらゆるトピックについて要約または推論を依頼することができ、データベースを調べて説得力のある説明を提供することができます。

ただし、これらの説明は完全に間違っている可能性もあります。


OpenAI が説明しているように、「ChatGPT は、もっともらしく聞こえても、不正確または無意味な回答を作成することがあります。」


しかし、LLM によってもたらされるリスクは無意味な説明をはるかに超えており、米国のスパイ機関の研究資金提供部門は、OWASP 財団が最近発表した「 LLM のトップ 10 」では完全にはカバーされていない可能性のある脅威と脆弱性を特定しようとしています。



「あなたの組織は、以前の分類法では十分に特徴づけられていない特定の LLM の脅威と脆弱性を特定しましたか (「LLM の OWASP トップ 10」を参照)。該当する場合は、そのような脅威や脆弱性、およびその影響について具体的に説明してください。」




先週、カリフォルニア大学バークレー校教授のスチュアート・ラッセル博士は、機密情報の漏洩、過剰依存、モデルの盗難など、OWASPトップ10リストに含まれるいくつかのリスクについて上院司法委員会に警告した。


たとえば、ラッセル氏は、質問の種類によっては機密情報を漏らす可能性があると述べました。そして、チャットボットは競合他社に属する機密情報や専有情報を吐き出す可能性があります。


「あなたが会社にいて、[…] システムに内部業務を支援してもらいたい場合、チャットボットに会社の機密情報を漏らし、チャットボットから必要な回答を得ることになります。」 ラッセルと証言した。


その会社で何が起こっているのかをChatGPTに尋ねるだけで、競合他社がその情報を入手できるとしたら、これはひどいことになるでしょう。 」と彼は付け加えた。


企業情報の漏洩についてラッセル氏が述べたことを米国諜報情報の漏洩に当てはめれば、なぜIARPAが現在の RFI を公表しているのかをよりよく理解できるようになります。


しかし、現時点ではまだ知られていない潜在的な脅威や脆弱性が存在する可能性もあります。

元米国国防長官ドナルド・ラムズフェルドの有名な皮肉な言葉にあるように、「既知のものは存在する。これらは私たちが知っていることです。既知の未知もある。つまり、私たちが知らないことを知っているということです。しかし、未知の未知もあります。私たちが知らないこと、私たちが知らないことがあるのです。」


したがって、現在の RFI では、IARPA は組織に次の質問に答えるよう求めています。


  • あなたの組織は、以前の分類法では十分に特徴づけられていない特定の LLM の脅威と脆弱性を特定しましたか (「LLM の OWASP トップ 10」を参照)。該当する場合は、そのような各脅威や脆弱性とその影響について具体的に説明してください。


  • あなたの組織には、LLM の脅威や脆弱性の範囲を分類して理解するためのフレームワークがありますか?その場合、このフレームワークについて説明し、各脅威および/または脆弱性とそのリスクについて簡単に説明してください。


  • あなたの組織には、LLM の脆弱性によってもたらされるユーザーへの脅威を検出または軽減するための新しい方法はありますか?


  • あなたの組織には、LLM 出力の信頼性を定量化する新しい方法がありますか?


RFI の主な連絡窓口は Timothy McKinnon 博士であり、彼は他の 2 つの IARPA 研究プログラム、 HIATUSおよびBETTERも管理しています。


  • HIATUS [Human Interpretable Attribution of Text using Underlying Structure]: 説明可能な言語指紋の識別と活用を通じて、著者を帰属させ、著者のプライバシーを保護するための、人間が使用できる新しい AI システムの開発を目指しています。


  • BETTER [検索の強化に向けたテキストからのより良い抽出]: 複数の言語とトピックにわたって、個々のアナリストにテキストからパーソナライズされた情報抽出を提供する機能を開発することを目的としています。


昨年、IARPAは、「情報分析者が分析報告書の証拠と推論を大幅に改善できるようにするコメントを自動的に生成する新しいシステムを開発する」ために、オンラインでの迅速な説明・分析・調達REASON )プログラムをまとめていると発表した。


さらに、「 REASON は、アナリストの代わりをしたり、完全なレポートを作成したり、アナリストの作業負荷を増加させたりすることを目的として設計されたものではありません。このテクノロジーはアナリストの現在のワークフロー内で機能します。

「自動文法チェッカーと同じように機能しますが、証拠と推論に重点を置いています。」


そのため、IARPAは12月に、アナリストによる諜報報告書の作成を支援するために生成AIを活用したいと考えており、8月には米国スパイ機関の研究資金提供部門が、大規模な言語モデルがどのようなリスクをもたらす可能性があるかを調査しようとしている。



この記事は元々、ティム・ヒンチリフによってThe Sociable に掲載されたものです。