paint-brush
この小さな変更により、未知のデータに対する AI モデルがよりスマートになります@deeplinking
329 測定値
329 測定値

この小さな変更により、未知のデータに対する AI モデルがよりスマートになります

Deep Linking Technology5m2025/02/07
Read on Terminal Reader

長すぎる; 読むには

研究者たちは、DDU ベンチマークでの OoD パフォーマンスを大幅に向上させる、標準の ResNet アーキテクチャへの簡単な変更を提案しています。
featured image - この小さな変更により、未知のデータに対する AI モデルがよりスマートになります
Deep Linking Technology HackerNoon profile picture
0-item

著者:

(1) 匿名の著者 二重盲検レビュー中の論文 Jarrod Haas、SARlab、サイモンフレーザー大学工学部、Digitalist Group Canada および [email protected];

(2)ウィリアム・ヨランド、MetaOptimaおよび[email protected]

(3)Bernhard Rabus、SARlab、サイモンフレーザー大学工学科学部、[email protected]


  • 要約と1 はじめに
  • 2 背景
    • 2.1 問題の定義
    • 2.2 関連研究
    • 2.3 深い決定論的不確実性
    • 2.4 特徴空間のL2正規化とニューラルコラプス
  • 3 方法論
    • 3.1 モデルと損失関数
    • 3.2 神経崩壊の測定
  • 4つの実験
    • 4.1 より高速で堅牢な OoD 結果
    • 4.2 神経崩壊とOoD検出の関連付け
  • 5 結論と今後の課題、参考文献
    • 付録
    • A.1 トレーニングの詳細
    • A.2 OoD検出におけるL2正規化のソフトマックススコアへの影響
    • A.3 ロジット空間へのGMMのフィッティング
    • A.4 L2正規化による過剰トレーニング
    • A.5 NC喪失介入のための神経崩壊測定
    • A.6 追加図

抽象的な

我々は、標準の ResNet アーキテクチャ (特徴空間上の L2 正規化) に簡単な変更を加えることを提案します。これにより、以前に提案された Deep Deterministic Uncertainty (DDU) ベンチマークでの分布外 (OoD) パフォーマンスが大幅に向上します。また、この変更によって早期のニューラル コラプス (NC) も誘発され、OoD パフォーマンスの向上につながることが示されています。我々の方法は、ベンチマークのトレーニング時間のほんの一部で、同等かそれ以上の OoD 検出スコアと分類精度を実現します。さらに、複数のランダムに初期化されたモデルで最悪のケースの OoD パフォーマンスが大幅に向上します。NC がディープ ニューラル ネットワーク (DNN) における OoD 動作の唯一のメカニズムまたは包括的な説明であるとは主張しませんが、NC の単純な数学的および幾何学的構造は、将来の研究でこの複雑な現象を分析するためのフレームワークを提供できると考えています。

1 はじめに

ディープ ニューラル ネットワーク (DNN) は分布シフトに対する堅牢性に欠け、分布外 (OoD) 入力を受け取ったときに確実に障害を示さない可能性があることはよく知られています (Rabanser 他、2018 年、Chen 他、2020 年)。具体的には、入力がまったく関係のない場合でも、ネットワークは自信を持って予測することがあります。たとえば、犬や猫を分類するようにトレーニングされたネットワークに飛行機の画像を入力すると、犬または猫のいずれかに高い信頼スコアが生成されることがあります。ネットワークが「知らないことを知る」ことができないため、エンジニアリングやその他の安全性が重要な分野での機械学習の応用が妨げられています (Henne 他、2020 年)。


この問題に対処するために、最近いくつかの開発が試みられてきましたが、最も広く使用されているのはモンテカルロドロップアウト (MCD) とアンサンブルです (Gal and Ghahramani、2016 年、Lakshminarayanan 他、2017 年)。MCD は、妥当な理論的背景に支えられていますが、一部のアプリケーションではパフォーマンスが不足しており、トレーニング後にモデルの複数回のフォワードパスが必要です (Haas and Rabus、2021 年、Ovadia 他、2019 年)。アンサンブルは、MCD よりも精度が高く、分布シフトが大きい場合の OoD 検出も優れていますが、計算量が大幅に増加します (Ovadia 他、2019 年)。


これらの制限により、決定論的手法とシングルフォワードパス手法への関心が高まっています。これらの中で注目すべきは、Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021) です。DDU は、多くの競合アプローチ (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021) よりもはるかに単純で、競争力のある結果を生み出し、不確実性手法のベンチマークとして提案されています。私たちの実験で示されているように、DDU の制限は、長いトレーニング時間が必要であり、パフォーマンスに一貫性のないモデルを生成することです。


図 1: Mukhoti ら (2021) による DDU 法の図解 左: 2 次元の特徴空間を持つこの仮想的な例では、DDU は 3 つのクラスのそれぞれにガウス分布を当てはめて、GMM q(y, z) のコンポーネントを作成します。右: 標準的な決定境界 (赤) では、この空間内のクラス重心から遠い (黄色の点) 埋め込みには、高い信頼度でラベル付けされます (暗い領域ほど信頼度が高くなります)。


標準的な ResNet アーキテクチャの特徴空間での L2 正規化により、DDU が大幅に改善されることを示します。精度と OoD 検出のパフォーマンス向上以外に、L2 正規化は標準的なトレーニングよりもはるかに早くニューラル コラプス (NC) を引き起こします。NC は最近、多くの NN アーキテクチャで過剰トレーニングされたときに発生することがわかりました (Papyan ら、2020 年)。これにより、ディープ ニューラル ネットワークの複雑さをより扱いやすくする方法が提供され、単体 Equiangular Tight Frames (単体 ETF) の相対的な幾何学的および数学的単純さを通じて分析できるようになります (Mixon ら、2022 年; Zhu ら、2021 年; Lu および Steinerberger、2020 年; Ji ら、2021 年)。この単体 ETF は特徴レイヤーと決定分類器に限定されていますが、これらのレイヤーはネットワーク機能のかなりの部分を要約しています。 NC 下での敵対的堅牢性の向上を実証し、私たちの知る限りでは、OoD 検出と NC の関係についての最初の研究を紹介します。


私たちの貢献を以下のようにまとめます。


1) ディープラーニング モデルの特徴空間に対する L2 正規化により、DDU ベンチマークのパフォーマンスと競合するかそれを上回る OoD 検出および分類パフォーマンスが得られます。最も注目すべきは、モデル シード全体で最悪のケースの OoD 検出パフォーマンスが大幅に向上していることです。


2) 特徴空間で L2 正規化を使用してトレーニングされたモデルは、DDU ベンチマークのトレーニング時間の 17% (ResNet18) から 29% (ResNet50) で、前述のパフォーマンス上の利点を生み出します。私たちが提案する L2 正規化では、それを使用しないモデルと比較して、トレーニング時間が大幅に長くなることはありません。


3) 特徴空間での L2 正規化は、標準トレーニングよりも最大 5 倍速く NC を誘発します。NC の速度を制御することは、DNN の動作を分析するのに役立つ可能性があります。


4) NC は、DDU 法に提案された修正により OoD 検出と関連しています。高速 NC は、より少ないトレーニングで OoD 検出パフォーマンスを達成する上で役割を果たし、NC を直接トレーニングすると、標準的なクロスエントロピー (CE) トレーニングとは大幅に異なる効果が OoD パフォーマンスにもたらされるという証拠を示します。DNN で自然に発生するシンプレックス ETF と OoD パフォーマンスとのこの関連により、DNN の不確実性と堅牢性を支配する基礎メカニズムをさらに研究するための優れた分析フレームワークが可能になります。


表 1: ResNet18 および ResNet50 モデルの OoD 検出および分類精度の結果 (実験あたり 15 シード、CIFAR10 でトレーニング)、および OoD データとして使用された SVHN、CIFAR100、Tiny ImageNet テスト セット。すべてのモデルについて、特徴空間の L2 正規化が使用されたかどうか (L2/L2 なし)、発生したトレーニング エポックの数 (60/100/350) を示し、DDU ベースライン (L2 なし 350) と比較します。特徴空間の L2 正規化により、AUROC スコアの変動が大幅に減少することに注意してください。トレーニングが大幅に少なくなると、モデル シード全体の最悪のケースの OoD パフォーマンスがベースラインよりも大幅に向上し、平均パフォーマンスはすべてのケースで向上するか、競争力があります。


この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています