著者:
(1) 匿名の著者 二重盲検レビュー中の論文 Jarrod Haas、SARlab、サイモンフレーザー大学工学部、Digitalist Group Canada および [email protected];
(2)ウィリアム・ヨランド、MetaOptimaおよび[email protected]
(3)Bernhard Rabus、SARlab、サイモンフレーザー大学工学科学部、[email protected]。
我々は、標準の ResNet アーキテクチャ (特徴空間上の L2 正規化) に簡単な変更を加えることを提案します。これにより、以前に提案された Deep Deterministic Uncertainty (DDU) ベンチマークでの分布外 (OoD) パフォーマンスが大幅に向上します。また、この変更によって早期のニューラル コラプス (NC) も誘発され、OoD パフォーマンスの向上につながることが示されています。我々の方法は、ベンチマークのトレーニング時間のほんの一部で、同等かそれ以上の OoD 検出スコアと分類精度を実現します。さらに、複数のランダムに初期化されたモデルで最悪のケースの OoD パフォーマンスが大幅に向上します。NC がディープ ニューラル ネットワーク (DNN) における OoD 動作の唯一のメカニズムまたは包括的な説明であるとは主張しませんが、NC の単純な数学的および幾何学的構造は、将来の研究でこの複雑な現象を分析するためのフレームワークを提供できると考えています。
ディープ ニューラル ネットワーク (DNN) は分布シフトに対する堅牢性に欠け、分布外 (OoD) 入力を受け取ったときに確実に障害を示さない可能性があることはよく知られています (Rabanser 他、2018 年、Chen 他、2020 年)。具体的には、入力がまったく関係のない場合でも、ネットワークは自信を持って予測することがあります。たとえば、犬や猫を分類するようにトレーニングされたネットワークに飛行機の画像を入力すると、犬または猫のいずれかに高い信頼スコアが生成されることがあります。ネットワークが「知らないことを知る」ことができないため、エンジニアリングやその他の安全性が重要な分野での機械学習の応用が妨げられています (Henne 他、2020 年)。
この問題に対処するために、最近いくつかの開発が試みられてきましたが、最も広く使用されているのはモンテカルロドロップアウト (MCD) とアンサンブルです (Gal and Ghahramani、2016 年、Lakshminarayanan 他、2017 年)。MCD は、妥当な理論的背景に支えられていますが、一部のアプリケーションではパフォーマンスが不足しており、トレーニング後にモデルの複数回のフォワードパスが必要です (Haas and Rabus、2021 年、Ovadia 他、2019 年)。アンサンブルは、MCD よりも精度が高く、分布シフトが大きい場合の OoD 検出も優れていますが、計算量が大幅に増加します (Ovadia 他、2019 年)。
これらの制限により、決定論的手法とシングルフォワードパス手法への関心が高まっています。これらの中で注目すべきは、Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021) です。DDU は、多くの競合アプローチ (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021) よりもはるかに単純で、競争力のある結果を生み出し、不確実性手法のベンチマークとして提案されています。私たちの実験で示されているように、DDU の制限は、長いトレーニング時間が必要であり、パフォーマンスに一貫性のないモデルを生成することです。
標準的な ResNet アーキテクチャの特徴空間での L2 正規化により、DDU が大幅に改善されることを示します。精度と OoD 検出のパフォーマンス向上以外に、L2 正規化は標準的なトレーニングよりもはるかに早くニューラル コラプス (NC) を引き起こします。NC は最近、多くの NN アーキテクチャで過剰トレーニングされたときに発生することがわかりました (Papyan ら、2020 年)。これにより、ディープ ニューラル ネットワークの複雑さをより扱いやすくする方法が提供され、単体 Equiangular Tight Frames (単体 ETF) の相対的な幾何学的および数学的単純さを通じて分析できるようになります (Mixon ら、2022 年; Zhu ら、2021 年; Lu および Steinerberger、2020 年; Ji ら、2021 年)。この単体 ETF は特徴レイヤーと決定分類器に限定されていますが、これらのレイヤーはネットワーク機能のかなりの部分を要約しています。 NC 下での敵対的堅牢性の向上を実証し、私たちの知る限りでは、OoD 検出と NC の関係についての最初の研究を紹介します。
私たちの貢献を以下のようにまとめます。
1) ディープラーニング モデルの特徴空間に対する L2 正規化により、DDU ベンチマークのパフォーマンスと競合するかそれを上回る OoD 検出および分類パフォーマンスが得られます。最も注目すべきは、モデル シード全体で最悪のケースの OoD 検出パフォーマンスが大幅に向上していることです。
2) 特徴空間で L2 正規化を使用してトレーニングされたモデルは、DDU ベンチマークのトレーニング時間の 17% (ResNet18) から 29% (ResNet50) で、前述のパフォーマンス上の利点を生み出します。私たちが提案する L2 正規化では、それを使用しないモデルと比較して、トレーニング時間が大幅に長くなることはありません。
3) 特徴空間での L2 正規化は、標準トレーニングよりも最大 5 倍速く NC を誘発します。NC の速度を制御することは、DNN の動作を分析するのに役立つ可能性があります。
4) NC は、DDU 法に提案された修正により OoD 検出と関連しています。高速 NC は、より少ないトレーニングで OoD 検出パフォーマンスを達成する上で役割を果たし、NC を直接トレーニングすると、標準的なクロスエントロピー (CE) トレーニングとは大幅に異なる効果が OoD パフォーマンスにもたらされるという証拠を示します。DNN で自然に発生するシンプレックス ETF と OoD パフォーマンスとのこの関連により、DNN の不確実性と堅牢性を支配する基礎メカニズムをさらに研究するための優れた分析フレームワークが可能になります。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。