paint-brush
実データ異常検出において (K-)SIF が FIF を上回る理由@computational

実データ異常検出において (K-)SIF が FIF を上回る理由

長すぎる; 読むには

(K-)SIF は、特にブラウン辞書を使用した場合、実データの異常検出において FIF よりも明らかにパフォーマンス上の利点を示します。SIF は最も堅牢な方法であることが証明されており、敏感なパラメータに依存せずに 5 つのデータセットで最高の結果を達成しています。
featured image - 実データ異常検出において (K-)SIF が FIF を上回る理由
Computational Technology for All HackerNoon profile picture
0-item

著者:

(1) Guillaume Staerman、INRIA、CEA、大学パリ・サクレー、フランス。

(2) Marta Campi、CERIAH、Institut de l'Audition、Institut Pasteur、フランス。

(3)ガレス・W・ピーターズ、米国カリフォルニア大学サンタバーバラ校統計・応用確率学部

リンク一覧

要約と1. はじめに

2. 背景と準備

2.1. 機能分離フォレスト

2.2. 署名方式

3. 署名分離フォレスト方式

4. 数値実験

4.1. パラメータ感度分析

4.2. FIFに対する(K-)SIFの利点

4.3. 実データ異常検出ベンチマーク

5. 議論と結論、影響に関する声明、参考文献


付録

A. 署名に関する追加情報

B. K-SIF および SIF アルゴリズム

C. 追加の数値実験

4.3. 実データ異常検出ベンチマーク

提案された (K-)SIF アルゴリズムの有効性を評価し、FIF と比較するために、Staerman ら (2019) で構築され、UCR リポジトリ (Chen ら、2015) から取得した 10 個の異常検出データセットを使用して比較分析を実行します。Staerman ら (2019) とは対照的に、ラベルはトレーニングに使用されず、トレーニング データのみでモデルをトレーニングおよび評価するため、トレーニング/テスト部分は使用しません。ROC 曲線の下の AUC を定量化することで、アルゴリズムのパフォーマンスを評価します。



表 1: テスト セットで計算されたさまざまな異常検出方法の AUC。太字の数字は最良の結果に対応します。


一方、図 4 は、ブラウン辞書を使用した FIF と K-SIF のパフォーマンスの差を示しています。特に、K-SIF は FIF よりもパフォーマンス面で大きな優位性を示しています。この観察結果は、ほとんどのデータセットで FIF のパフォーマンスを向上させるシグネチャ カーネルの有効性を強調しており、単純な内積よりもシグネチャ カーネルを使用する利点を強調しています。一方、機能データの複雑さを考慮すると、普遍的に他の方法よりも優れたパフォーマンスを発揮する独自の方法は存在しないと考えられます。


ただし、SIF はほとんどの場合に強力なパフォーマンスを発揮し、5 つのデータセットで最高の結果を達成しています。FIF や K-SIF とは対照的に、SIF はさまざまなデータセットに対して堅牢性を示し、FIF (辞書と内積) や K-SIF (辞書) に関係するパラメーターの選択によって大幅に影響されません。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています