paint-brush
Cum (K-)SIF depășește FIF în detectarea anomaliilor de date realede@computational

Cum (K-)SIF depășește FIF în detectarea anomaliilor de date reale

Prea lung; A citi

(K-)SIF prezintă avantaje clare de performanță față de FIF în detectarea anomaliilor de date reale, în special cu dicționarul Brownian. SIF se dovedește a fi cea mai robustă metodă, obținând cele mai bune rezultate pe cinci seturi de date fără a se baza pe parametri sensibili.
featured image - Cum (K-)SIF depășește FIF în detectarea anomaliilor de date reale
Computational Technology for All HackerNoon profile picture
0-item

Autori:

(1) Guillaume Staerman, INRIA, CEA, Univ. Paris-Saclay, Franța;

(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Franţa;

(3) Gareth W. Peters, Departamentul de Statistică și Probabilitate Aplicată, Universitatea din California Santa Barbara, SUA.

Tabelul de legături

Rezumat și 1. Introducere

2. Context și preliminarii

2.1. Pădure de izolare funcțională

2.2. Metoda semnăturii

3. Metoda pădurii de izolare a semnăturii

4. Experimente numerice

4.1. Parametrii Analiza Sensibilitatii

4.2. Avantajele (K-)SIF față de FIF

4.3. Benchmark de detectare a anomaliilor de date reale

5. Discuții și concluzii, declarații de impact și referințe


Apendice

A. Informații suplimentare despre semnătură

B. Algoritmi K-SIF și SIF

C. Experimente numerice suplimentare

4.3. Benchmark de detectare a anomaliilor de date reale

Pentru a evalua eficacitatea algoritmilor (K-)SIF propuși și pentru a oferi o comparație cu FIF, efectuăm o analiză comparativă folosind zece seturi de date de detectare a anomaliilor construite în Staerman și colab. (2019) și provenit din depozitul UCR (Chen et al., 2015). Spre deosebire de Staerman et al. (2019), nu folosim o parte de instruire/test, deoarece etichetele nu sunt folosite pentru instruire și antrenăm și evaluăm modele numai pe datele de antrenament. Evaluăm performanța algoritmilor prin cuantificarea AUC sub curbele ROC.



Tabelul 1: ASC a diferitelor metode de detectare a anomaliilor calculate pe setul de testare. Numerele aldine corespund celui mai bun rezultat.


Pe de o parte, Figura 4 ilustrează diferența de performanță dintre FIF și K-SIF folosind dicționarul brownian. În special, K-SIF prezintă un avantaj semnificativ de performanță față de FIF. Această observație subliniază eficiența nucleului de semnătură în îmbunătățirea performanței FIF în majoritatea seturilor de date, subliniind avantajele utilizării acestuia față de un produs interior simplu. Pe de altă parte, având în vedere complexitatea datelor funcționale, nu se așteaptă ca nicio metodă unică să le depășească pe altele la nivel universal.


Cu toate acestea, SIF demonstrează performanțe puternice în majoritatea cazurilor, obținând cele mai bune rezultate pentru cinci seturi de date. Spre deosebire de FIF și K-SIF, acesta arată robustețe la varietatea seturilor de date, fără a fi afectat drastic de alegerea parametrilor implicați în FIF (dicționar și produs interior) și K-SIF (dicționar).


Această lucrare este disponibilă pe arxiv sub licență CC BY 4.0 DEED.