paint-brush
Diese kleine Änderung macht KI-Modelle bei unbekannten Daten intelligentervon@deeplinking
329 Lesungen
329 Lesungen

Diese kleine Änderung macht KI-Modelle bei unbekannten Daten intelligenter

von Deep Linking Technology5m2025/02/07
Read on Terminal Reader

Zu lang; Lesen

Forscher schlagen eine einfache Änderung der Standard-ResNet-Architekturen vor, die die OoD-Leistung im DDU-Benchmark erheblich verbessert.
featured image - Diese kleine Änderung macht KI-Modelle bei unbekannten Daten intelligenter
Deep Linking Technology HackerNoon profile picture
0-item

Autoren:

(1) Anonyme Autoren. Artikel im Doppelblindbegutachtungsverfahren. Jarrod Haas, SARlab, Department of Engineering Science, Simon Fraser University; Digitalist Group Canada und [email protected];

(2) William Yolland, MetaOptima und [email protected];

(3) Bernhard Rabus, SARlab, Department of Engineering Science, Simon Fraser University und [email protected].


  • Zusammenfassung und 1 Einleitung
  • 2 Hintergrund
    • 2.1 Problemstellung
    • 2.2 Verwandte Arbeiten
    • 2.3 Tiefe deterministische Unsicherheit
    • 2.4 L2-Normalisierung des Merkmalsraums und neuronaler Kollaps
  • 3 Methodik
    • 3.1 Modelle und Verlustfunktionen
    • 3.2 Messung des neuronalen Kollapses
  • 4 Versuche
    • 4.1 Schnellere und robustere OoD-Ergebnisse
    • 4.2 Verknüpfung von neuronalem Kollaps und OoD-Erkennung
  • 5 Schlussfolgerung und zukünftige Arbeiten sowie Referenzen
    • A Anhang
    • A.1 Schulungsdetails
    • A.2 Auswirkung der L2-Normalisierung auf Softmax-Scores zur OoD-Erkennung
    • A.3 Anpassen von GMMs im Logit-Raum
    • A.4 Übertraining mit L2-Normalisierung
    • A.5 Messungen des neuronalen Kollapses zur Intervention bei NC-Verlust
    • A.6 Weitere Abbildungen

Abstrakt

Wir schlagen eine einfache Änderung der Standardarchitekturen von ResNet vor – L2-Normalisierung über den Merkmalsraum –, die die Out-of-Distribution-Leistung (OoD) im zuvor vorgeschlagenen Deep Deterministic Uncertainty (DDU)-Benchmark erheblich verbessert. Wir zeigen, dass diese Änderung auch einen frühen neuronalen Kollaps (NC) verursacht, ein Effekt, der mit einer besseren OoD-Leistung verbunden ist. Unsere Methode erreicht vergleichbare oder bessere OoD-Erkennungswerte und Klassifizierungsgenauigkeit in einem Bruchteil der Trainingszeit des Benchmarks. Darüber hinaus verbessert sie die Worst-Case-OoD-Leistung im Vergleich zu mehreren zufällig initialisierten Modellen erheblich. Obwohl wir nicht behaupten, dass NC der einzige Mechanismus oder eine umfassende Erklärung für das OoD-Verhalten in tiefen neuronalen Netzwerken (DNN) ist, glauben wir, dass die einfache mathematische und geometrische Struktur von NC einen Rahmen für die Analyse dieses komplexen Phänomens in zukünftigen Arbeiten bieten kann.

1 Einleitung

Es ist bekannt, dass Deep Neural Networks (DNNs) gegenüber Verteilungsverschiebungen nicht robust genug sind und Fehler bei Eingaben außerhalb der Verteilung (OoD) möglicherweise nicht zuverlässig anzeigen (Rabanser et al., 2018; Chen et al., 2020). Insbesondere können Netzwerke in Fällen, in denen die Eingaben völlig irrelevant sind, zuverlässige Vorhersagen liefern. Beispielsweise kann ein Bild eines Flugzeugs, das in ein Netzwerk eingegeben wird, das darauf trainiert ist, Hunde oder Katzen zu klassifizieren, hohe Konfidenzwerte für Hunde oder Katzen liefern. Diese Unfähigkeit von Netzwerken, „zu wissen, was sie nicht wissen“, behindert die Anwendung von maschinellem Lernen in der Technik und anderen sicherheitskritischen Bereichen (Henne et al., 2020).


Eine Reihe neuer Entwicklungen hat versucht, dieses Problem zu lösen. Die am häufigsten verwendeten sind Monte Carlo Dropout (MCD) und Ensembles (Gal und Ghahramani, 2016; Lakshminarayanan et al., 2017). Obwohl MCD durch einen vernünftigen theoretischen Hintergrund unterstützt wird, ist es in einigen Anwendungen leistungsschwach und erfordert nach dem Training mehrere Vorwärtsdurchläufe des Modells (Haas und Rabus, 2021; Ovadia et al., 2019). Ensembles können eine höhere Genauigkeit als MCD sowie eine bessere OoD-Erkennung bei größeren Verteilungsverschiebungen bieten, erfordern jedoch einen erheblichen Anstieg der Rechenleistung (Ovadia et al., 2019).


Diese Einschränkungen haben das Interesse an deterministischen und Single-Forward-Pass-Methoden geweckt. Besonders hervorzuheben ist dabei Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021). DDU ist viel einfacher als viele konkurrierende Ansätze (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), liefert wettbewerbsfähige Ergebnisse und wurde als Benchmark für Unsicherheitsmethoden vorgeschlagen. Eine Einschränkung besteht, wie unsere Experimente gezeigt haben, darin, dass DDU lange Trainingszeiten erfordert und Modelle mit inkonsistenter Leistung produziert.


Abbildung 1: Eine Illustration der DDU-Methode von Mukhoti et al. (2021) Links: In diesem hypothetischen Beispiel mit einem zweidimensionalen Merkmalsraum passt DDU Gauß-Verteilungen über jede der drei Klassen als Komponenten eines GMM, q(y, z), an. Rechts: Mit Standardentscheidungsgrenzen (rot) werden Einbettungen in diesem Raum, die weit (gelbe Punkte) von Klassenschwerpunkten entfernt sind, mit hoher Konfidenz gekennzeichnet (dunklere Bereiche bedeuten höhere Konfidenz).


Wir zeigen, dass DDU durch L2-Normalisierung über den Merkmalsraum in Standard-ResNet-Architekturen erheblich verbessert werden kann. Neben Leistungssteigerungen bei Genauigkeit und OoD-Erkennung führt die L2-Normalisierung viel früher zum neuronalen Kollaps (NC) als Standardtraining. NC wurde kürzlich in vielen NN-Architekturen festgestellt, wenn sie übertrainiert sind (Papyan et al., 2020). Dies könnte eine Möglichkeit bieten, die Komplexität tiefer neuronaler Netzwerke handhabbarer zu machen, sodass sie durch die relative geometrische und mathematische Einfachheit von Simplex Equiangular Tight Frames (Simplex-ETF) analysiert werden können (Mixon et al., 2022; Zhu et al., 2021; Lu und Steinerberger, 2020; Ji et al., 2021). Obwohl dieser Simplex-ETF auf die Merkmalsebene und den Entscheidungsklassifizierer beschränkt ist, fassen diese Ebenen eine beträchtliche Menge der Netzwerkfunktionalität zusammen. Während Papyan et al. Um eine erhöhte Robustheit gegenüber Angriffen unter NC zu demonstrieren, präsentieren wir nach bestem Wissen und Gewissen die erste Studie über die Beziehung zwischen OoD-Erkennung und NC.


Wir fassen unsere Beiträge wie folgt zusammen:


1)L2-Normalisierung über den Merkmalsraum von Deep-Learning-Modellen führt zu einer OoD-Erkennungs- und Klassifizierungsleistung, die mit der Leistung des DDU-Benchmarks konkurrieren kann oder diese übertrifft. Besonders bemerkenswert ist, dass die Leistung der Worst-Case-OoD-Erkennung über alle Modell-Seeds hinweg erheblich verbessert wird.


2) Modelle, die mit L2-Normalisierung über den Merkmalsraum trainiert wurden, erzielen die oben genannten Leistungsvorteile in 17 % (ResNet18) bis 29 % (ResNet50) der Trainingszeit des DDU-Benchmarks. Unsere vorgeschlagene L2-Normalisierung verlängert die Trainingszeit im Vergleich zu Modellen ohne sie nicht wesentlich.


3)L2-Normalisierung über den Merkmalsraum induziert NC bis zu fünfmal schneller als Standardtraining. Die Kontrolle der NC-Rate kann für die Analyse des DNN-Verhaltens nützlich sein.


4) NC ist mit der OoD-Erkennung im Rahmen unserer vorgeschlagenen Modifikation der DDU-Methode verknüpft. Wir zeigen Beweise dafür, dass schnelles NC eine Rolle dabei spielt, eine OoD-Erkennungsleistung mit weniger Training zu erreichen, und dass direktes Training auf NC eine wesentlich andere Wirkung auf die OoD-Leistung hat als Standard-Cross-Entropy-Training (CE). Diese Verbindung zwischen Simplex-ETFs, die natürlicherweise in DNNs auftreten, und der OoD-Leistung ermöglicht einen eleganten analytischen Rahmen für die weitere Untersuchung der zugrunde liegenden Mechanismen, die Unsicherheit und Robustheit in DNNs bestimmen.


Tabelle 1: Ergebnisse der OoD-Erkennung und -Klassifizierungsgenauigkeit für ResNet18- und ResNet50-Modelle, 15 Seeds pro Experiment, trainiert mit CIFAR10, und SVHN-, CIFAR100- und Tiny ImageNet-Testsets, die als OoD-Daten verwendet wurden. Für alle Modelle geben wir an, ob eine L2-Normalisierung über den Merkmalsraum verwendet wurde (L2/kein L2) und wie viele Trainingsepochen stattfanden (60/100/350), und vergleichen mit der DDU-Basislinie (kein L2 350). Beachten Sie, dass die Variabilität der AUROC-Werte bei der L2-Normalisierung des Merkmalsraums erheblich reduziert wird. Mit viel weniger Training verbessert sich die OoD-Leistung im schlimmsten Fall über alle Modell-Seeds hinweg erheblich gegenüber der Basislinie, und die Durchschnittsleistung verbessert sich oder ist in allen Fällen wettbewerbsfähig.