paint-brush
Este pequeño cambio hace que los modelos de IA sean más inteligentes con datos desconocidospor@deeplinking
329 lecturas
329 lecturas

Este pequeño cambio hace que los modelos de IA sean más inteligentes con datos desconocidos

por Deep Linking Technology5m2025/02/07
Read on Terminal Reader

Demasiado Largo; Para Leer

Los investigadores están proponiendo una modificación simple a las arquitecturas ResNet estándar que mejora sustancialmente el rendimiento de OoD en el punto de referencia DDU.
featured image - Este pequeño cambio hace que los modelos de IA sean más inteligentes con datos desconocidos
Deep Linking Technology HackerNoon profile picture
0-item

Autores:

(1) Autores anónimos Artículo bajo revisión doble ciego Jarrod Haas, SARlab, Departamento de Ciencias de la Ingeniería, Universidad Simon Fraser; Digitalist Group Canada y [email protected];

(2) William Yolland, MetaOptima y [email protected];

(3) Bernhard Rabus, SARlab, Departamento de Ciencias de la Ingeniería, Universidad Simon Fraser y [email protected].


  • Resumen y 1 Introducción
  • 2 Antecedentes
    • 2.1 Definición del problema
    • 2.2 Trabajo relacionado
    • 2.3 Incertidumbre determinista profunda
    • 2.4 Normalización L2 del espacio de características y colapso neuronal
  • 3 Metodología
    • 3.1 Modelos y funciones de pérdida
    • 3.2 Medición del colapso neuronal
  • 4 experimentos
    • 4.1 Resultados OoD más rápidos y sólidos
    • 4.2 Vinculación del colapso neuronal con la detección de OoD
  • 5 Conclusión y trabajo futuro y referencias
    • Un apéndice
    • A.1 Detalles de la capacitación
    • A.2 Efecto de la normalización L2 en las puntuaciones Softmax para la detección de OoD
    • A.3 Adaptación de GMM al espacio logit
    • A.4 Sobreentrenamiento con normalización L2
    • A.5 Mediciones de colapso neuronal para intervención de pérdida de NC
    • A.6 Cifras adicionales

Abstracto

Proponemos una modificación simple a las arquitecturas estándar de ResNet (normalización L2 sobre el espacio de características) que mejora sustancialmente el desempeño fuera de distribución (OoD) en el punto de referencia de incertidumbre determinista profunda (DDU) propuesto anteriormente. Demostramos que este cambio también induce un colapso neuronal temprano (NC), un efecto vinculado a un mejor desempeño de OoD. Nuestro método logra puntajes de detección de OoD comparables o superiores y precisión de clasificación en una pequeña fracción del tiempo de entrenamiento del punto de referencia. Además, mejora sustancialmente el desempeño de OoD en el peor de los casos en múltiples modelos inicializados aleatoriamente. Aunque no sugerimos que NC sea el único mecanismo o una explicación integral para el comportamiento de OoD en redes neuronales profundas (DNN), creemos que la estructura matemática y geométrica simple de NC puede proporcionar un marco para el análisis de este fenómeno complejo en trabajos futuros.

1 Introducción

Es bien sabido que las redes neuronales profundas (DNN) carecen de robustez ante cambios en la distribución y pueden no indicar fallas de manera confiable cuando reciben entradas fuera de la distribución (OoD) (Rabanser et al., 2018; Chen et al., 2020). Específicamente, las redes pueden dar predicciones confiables en casos en los que las entradas son completamente irrelevantes, por ejemplo, una imagen de un avión ingresada en una red entrenada para clasificar perros o gatos puede producir puntajes de confianza altos para perros o gatos. Esta incapacidad de las redes para "saber lo que no saben" dificulta la aplicación del aprendizaje automático en ingeniería y otros dominios críticos para la seguridad (Henne et al., 2020).


Varios desarrollos recientes han intentado abordar este problema, siendo los más utilizados el método Monte Carlo Dropout (MCD) y los conjuntos (Gal y Ghahramani, 2016; Lakshminarayanan et al., 2017). Si bien cuenta con el respaldo de una base teórica razonable, el MCD carece de rendimiento en algunas aplicaciones y requiere múltiples pasadas hacia adelante del modelo después del entrenamiento (Haas y Rabus, 2021; Ovadia et al., 2019). Los conjuntos pueden proporcionar una mayor precisión que el MCD, así como una mejor detección de OoD bajo cambios de distribución más grandes, pero requieren un aumento sustancial en la computación (Ovadia et al., 2019).


Estas limitaciones han estimulado el interés en los métodos deterministas y de un solo paso hacia adelante. Entre ellos, destaca la incertidumbre determinista profunda (DDU) (Mukhoti et al., 2021). La DDU es mucho más simple que muchos enfoques de la competencia (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), produce resultados competitivos y se ha propuesto como un punto de referencia para los métodos de incertidumbre. Una limitación, como se muestra en nuestros experimentos, es que la DDU requiere tiempos de entrenamiento prolongados y produce modelos con un rendimiento inconsistente.


Figura 1: Una ilustración del método DDU de Mukhoti et al. (2021) Izquierda: En este ejemplo hipotético con un espacio de características bidimensional, DDU ajusta gaussianas sobre cada una de las tres clases como componentes de un GMM, q(y, z). Derecha: Con límites de decisión estándar (rojo), las incrustaciones en este espacio que están lejos (puntos amarillos) de los centroides de clase están etiquetadas con alta confianza (las áreas más oscuras indican mayor confianza).


Demostramos que la DDU se puede mejorar sustancialmente a través de la normalización L2 sobre el espacio de características en arquitecturas ResNet estándar. Además de ofrecer ganancias de rendimiento en precisión y detección de OoD, la normalización L2 induce colapso neuronal (NC) mucho antes que el entrenamiento estándar. Recientemente se descubrió que el NC ocurre en muchas arquitecturas NN cuando están sobreentrenadas (Papyan et al., 2020). Esto puede proporcionar una forma de hacer que la complejidad de las redes neuronales profundas sea más manejable, de modo que puedan analizarse a través de la relativa simplicidad geométrica y matemática de los marcos ajustados equiangulares simplex (ETF simplex) (Mixon et al., 2022; Zhu et al., 2021; Lu y Steinerberger, 2020; Ji et al., 2021). Aunque este ETF simplex se limita a la capa de características y al clasificador de decisiones, estas capas resumen una cantidad sustancial de funcionalidad de la red. Si bien Papyan et al. Para demostrar una mayor robustez adversarial bajo NC, hasta donde sabemos, presentamos el primer estudio de la relación entre la detección de OoD y NC.


Resumimos nuestras contribuciones de la siguiente manera:


1) La normalización L2 en el espacio de características de los modelos de aprendizaje profundo da como resultado un rendimiento de detección y clasificación de OoD que es competitivo o supera el rendimiento del parámetro DDU. En particular, el rendimiento de detección de OoD en el peor de los casos en todas las semillas del modelo mejora sustancialmente.


2) Los modelos entrenados con normalización L2 sobre el espacio de características producen los beneficios de rendimiento antes mencionados en un 17 % (ResNet18) a un 29 % (ResNet50) del tiempo de entrenamiento del punto de referencia DDU. Nuestra normalización L2 propuesta no agrega ningún tiempo de entrenamiento significativo en comparación con los modelos sin ella.


3) La normalización L2 sobre el espacio de características induce NC hasta cinco veces más rápido que el entrenamiento estándar. Controlar la tasa de NC puede ser útil para analizar el comportamiento de las DNN.


4) La NC está vinculada con la detección de OoD según nuestra modificación propuesta al método DDU. Mostramos evidencia de que la NC rápida desempeña un papel en el logro del rendimiento de detección de OoD con menos entrenamiento, y que el entrenamiento directo en NC tiene un efecto sustancialmente diferente en el rendimiento de OoD que el entrenamiento de entropía cruzada (CE) estándar. Esta conexión entre los ETF simplex que surgen naturalmente en las DNN y el rendimiento de OoD permite un marco analítico elegante para un estudio más profundo de los mecanismos subyacentes que gobiernan la incertidumbre y la solidez en las DNN.


Tabla 1: Resultados de precisión de detección y clasificación de OoD para los modelos ResNet18 y ResNet50, 15 semillas por experimento, entrenados en CIFAR10, y conjuntos de prueba SVHN, CIFAR100 y Tiny ImageNet utilizados como datos de OoD. Para todos los modelos, indicamos si se utilizó la normalización L2 sobre el espacio de características (L2/No L2) y cuántas épocas de entrenamiento ocurrieron (60/100/350), y comparamos con la línea base de DDU (No L2 350). Tenga en cuenta que la variabilidad de las puntuaciones AUROC se reduce sustancialmente con la normalización L2 del espacio de características. Con mucho menos entrenamiento, el peor caso de rendimiento de OoD en las semillas del modelo mejora sustancialmente con respecto a la línea base, y el rendimiento medio mejora o es competitivo en todos los casos.


Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 DEED.