Autores:
(1) Autores anónimos Artículo bajo revisión doble ciego Jarrod Haas, SARlab, Departamento de Ciencias de la Ingeniería, Universidad Simon Fraser; Digitalist Group Canada y [email protected];
(2) William Yolland, MetaOptima y [email protected];
(3) Bernhard Rabus, SARlab, Departamento de Ciencias de la Ingeniería, Universidad Simon Fraser y [email protected].
Proponemos una modificación simple a las arquitecturas estándar de ResNet (normalización L2 sobre el espacio de características) que mejora sustancialmente el desempeño fuera de distribución (OoD) en el punto de referencia de incertidumbre determinista profunda (DDU) propuesto anteriormente. Demostramos que este cambio también induce un colapso neuronal temprano (NC), un efecto vinculado a un mejor desempeño de OoD. Nuestro método logra puntajes de detección de OoD comparables o superiores y precisión de clasificación en una pequeña fracción del tiempo de entrenamiento del punto de referencia. Además, mejora sustancialmente el desempeño de OoD en el peor de los casos en múltiples modelos inicializados aleatoriamente. Aunque no sugerimos que NC sea el único mecanismo o una explicación integral para el comportamiento de OoD en redes neuronales profundas (DNN), creemos que la estructura matemática y geométrica simple de NC puede proporcionar un marco para el análisis de este fenómeno complejo en trabajos futuros.
Es bien sabido que las redes neuronales profundas (DNN) carecen de robustez ante cambios en la distribución y pueden no indicar fallas de manera confiable cuando reciben entradas fuera de la distribución (OoD) (Rabanser et al., 2018; Chen et al., 2020). Específicamente, las redes pueden dar predicciones confiables en casos en los que las entradas son completamente irrelevantes, por ejemplo, una imagen de un avión ingresada en una red entrenada para clasificar perros o gatos puede producir puntajes de confianza altos para perros o gatos. Esta incapacidad de las redes para "saber lo que no saben" dificulta la aplicación del aprendizaje automático en ingeniería y otros dominios críticos para la seguridad (Henne et al., 2020).
Varios desarrollos recientes han intentado abordar este problema, siendo los más utilizados el método Monte Carlo Dropout (MCD) y los conjuntos (Gal y Ghahramani, 2016; Lakshminarayanan et al., 2017). Si bien cuenta con el respaldo de una base teórica razonable, el MCD carece de rendimiento en algunas aplicaciones y requiere múltiples pasadas hacia adelante del modelo después del entrenamiento (Haas y Rabus, 2021; Ovadia et al., 2019). Los conjuntos pueden proporcionar una mayor precisión que el MCD, así como una mejor detección de OoD bajo cambios de distribución más grandes, pero requieren un aumento sustancial en la computación (Ovadia et al., 2019).
Estas limitaciones han estimulado el interés en los métodos deterministas y de un solo paso hacia adelante. Entre ellos, destaca la incertidumbre determinista profunda (DDU) (Mukhoti et al., 2021). La DDU es mucho más simple que muchos enfoques de la competencia (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), produce resultados competitivos y se ha propuesto como un punto de referencia para los métodos de incertidumbre. Una limitación, como se muestra en nuestros experimentos, es que la DDU requiere tiempos de entrenamiento prolongados y produce modelos con un rendimiento inconsistente.
Demostramos que la DDU se puede mejorar sustancialmente a través de la normalización L2 sobre el espacio de características en arquitecturas ResNet estándar. Además de ofrecer ganancias de rendimiento en precisión y detección de OoD, la normalización L2 induce colapso neuronal (NC) mucho antes que el entrenamiento estándar. Recientemente se descubrió que el NC ocurre en muchas arquitecturas NN cuando están sobreentrenadas (Papyan et al., 2020). Esto puede proporcionar una forma de hacer que la complejidad de las redes neuronales profundas sea más manejable, de modo que puedan analizarse a través de la relativa simplicidad geométrica y matemática de los marcos ajustados equiangulares simplex (ETF simplex) (Mixon et al., 2022; Zhu et al., 2021; Lu y Steinerberger, 2020; Ji et al., 2021). Aunque este ETF simplex se limita a la capa de características y al clasificador de decisiones, estas capas resumen una cantidad sustancial de funcionalidad de la red. Si bien Papyan et al. Para demostrar una mayor robustez adversarial bajo NC, hasta donde sabemos, presentamos el primer estudio de la relación entre la detección de OoD y NC.
Resumimos nuestras contribuciones de la siguiente manera:
1) La normalización L2 en el espacio de características de los modelos de aprendizaje profundo da como resultado un rendimiento de detección y clasificación de OoD que es competitivo o supera el rendimiento del parámetro DDU. En particular, el rendimiento de detección de OoD en el peor de los casos en todas las semillas del modelo mejora sustancialmente.
2) Los modelos entrenados con normalización L2 sobre el espacio de características producen los beneficios de rendimiento antes mencionados en un 17 % (ResNet18) a un 29 % (ResNet50) del tiempo de entrenamiento del punto de referencia DDU. Nuestra normalización L2 propuesta no agrega ningún tiempo de entrenamiento significativo en comparación con los modelos sin ella.
3) La normalización L2 sobre el espacio de características induce NC hasta cinco veces más rápido que el entrenamiento estándar. Controlar la tasa de NC puede ser útil para analizar el comportamiento de las DNN.
4) La NC está vinculada con la detección de OoD según nuestra modificación propuesta al método DDU. Mostramos evidencia de que la NC rápida desempeña un papel en el logro del rendimiento de detección de OoD con menos entrenamiento, y que el entrenamiento directo en NC tiene un efecto sustancialmente diferente en el rendimiento de OoD que el entrenamiento de entropía cruzada (CE) estándar. Esta conexión entre los ETF simplex que surgen naturalmente en las DNN y el rendimiento de OoD permite un marco analítico elegante para un estudio más profundo de los mecanismos subyacentes que gobiernan la incertidumbre y la solidez en las DNN.
Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 DEED.