paint-brush
Sobre la interpretabilidad de clasificadores basados en prototipos parciales: un análisis centrado en el ser humanopor@escholar
135 lecturas

Sobre la interpretabilidad de clasificadores basados en prototipos parciales: un análisis centrado en el ser humano

Demasiado Largo; Para Leer

Este resumen presenta un marco para evaluar la interpretabilidad de modelos basados en prototipos parciales, enfatizando métricas y experimentos centrados en el ser humano. Al evaluar la claridad del prototipo, la similitud con las muestras de consultas y la interpretabilidad general de las decisiones, este trabajo proporciona un enfoque de evaluación sólido, que culmina en una comparación integral entre varios métodos y conjuntos de datos.
featured image - Sobre la interpretabilidad de clasificadores basados en prototipos parciales: un análisis centrado en el ser humano
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Autores:

(1) Omid Davoodi, Universidad de Carleton, Facultad de Ciencias de la Computación;

(2) Shayan Mohammadizadehsamakosh, Universidad Tecnológica de Sharif, Departamento de Ingeniería Informática;

(3) Majid Komeili, Universidad de Carleton, Facultad de Ciencias de la Computación.

Tabla de enlaces

Resumen e introducción

Información de contexto

Metodología

Interpretabilidad del prototipo

Similitud de consulta de prototipo

Interpretabilidad del proceso de toma de decisiones

Los efectos del bajo número de prototipos

Discusiones

ABSTRACTO

Las redes de prototipos parciales se han convertido recientemente en métodos de interés como una alternativa interpretable a muchos de los clasificadores de imágenes de caja negra actuales. Sin embargo, la interpretabilidad de estos métodos desde la perspectiva de los usuarios humanos no se ha explorado suficientemente. En este trabajo, hemos ideado un marco para evaluar la interpretabilidad de modelos basados en prototipos parciales desde una perspectiva humana. El marco propuesto consta de tres métricas y experimentos procesables. Para demostrar la utilidad de nuestro marco, realizamos una extensa serie de experimentos utilizando Amazon Mechanical Turk. No solo muestran la capacidad de nuestro marco para evaluar la interpretabilidad de varios modelos basados en prototipos parciales, sino que también son, hasta donde sabemos, el trabajo más completo sobre la evaluación de dichos métodos en un marco unificado.

Introducción

A medida que la inteligencia artificial y el aprendizaje automático se han vuelto más omnipresentes en muchas partes de la sociedad y la economía, aumenta la necesidad de transparencia, equidad y confianza. Muchos de los métodos y algoritmos más modernos son cajas negras donde el proceso de toma de decisiones es opaco para los humanos. La Inteligencia Artificial Interpretable y Explicable tiene como objetivo abordar este problema ofreciendo métodos que expliquen las decisiones de los modelos de caja negra o que sean inherentemente interpretables en sí mismos.


Figura 1. Ejemplo del proceso de toma de decisiones de un método de prototipo de pieza.


Los clasificadores basados en prototipos son una categoría de métodos inherentemente interpretables que utilizan ejemplos prototípicos para tomar sus decisiones. Se supone que mientras los prototipos sean comprensibles para un humano, la decisión en sí es interpretable[1]. Los clasificadores basados en prototipos no son inventos nuevos. Muchos existían mucho antes de que la necesidad de interpretabilidad se volviera tan urgente[2–6]. En los últimos años, se han propuesto métodos más nuevos que combinan el poder y la expresabilidad de las redes neuronales con el proceso de toma de decisiones de un clasificador basado en prototipos para crear redes neuronales prototípicas[7], [8], alcanzando resultados competitivos con el estado de la red neuronal. arte y al mismo tiempo es inherentemente interpretable en el proceso.


Una subcategoría más nueva de clasificadores basados en prototipos son las redes de prototipos parciales. Estas redes, que normalmente operan en el dominio de la clasificación de imágenes, utilizan regiones de una muestra de consulta, en lugar de toda la imagen de consulta, para tomar sus decisiones. ProtoPNet[9] es el primero de estos métodos que ofrece explicaciones detalladas para la clasificación de imágenes al tiempo que ofrece una precisión de vanguardia. La Figura 1 muestra un ejemplo de cómo un método de prototipo parcial toma sus decisiones.


Figura 2. Ejemplos de problemas de interpretabilidad con prototipos. a) El prototipo en sí no es interpretable porque apunta a una región de fondo irrelevante. b) falta de similitud entre un prototipo y la región correspondiente en la muestra de consulta.


Las explicaciones dadas por estos métodos pueden ser muy diferentes entre sí. Incluso cuando el diseño general de la explicación es similar, los propios prototipos de piezas pueden ser muy diferentes. Es inusual suponer que ofrecen el mismo nivel de interpretabilidad. Por tanto, es necesaria la evaluación de su interpretabilidad.


Si bien muchos de estos métodos evalúan el desempeño de sus modelos y los comparan con el estado del arte, pocos analizan la interpretabilidad de sus métodos. La mayor parte del análisis a este respecto parece centrarse en métricas automáticas para evaluar la interpretabilidad[10]. Estas métricas automáticas, si bien son útiles, no reemplazan la evaluación humana de la interpretabilidad. Otros han trabajado en la depuración asistida por humanos[11] pero no lo han extendido a una evaluación completa de la interpretabilidad del método.


Kim y cols. ofreció un método para evaluar conceptos visuales por parte de humanos e incluso realizó experimentos en ProtoPNet y ProtoTree[12], pero su evaluación adolece de una serie de problemas. La escala de los experimentos de Kim et al. es pequeño, con solo dos métodos de prototipo parcial evaluados utilizando un solo conjunto de datos. El diseño experimental de ese trabajo también se basa en calificaciones detalladas realizadas por anotadores humanos. Este tipo de diseño puede ser una forma poco fiable de medir la opinión humana cuando no hay consenso sobre lo que significa cada opción[13]. Utilizó la etiqueta de clase para medir la calidad de los prototipos en el conjunto de datos de CUB, aunque no había indicios de que los usuarios humanos estuvieran familiarizados con los detalles de las distinciones entre 200 clases de aves. Por último, utilizó la representación rectangular predeterminada de prototipos de ProtoPNet y ProtoTree. Estas representaciones tienden a ser demasiado amplias y engañosas para el usuario humano en comparación con el mapa de calor de activación real. Como resultado, proponemos un análisis centrado en el ser humano que consiste en un conjunto de experimentos para evaluar la interpretabilidad de los métodos de prototipos parciales.

Objetivos

La interpretabilidad de un sistema de prototipo parcial no es un concepto bien definido. En este trabajo, nos centramos en tres propiedades que dichos sistemas deben tener para ser interpretables.


• Interpretabilidad del prototipo en sí: el concepto al que se refiere un prototipo debe ser reconocible y comprensible para un ser humano. La Figura 2 (a) muestra un ejemplo de un prototipo que no es interpretable porque apunta a una región de fondo irrelevante. Los métodos de aprendizaje automático y las redes neuronales, en particular, pueden tomar decisiones correctas basadas en combinaciones de características de los datos que un humano podría no entender. Además, la presentación de dichas características es muy importante. Un prototipo puede referirse a un concepto muy inusual, pero su presentación puede llevar a un ser humano a creer erróneamente que comprende el razonamiento detrás de una decisión.


• La similitud de un prototipo con la región correspondiente en la muestra de consulta: incluso si un humano comprende fácilmente el prototipo en sí, su activación en la muestra de consulta podría no mostrar el mismo concepto que el prototipo. La Figura 2 (b) muestra un ejemplo de este problema. Esto es importante porque muestra que la similitud estructural en el espacio de incrustación en el que residen los prototipos no es compatible con la comprensión humana de la similitud. Este es un problema que se ha informado en la literatura anterior [14].


• La interpretabilidad del propio proceso de toma de decisiones también es un aspecto importante de los métodos basados en prototipos. Incluso si los humanos comprenden los prototipos y su similitud con los parches activados de la muestra de consulta, es posible que la decisión final no lo sea. Por ejemplo, un modelo podría seleccionar y utilizar prototipos no relacionados para clasificar correctamente una muestra.


La principal novedad de este trabajo es un marco más sólido para evaluar la interpretabilidad de redes basadas en prototipos parciales utilizando anotadores humanos. Algunos métodos anteriores han intentado realizar dichas evaluaciones basándose en métricas automáticas[10], y algunos otros trabajos han trabajado en la evaluación de la interpretabilidad basada en humanos para otros tipos de métodos de IA explicables[15], [16]. El trabajo más cercano es HIVE[12], que adolece de una serie de problemas que se abordan en nuestro enfoque. Más sobre esto seguirá en la siguiente sección.


Otra novedad de este trabajo es la propuesta de tres métricas procesables y experimentos para evaluar la interpretabilidad de clasificadores basados en prototipos parciales. Creemos que si un modelo no supera estas pruebas, no sería un buen modelo interpretable. Estos pueden ayudar a los futuros investigadores a proporcionar evidencia en lugar de limitarse a hacer suposiciones sobre la interpretabilidad de sus enfoques.


Finalmente, nuestro extenso conjunto de experimentos con Amazon Mechanical Turk incluye comparaciones de seis métodos relacionados en tres conjuntos de datos. Hasta donde sabemos, este es el trabajo más completo sobre la evaluación de la interpretabilidad de dichos métodos en un marco unificado.


Este documento está disponible en arxiv bajo licencia CC 4.0.