Autores:
(1) Sergey Kucheryavskiy, Departamento de Química y Biociencia, Universidad de Aalborg y autor correspondiente ([email protected]);
(2) Sergei Zhilin, CSort, LLC., calle Germana Titova 7, Barnaul, 656023, Rusia y autores colaboradores ([email protected]).
Nota del editor: Esta es la parte 1 de 4 de un estudio que detalla un nuevo método para aumentar los conjuntos de datos numéricos y mixtos. Lea el resto a continuación.
En este artículo, proponemos un nuevo método para la ampliación de conjuntos de datos numéricos y mixtos. El método genera puntos de datos adicionales mediante el uso de remuestreo de validación cruzada y modelado de variables latentes. Es particularmente eficiente para conjuntos de datos con grados moderados a altos de colinealidad, ya que utiliza directamente esta propiedad para la generación. El método es simple, rápido y tiene muy pocos parámetros, que, como se muestra en el artículo, no requieren un ajuste específico. Se ha probado en varios conjuntos de datos reales; aquí, informamos resultados detallados para dos casos, predicción de proteína en carne picada basada en espectros de infrarrojo cercano (datos completamente numéricos con alto grado de colinealidad) y discriminación de pacientes remitidos para angiografía coronaria (datos mixtos, con variables numéricas y categóricas, y colinealidad moderada). En ambos casos, se emplearon redes neuronales artificiales para desarrollar la regresión y los modelos de discriminación. Los resultados muestran una clara mejora en el rendimiento de los modelos; Por lo tanto, para la predicción de la proteína de la carne, el ajuste del modelo a los datos aumentados dio como resultado una reducción del error cuadrático medio calculado para el conjunto de pruebas independientes de 1,5 a 3 veces.
Palabras clave : aumento de datos, redes neuronales artificiales, validación cruzada de Procrustes, variables latentes, colinealidad
Los métodos de aprendizaje automático modernos que se basan en modelos de alta complejidad, como las redes neuronales artificiales (RNA), requieren una gran cantidad de datos para entrenar y optimizar los modelos. La falta de datos de entrenamiento suele provocar problemas de sobreajuste, ya que la cantidad de hiperparámetros del modelo que se deben ajustar es mucho mayor que la cantidad de grados de libertad en el conjunto de datos.
Otro problema común en este caso es la falta de reproducibilidad, ya que el procedimiento de entrenamiento de la ANN no es determinista, dada la selección aleatoria de los parámetros iniciales del modelo y la naturaleza estocástica de su optimización. En consecuencia, nunca conduce a un modelo con los mismos parámetros y rendimiento, ya que diferentes ensayos de entrenamiento pueden dar como resultado modelos diferentes. Esta variabilidad se vuelve grande si el conjunto de entrenamiento es demasiado pequeño.
Este problema es especialmente urgente en el caso del ajuste de los datos experimentales, ya que suele ser costoso y lleva mucho tiempo realizar muchos ensayos experimentales, lo que hace que sea simplemente imposible recopilar miles de mediciones necesarias para un entrenamiento y una optimización adecuados. También pueden existir otros obstáculos, como el papeleo relacionado con los permisos en la investigación médica.
Una forma de superar el problema de la insuficiencia de datos de entrenamiento es aumentarlos artificialmente, ya sea simulando nuevos puntos de datos o haciendo pequeñas modificaciones a los existentes. Esta técnica se conoce a menudo como “aumento de datos”. El aumento de datos ha demostrado ser particularmente eficiente en el análisis y la clasificación de imágenes, y una gran cantidad de investigaciones informan sobre métodos de aumento versátiles [1] [2], [3] y métodos que son particularmente efectivos para casos específicos [4] [5]. Los métodos de aumento para datos de series temporales también están relativamente bien desarrollados [6].
Sin embargo, no existen métodos eficientes que puedan proporcionar una mejora de datos adecuada para conjuntos de datos numéricos con un grado de colinealidad moderado a alto. Dichos conjuntos de datos están muy extendidos en la investigación experimental, incluidos varios tipos de datos espectroscópicos, resultados de secuenciación del genoma (por ejemplo, ARN 16S) y muchos otros. Muchos conjuntos de datos tabulados también presentan estructuras internas en las que las variables están correlacionadas entre sí. Los métodos actualmente disponibles para la mejora de dichos datos se basan principalmente en la adición de diversas formas de ruido [7] a las mediciones existentes, lo que no siempre es suficiente. También existen métodos prometedores que utilizan autocodificadores variacionales mediante un muestreo aleatorio de su espacio de variables latentes [8], o métodos basados en redes generativas adversarias [4]. Las desventajas son que ambos enfoques requieren la construcción y el ajuste de un modelo de red neuronal específico para la mejora de los datos y, por lo tanto, necesitan un proceso de optimización exhaustivo y que demanda muchos recursos y un conjunto de entrenamiento inicial relativamente grande.
En este artículo, proponemos un método simple, rápido, versátil y eficiente para aumentar los conjuntos de datos numéricos y colineales mixtos. El método se basa en un enfoque que se desarrolló inicialmente para otros fines, específicamente para generar conjuntos de validación, y por lo tanto se conoce como validación cruzada de Procrustes [9] [10]. Sin embargo, como se demuestra en este artículo, aborda de manera efectiva el problema de aumento de datos, lo que da como resultado modelos con un rendimiento de predicción o clasificación significativamente mejorado.
Nuestro método aprovecha directamente la colinealidad en el procedimiento de generación. Ajusta los datos de entrenamiento con un conjunto de variables latentes y luego emplea un remuestreo de validación cruzada para medir las variaciones en la orientación de las variables. Esta variación se introduce luego en el conjunto de entrenamiento como error de muestreo, lo que da como resultado un nuevo conjunto de puntos de datos.
Se pueden emplear dos modelos de ajuste: descomposición en valores singulares (SVD) y descomposición por mínimos cuadrados parciales (PLS). La elección del modelo de ajuste permite al usuario priorizar una parte de la estructura de covarianza que se utilizará para generar los nuevos datos.
Ambos modelos de ajuste tienen dos parámetros: la cantidad de variables latentes y la cantidad de segmentos utilizados para el remuestreo de validación cruzada. Sin embargo, los experimentos muestran que los parámetros no requieren un ajuste específico. Cualquier cantidad de variables latentes lo suficientemente grande como para capturar la variación sistemática de los valores del conjunto de entrenamiento sirve igualmente bien, así como cualquier cantidad de segmentos a partir de tres.
El método propuesto es versátil y puede aplicarse tanto a datos completamente numéricos como a datos tabulados donde una o varias variables son cualitativas. Esto abre otra perspectiva, a saber, la simulación de datos, que puede ser útil, por ejemplo, para probar sistemas de software con alta carga, aunque no consideramos este aspecto aquí.
El artículo describe los fundamentos teóricos del método e ilustra su aplicación práctica y su rendimiento en base a dos conjuntos de datos de diferente naturaleza. Proporciona detalles completos sobre cómo se puede aplicar el método de manera efectiva a diversos conjuntos de datos en escenarios del mundo real.
Hemos implementado el método en varios lenguajes de programación, incluidos Python, R, MATLAB y JavaScript, y todas las implementaciones están disponibles de forma gratuita en el repositorio de GitHub (https://github.com/svkucheryavski/pcv). Además, ofrecemos una versión en línea donde se pueden generar nuevos puntos de datos directamente en un navegador (https://mda.tools/pcv).
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.