paint-brush
Investigadores de IBM crean un minimodelo de IA que predice el futuropor@fewshot
Nueva Historia

Investigadores de IBM crean un minimodelo de IA que predice el futuro

Demasiado Largo; Para Leer

Los investigadores han desarrollado una alternativa práctica y eficiente a los modelos de IA masivos para la predicción de series temporales.
featured image - Investigadores de IBM crean un minimodelo de IA que predice el futuro
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Vijay Ekambaram, Investigación de IBM;

(2) Arindam Jati, Investigación de IBM;

(3) Nam H. Nguyen, Investigación de IBM;

(4) Pankaj Dayama, Investigación de IBM;

(5) Chandra Reddy, Investigación de IBM;

(6) Wesley M. Gifford, Investigación de IBM;

(7) Jayant Kalagnanam, Investigación de IBM.

Nota del editor: esta es la primera parte de cinco de un estudio que detalla el desarrollo de un modelo de IA diminuto y rápido que ofrece una precisión excelente. Lea el resto a continuación.

Tabla de enlaces

Abstracto

Los modelos preentrenados de gran tamaño para el aprendizaje de cero o pocos disparos se destacan en los dominios del lenguaje y la visión, pero enfrentan desafíos en las series temporales multivariadas (TS) debido a la naturaleza diversa y la escasez de datos de preentrenamiento disponibles públicamente. En consecuencia, ha habido un aumento reciente en el uso de modelos de lenguaje grandes preentrenados (LLM) con adaptaciones de tokens para la previsión de TS. Estos enfoques emplean el aprendizaje por transferencia entre dominios y sorprendentemente producen resultados impresionantes. Sin embargo, estos modelos suelen ser muy lentos y grandes (∼mil millones de parámetros) y no consideran las correlaciones entre canales. Para abordar esto, presentamos Tiny Time Mixers (TTM), un modelo significativamente pequeño basado en la arquitectura liviana TSMixer. TTM marca el primer éxito en el desarrollo de modelos preentrenados generales rápidos y pequeños (≤1M de parámetros), entrenados exclusivamente en conjuntos de datos TS públicos, con capacidades efectivas de aprendizaje por transferencia para la previsión. Para abordar la complejidad del preentrenamiento en múltiples conjuntos de datos con resoluciones temporales variadas, introducimos varias mejoras novedosas, como la aplicación de parches adaptativos, la ampliación de los conjuntos de datos mediante la reducción de la resolución y el ajuste del prefijo de resolución. Además, empleamos una estrategia de modelado de múltiples niveles para modelar de manera efectiva las correlaciones de los canales e infundir señales exógenas durante el ajuste fino, una capacidad crucial de la que carecen los puntos de referencia existentes. TTM muestra importantes ganancias de precisión (12-38 %) en comparación con los puntos de referencia populares en la previsión de pocos o cero disparos. También reduce drásticamente las necesidades de cómputo en comparación con los métodos LLM-TS, con un recorte de 14 veces en los parámetros que se pueden aprender, 106 veces menos parámetros totales y reducciones sustanciales en el ajuste fino (65 veces) y el tiempo de inferencia (54 veces). De hecho, el cero disparo de TTM a menudo supera los resultados de pocos disparos en muchos puntos de referencia populares, lo que destaca la eficacia de nuestro enfoque. Los modelos y el código fuente están disponibles en https://huggingface.co/ibm/TTM

1 Introducción

La previsión de series temporales multivariadas (TS) implica predecir valores futuros para múltiples series temporales interrelacionadas en función de sus datos históricos. Este campo ha avanzado significativamente, aplicando métodos estadísticos y de aprendizaje automático (ML) [Hyndman y Athanasopoulos, 2021] en dominios como el clima, el tráfico, el comercio minorista y la energía. En general, cada serie temporal representa una variable o canal[1]. En ciertas aplicaciones, las variables no pronosticadas, categorizadas como factores externos controlables e incontrolables, impactan en las variables a pronosticar. Denominamos a estas variables no pronosticadas como exógenas y a las variables que requieren pronóstico como variables objetivo.


Trabajo relacionado: Los avances recientes en la previsión multivariante han estado marcados por la aparición de enfoques basados en transformadores [Vaswani et al., 2017], ejemplificados por modelos como PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Zhou et al., 2021] y FEDFormer [Zhou et al., 2022]. Estos modelos han demostrado mejoras notables con respecto a los métodos estadísticos y de aprendizaje automático tradicionales. Además, las arquitecturas basadas en MLPMixer [Tolstikhin et al., 2021], como TSMixer [Ekambaram et al., 2023], han surgido como alternativas eficientes a los transformadores, con requisitos de cómputo y memoria 2-3 veces menores sin comprometer la precisión en comparación con sus contrapartes de transformadores. Sin embargo, ninguno de estos enfoques avanzados ha demostrado con éxito la capacidad de crear modelos generales preentrenados que puedan transferir con éxito el aprendizaje a un conjunto de datos de TS objetivo invisible, de una manera similar a la que se observa popularmente en las tareas de PNL y visión. Esto es muy desafiante en el dominio de TS debido a la naturaleza diversa de los conjuntos de datos en las aplicaciones y la disponibilidad pública limitada de datos de TS para el preentrenamiento. Existen enfoques de TS de preentrenamiento autosupervisados que utilizan técnicas de aprendizaje contrastivo y modelado enmascarado como SimMTM [Dong et al., 2023] y TF-C [Zhang et al., 2022] que ofrecen aprendizaje por transferencia entre dos conjuntos de datos cuando se seleccionan cuidadosamente en función de las propiedades del conjunto de datos. Sin embargo, no logran proporcionar capacidades de aprendizaje por transferencia universal entre conjuntos de datos. En consecuencia, ha habido una tendencia creciente reciente a emplear modelos de lenguaje grande (LLM) preentrenados para la previsión de TS, tratándolo como una tarea de aprendizaje por transferencia entre dominios. Estos enfoques universales de transferencia cruzada, en particular trabajos recientes como LLMTime [Gruver et al., 2023] y GPT4TS [Zhou et al., 2023], arrojan resultados prometedores en enfoques de pronóstico de pocos o ningún impacto. Estos modelos se basan en GPT-2/3 o LLAMA-2 con estrategias de tokenización adecuadas para adaptarse a los dominios de series temporales.


Sin embargo, estos enfoques de TS basados en LLM no manejan explícitamente las correlaciones de canal y el soporte exógeno en el contexto de pronósticos multivariados. Además, estos modelos grandes, con miles de millones de parámetros, demandan recursos computacionales y tiempo de ejecución significativos. Por lo tanto, en este artículo, nos centramos en construir modelos preentrenados desde cero utilizando únicamente datos de TS. A diferencia del lenguaje, que tiene abundantes datos públicos de preentrenamiento en terabytes, los datos de series temporales son relativamente escasos, muy diversos y públicamente limitados. Su escasez conduce a un sobreajuste cuando se preentrenan modelos "grandes" únicamente en datos de series temporales. Esto plantea una pregunta: ¿Pueden los modelos más pequeños preentrenados puramente en conjuntos de datos públicos de TS limitados y diversos brindar una mejor precisión de pronóstico de cero o pocos disparos? ¡Sorprendentemente, la respuesta es sí! Para ello, proponemos Multi-level Tiny Time Mixers (TTM), un modelo significativamente más pequeño (≤1M parámetros) basado en la arquitectura liviana TSMixer, entrenado exclusivamente en diversos corpus TS para un pronóstico TS multivariado de cero/pocos disparos efectivo a través del aprendizaje por transferencia.


En particular, TTM se entrena previamente utilizando múltiples conjuntos de datos públicos (∼ 244M muestras) del repositorio de datos de Monash[2] [Godahewa et al., 2021]). Tenga en cuenta que los conjuntos de datos exhiben una diversidad considerable en términos de características, como los diferentes dominios, resolución temporal[3] (que abarca desde segundos hasta diarios), longitudes y número de canales. El preentrenamiento en conjuntos de datos tan heterogéneos no puede ser manejado directamente por TSMixer o los modelos de última generación (SOTA) existentes. Por lo tanto, TTM propone las siguientes mejoras a la arquitectura de TSMixer: (i) Parcheo adaptativo entre capas, considerando la variada idoneidad de las longitudes de parche para diferentes conjuntos de datos, (ii) Aumento del conjunto de datos mediante submuestreo para aumentar la cobertura y las muestras en diferentes resoluciones, (iii) Ajuste del prefijo de resolución para incrustar explícitamente la información de resolución en el primer parche, lo que facilita el modelado condicionado por la resolución, particularmente beneficioso en escenarios con longitudes de historial cortas. Además, nuestro enfoque aprovecha el modelado multinivel, donde los TTM primero se entrenan previamente de una manera independiente del canal y luego integran sin problemas la mezcla de canales durante el ajuste fino para modelar las correlaciones de canales específicos de los datos objetivo y la infusión exógena.


A continuación, describimos las principales contribuciones del artículo:


• En medio de la prevalencia de grandes modelos preentrenados que demandan un tiempo de entrenamiento y computación significativo (en semanas), nuestro trabajo es el primero en demostrar la eficacia de construir modelos preentrenados rápidos y pequeños (≤1M de parámetros) entrenados exclusivamente en conjuntos de datos de TS públicos en un instante de solo unas pocas horas (4-8 horas, 6 GPU A100). TTM demuestra con éxito el aprendizaje por transferencia a conjuntos de datos objetivo diversos e invisibles para realizar pronósticos de cero o pocos intentos, abordando los problemas de escasez de datos que prevalecen en las series temporales.


• El preentrenamiento en conjuntos de datos heterogéneos de múltiples resoluciones no se puede manejar de manera efectiva con TSMixer u otros modelos SOTA. Por lo tanto, proponemos varias mejoras de arquitectura y entrenamiento , como parches adaptativos, aumento de datos mediante submuestreo y (opcionalmente) ajuste del prefijo de resolución para un preentrenamiento robusto.


• TTM emplea una estrategia de modelado multinivel para modelar explícitamente las correlaciones de canales e incorpora señales exógenas, una capacidad crucial de la que carecen los enfoques TS basados en LLM.


• Con una evaluación exhaustiva de 11 conjuntos de datos, TTM muestra importantes ganancias de precisión sobre los puntos de referencia populares (12-38% en pronósticos de pocos intentos o de cero intentos). También reduce drásticamente las necesidades de cómputo en comparación con los métodos LLM-TS, con una reducción de 14 veces en los parámetros que se pueden aprender, 106 veces menos parámetros totales y reducciones sustanciales en el ajuste fino (65 veces), el tiempo de inferencia (54 veces) y el uso de memoria (27 veces). • Los resultados de cero intentos de TTM a menudo superan los resultados de pocos intentos de muchos enfoques SOTA, lo que resalta la eficacia de nuestro enfoque.


Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 DEED.


[1] “Canal” se refiere a la serie temporal individual en datos multivariados (es decir, una TS multivariada es una señal multicanal).


[2] Accesible en https://forecastingdata.org/


[3] La resolución se refiere a la frecuencia de muestreo de la serie temporal de entrada (por ejemplo, cada hora, 10 minutos, 15 minutos, etc.)