paint-brush
Investigadores de IBM crean un mini modelo de IA que predice o futuropor@fewshot
Nova historia

Investigadores de IBM crean un mini modelo de IA que predice o futuro

Demasiado longo; Ler

Os investigadores desenvolveron unha alternativa práctica e eficiente aos modelos masivos de IA para a previsión de series temporais.
featured image - Investigadores de IBM crean un mini modelo de IA que predice o futuro
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Autores:

(1) Vijay Ekambaram, IBM Research;

(2) Arindam Jati, IBM Research;

(3) Nam H. Nguyen, IBM Research;

(4) Pankaj Dayama, IBM Research;

(5) Chandra Reddy, IBM Research;

(6) Wesley M. Gifford, IBM Research;

(7) Jayant Kalagnanam, IBM Research.

Nota do editor: esta é a parte 1 de 5 dun estudo que detalla o desenvolvemento dun modelo de IA pequeno e rápido que ofrece unha excelente precisión. Le o resto a continuación.

Táboa de ligazóns

Resumo

Os grandes modelos preadestrados para a aprendizaxe cero/poucas veces destacan nos dominios da linguaxe e da visión, pero atópanse con retos nas series temporais multivariantes (TS) debido á natureza diversa e á escaseza de datos previos á formación dispoñibles publicamente. En consecuencia, houbo un aumento recente na utilización de modelos de linguas grandes (LLM) preadestrados con adaptacións de tokens para a previsión de TS. Estes enfoques empregan aprendizaxe de transferencia entre dominios e sorprendentemente dan resultados impresionantes. Non obstante, estes modelos adoitan ser moi lentos e grandes (∼billóns de parámetros) e non consideran correlacións entre canles. Para solucionar isto, presentamos Tiny Time Mixers (TTM), un modelo significativamente pequeno baseado na arquitectura lixeira TSMixer. TTM marca o primeiro éxito no desenvolvemento de modelos xerais pre-adestrados rápidos e pequenos (≤1M de parámetros), adestrados exclusivamente en conxuntos de datos públicos de TS, con capacidades de aprendizaxe de transferencia efectivas para a previsión. Para abordar a complexidade do adestramento previo en varios conxuntos de datos con resolucións temporais variadas, introducimos varias melloras novas como o parche adaptativo, o aumento do conxunto de datos mediante a mostraxe inferior e o axuste do prefixo de resolución. Ademais, empregamos unha estratexia de modelado multinivel para modelar de forma eficaz as correlacións de canles e infundir sinais esóxenos durante o axuste fino, unha capacidade crucial que carece dos puntos de referencia existentes. TTM mostra importantes ganancias de precisión (12-38%) sobre os puntos de referencia populares en previsións de poucas/ceros. Tamén reduce drasticamente as necesidades de cálculo en comparación cos métodos LLM-TS, cun recorte de 14 veces nos parámetros aprendíbeis, 106 veces menos de parámetros totais e reducións substanciais no axuste fino (65X) e no tempo de inferencia (54X). De feito, o tiro cero de TTM adoita superar os resultados de poucos tiros en moitos puntos de referencia populares, o que destaca a eficacia do noso enfoque. Os modelos e o código fonte están dispoñibles en https://huggingface.co/ibm/TTM

1 Introdución

A previsión de series temporais multivariantes (TS) implica a predición de valores futuros para varias series temporais interrelacionadas en función dos seus datos históricos. Este campo avanzou significativamente, aplicando métodos estatísticos e de aprendizaxe automática (ML) [Hyndman e Athanasopoulos, 2021] en dominios como o tempo, o tráfico, o comercio polo miúdo e a enerxía. En xeral, cada serie temporal representa unha variable ou canle[1]. En determinadas aplicacións, as variables non preditivas, categorizadas como factores externos controlables e incontrolables, inflúen nas variables a prognosticar. Denominamos estas variables non preditivas como esóxenas e as variables que requiren previsión como variables obxectivo.


Traballo relacionado: os avances recentes na predición multivariante foron marcados pola aparición de enfoques baseados en transformadores [Vaswani et al., 2017], exemplificados por modelos como PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Zhou et al., 2021], [Zhou et al. 2022]. Estes modelos demostraron melloras notables con respecto aos métodos estatísticos e ML tradicionais. Ademais, as arquitecturas baseadas en MLPMixer [Tolstikhin et al., 2021], como TSMixer [Ekambaram et al., 2023], xurdiron como alternativas de transformadores eficientes, con requisitos de cálculo e memoria reducidos 2-3X sen compromiso de precisión en comparación cos seus homólogos de transformadores. Non obstante, ningún destes enfoques avanzados demostrou con éxito a capacidade de crear modelos xerais previamente adestrados que poidan transferir con éxito a aprendizaxe a un conxunto de datos de TS obxectivo non visto, dun xeito similar ao que se testemuña popularmente nas tarefas de PNL e visión. Isto é moi desafiante no dominio TS debido á natureza diversa dos conxuntos de datos en aplicacións e á limitada dispoñibilidade pública dos datos de TS para a formación previa. Existen enfoques de TS de pre-adestramento autosupervisados que utilizan técnicas de modelado enmascarado e aprendizaxe contrastiva como SimMTM [Dong et al., 2023] e TF-C [Zhang et al., 2022] que ofrecen aprendizaxe de transferencia entre dous conxuntos de datos cando se seleccionan coidadosamente en función das propiedades do conxunto de datos. Non obstante, non proporcionan capacidades de aprendizaxe de transferencia universal entre conxuntos de datos. En consecuencia, houbo unha tendencia crecente recente de empregar modelos de linguas grandes (LLM) preadestrados para a previsión de TS, tratándoo como unha tarefa de aprendizaxe de transferencia entre dominios. Estes enfoques universais de transferencia cruzada, concretamente traballos recentes como LLMTime [Gruver et al., 2023] e GPT4TS [Zhou et al., 2023] dan resultados prometedores en enfoques de previsión de poucos/cero tiros. Estes modelos están iniciados desde GPT-2/3 ou LLAMA-2 con estratexias de tokenización adecuadas para adaptarse aos dominios de series temporais.


Non obstante, estes enfoques de TS baseados en LLM non manexan explícitamente as correlacións de canles e o apoio esóxeno no contexto da predición multivariada. Ademais, estes grandes modelos, con miles de millóns de parámetros, demandan importantes recursos computacionais e tempo de execución. Por iso, neste traballo centrámonos na construción de modelos preadestrados desde cero só usando datos de TS. A diferenza da linguaxe, que ten abundantes datos públicos previos ao adestramento en terabytes, os datos das series temporais son relativamente escasos, moi diversos e limitados publicamente. A súa escaseza leva a un sobreajuste cando se adestran modelos "grandes" unicamente en datos de series temporais. Isto suscita unha pregunta: ¿Poden os modelos máis pequenos adestrados previamente en conxuntos de datos públicos limitados de TS diversos dar unha mellor precisión de previsión de cero ou poucos disparos? Sorprendentemente, a resposta é si! Para iso, propoñemos Multi-level Tiny Time Mixers (TTM), un modelo significativamente máis pequeno (≤1M de parámetros) baseado na arquitectura lixeira TSMixer, adestrado exclusivamente en diversos corpus de TS para unha previsión efectiva de TS multivariante cero/fewshot mediante aprendizaxe de transferencia.


En particular, TTM está adestrado previamente usando varios conxuntos de datos públicos (~ 244 millóns de mostras) do repositorio de datos de Monash[2] [Godahewa et al., 2021]). Teña en conta que os conxuntos de datos presentan unha diversidade considerable en termos de características, como os diferentes dominios, a resolución temporal[3] (que vai de segundo a día), lonxitudes e número de canles. O adestramento previo en conxuntos de datos tan heteroxéneos non pode ser xestionado directamente por TSMixer ou os modelos de última xeración (SOTA) existentes. Polo tanto, TTM propón as seguintes melloras na arquitectura TSMixer: (i) Parche adaptativo entre capas, tendo en conta a variada adecuación das lonxitudes de parche para diferentes conxuntos de datos, (ii) Aumento do conxunto de datos mediante a submostraxe para aumentar a cobertura e mostras en diferentes resolucións, (iii) Axuste do prefixo de resolución para incorporar de forma explícita información de resolución nos primeiros escenarios de resolución, facilitando especialmente os escenarios de resolución con patch curto. lonxitudes da historia. Ademais, o noso enfoque aproveita o modelado multinivel, onde os TTM son primeiro adestrados previamente de forma independente da canle e despois integran perfectamente a mestura de canles durante o axuste fino para modelar as correlacións de canles específicas dos datos de destino e a infusión esóxena.


A continuación, esbozamos as principais contribucións do documento:


• No medio da prevalencia de grandes modelos adestrados previamente que esixen un tempo de cálculo e adestramento significativo (en semanas), o noso traballo é o primeiro en mostrar a eficacia de construír modelos preadestrados rápidos e pequenos (parámetros ≤1M) adestrados exclusivamente en conxuntos de datos de TS públicos nun flash de poucas horas (4-8 horas, 6 GPU A100). TTM demostra con éxito a transferencia de aprendizaxe a conxuntos de datos de destino diversos e non vistos para a previsión de cero/poucas veces, abordando os problemas de escaseza de datos prevalentes nas series temporais.


• O adestramento previo en conxuntos de datos heteroxéneos de resolución múltiple non pode ser xestionado de forma eficaz por TSMixer ou outros modelos SOTA. Por iso, propoñemos varias melloras arquitectónicas e de adestramento , como parches adaptativos, aumento de datos mediante a mostraxe inferior e axuste de prefixos de resolución (opcional) para un adestramento previo robusto.


• TTM emprega unha estratexia de modelado multinivel para modelar explícitamente correlacións de canles e incorpora sinais esóxenos, unha capacidade crucial que carece nos enfoques de TS baseados en LLM.


• Cunha avaliación extensa en 11 conxuntos de datos, TTM mostra importantes ganancias de precisión con respecto aos benchmarks populares (12-38% en previsións de poucas/ceros). Tamén reduce drasticamente as necesidades de cálculo en comparación cos métodos LLM-TS, cun recorte de 14X nos parámetros aprendibles, 106X menos de parámetros totais e reducións substanciais na sintonización fina (65X), o tempo de inferencia (54X) e o uso de memoria (27X). • Os resultados de disparo cero de TTM adoitan superar os resultados de poucos disparos de moitos enfoques SOTA, destacando a eficacia do noso enfoque.


Este documento está dispoñible en arxiv baixo a licenza CC BY-NC-ND 4.0 DEED.


[1] "Canle" refírese á serie temporal individual en datos multivariantes (é dicir, un TS multivariado é un sinal multicanle).


[2] Accesible en https://forecastingdata.org/


[3] A resolución refírese á frecuencia de mostraxe da serie temporal de entrada (por exemplo, por hora, 10 minutos, 15 minutos, etc.)