Autors:
(1) Vijay Ekambaram, IBM Research;
(2) Arindam Jati, IBM Research;
(3) Nam H. Nguyen, IBM Research;
(4) Pankaj Dayama, IBM Research;
(5) Chandra Reddy, IBM Research;
(6) Wesley M. Gifford, IBM Research;
(7) Jayant Kalagnanam, IBM Research.
Nota de l'editor: aquesta és la part 1 de 5 d'un estudi que detalla el desenvolupament d'un model d'IA petit i ràpid que ofereix una precisió excel·lent. Llegeix la resta a continuació.
3 fluxos de treball TTM i 3.1 flux de treball previ a la formació
5 Conclusions i treballs futurs, i referències
Els grans models pre-entrenats per a l'aprenentatge zero/pocs trets excel·lent en els dominis del llenguatge i la visió, però es troben amb reptes en sèries temporals multivariants (TS) a causa de la naturalesa diversa i l'escassetat de dades prèvies a la formació disponibles públicament. En conseqüència, hi ha hagut un augment recent en la utilització de models de llenguatge grans (LLM) pre-entrenats amb adaptacions de testimoni per a la previsió de TS. Aquests enfocaments utilitzen l'aprenentatge de transferència entre dominis i sorprenentment donen resultats impressionants. Tanmateix, aquests models solen ser molt lents i grans (∼ mil milions de paràmetres) i no tenen en compte les correlacions entre canals. Per solucionar-ho, presentem Tiny Time Mixers (TTM), un model significativament petit basat en l'arquitectura lleugera TSMixer. TTM marca el primer èxit en el desenvolupament de models generals pre-entrenats ràpids i petits (≤1M de paràmetres), entrenats exclusivament en conjunts de dades TS públics, amb capacitats efectives d'aprenentatge de transferència per a la predicció. Per abordar la complexitat de la formació prèvia en diversos conjunts de dades amb resolucions temporals variades, introduïm diverses millores noves, com ara l'aplicació de pedaços adaptatius, l'augment del conjunt de dades mitjançant el mostreig inferior i l'ajust de prefix de resolució. A més, utilitzem una estratègia de modelització multinivell per modelar eficaçment les correlacions de canals i introduir senyals exògens durant l'ajustament, una capacitat crucial que manca en els punts de referència existents. TTM mostra guanys de precisió significatius (12-38%) respecte als punts de referència populars en pronòstics pocs/zero. També redueix dràsticament les necessitats de càlcul en comparació amb els mètodes LLM-TS, amb una retallada de 14X en els paràmetres aprensibles, 106X menys paràmetres totals i reduccions substancials en l'ajustament (65X) i el temps d'inferència (54X). De fet, el tir zero de TTM sovint supera els resultats de pocs tirs en molts punts de referència populars, posant de manifest l'eficàcia del nostre enfocament. Els models i el codi font estan disponibles a https://huggingface.co/ibm/TTM
La previsió de sèries temporals multivariants (TS) implica predir valors futurs per a múltiples sèries temporals interrelacionades a partir de les seves dades històriques. Aquest camp ha avançat significativament, aplicant mètodes estadístics i d'aprenentatge automàtic (ML) [Hyndman i Athanasopoulos, 2021] en dominis com el temps, el trànsit, el comerç minorista i l'energia. En general, cada sèrie temporal representa una variable o canal[1]. En determinades aplicacions, les variables no predictives, categoritzades com a factors externs controlables i incontrolables, afecten les variables a pronosticar. Anomenem aquestes variables no predictives com a exògenes i les variables que requereixen previsió com a variables objectiu.
Treball relacionat: els avenços recents en la predicció multivariant han estat marcats per l'arribada dels enfocaments basats en transformadors [Vaswani et al., 2017], exemplificats per models com PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Zhou et al., 2021], [Zhou et al. 2022]. Aquests models han demostrat millores notables respecte als mètodes estadístics i ML tradicionals. A més, arquitectures basades en MLPMixer [Tolstikhin et al., 2021], com TSMixer [Ekambaram et al., 2023], han sorgit com a alternatives de transformadors eficients, amb requisits de càlcul i memòria reduïts de 2 a 3 vegades sense cap compromís de precisió en comparació amb els seus homòlegs de transformadors. Tanmateix, cap d'aquests enfocaments avançats ha demostrat amb èxit la capacitat de crear models generals pre-entrenats que puguin transferir amb èxit l'aprenentatge a un conjunt de dades de TS objectiu no vist, d'una manera similar a la que es veu popularment a les tasques de PNL i visió. Això és molt difícil en el domini TS a causa de la naturalesa diversa dels conjunts de dades entre aplicacions i la disponibilitat pública limitada de dades de TS per a la formació prèvia. Existeixen enfocaments de TS de pre-entrenament autosupervisats que utilitzen tècniques de modelatge emmascarat i aprenentatge contrastiu com SimMTM [Dong et al., 2023] i TF-C [Zhang et al., 2022] que ofereixen aprenentatge de transferència entre dos conjunts de dades quan se seleccionen acuradament en funció de les propietats del conjunt de dades. Tanmateix, no ofereixen capacitats d'aprenentatge de transferència universals entre conjunts de dades. En conseqüència, hi ha hagut una tendència creixent recent d'emprar models de llenguatge grans (LLM) pre-entrenats per a la previsió de TS, tractant-ho com una tasca d'aprenentatge de transferència entre dominis. Aquests enfocaments de transferència creuada universals, concretament treballs recents com LLMTime [Gruver et al., 2023] i GPT4TS [Zhou et al., 2023] donen resultats prometedors en enfocaments de previsió pocs/zero-shot. Aquests models estan arrencats des de GPT-2/3 o LLAMA-2 amb estratègies de tokenització adequades per adaptar-se als dominis de sèries temporals.
Tanmateix, aquests enfocaments de TS basats en LLM no gestionen explícitament les correlacions de canal i el suport exògen en el context de la previsió multivariant. A més, aquests grans models, amb milers de milions de paràmetres, requereixen recursos computacionals i temps d'execució importants. Per tant, en aquest article, ens centrem a construir models pre-entrenats des de zero només utilitzant dades de TS. A diferència del llenguatge, que té abundants dades públiques prèvies a la formació en terabytes, les dades de sèries temporals són relativament escasses, molt diverses i limitades públicament. La seva escassetat condueix a un sobreajust quan s'entrenen models "grans" només amb dades de sèries temporals. Això provoca una pregunta: els models més petits que s'entrenen prèviament només en conjunts de dades TS públics limitats ofereixen una millor precisió de previsió zero/poques tirs? Sorprenentment, la resposta és sí! Per a això, proposem Multi-level Tiny Time Mixers (TTM), un model significativament més petit (≤1M de paràmetres) basat en l'arquitectura lleugera TSMixer, entrenat exclusivament en diversos corpus de TS per a una previsió efectiva de TS multivariant zero / pocs tirs mitjançant l'aprenentatge de transferència.
En particular, el TTM s'entrena prèviament mitjançant múltiples conjunts de dades públiques (~ 244 milions de mostres) del dipòsit de dades de Monash[2] [Godahewa et al., 2021]). Tingueu en compte que els conjunts de dades presenten una diversitat considerable quant a característiques, com ara els diferents dominis, la resolució temporal[3] (que abasta des del segon fins al dia), les longituds i el nombre de canals. La formació prèvia en aquests conjunts de dades heterogenis no es pot gestionar directament per TSMixer o els models d'última generació (SOTA) existents. Per tant, TTM proposa les següents millores a l'arquitectura TSMixer: (i) Pedaç adaptatiu a través de capes, tenint en compte la variada idoneïtat de les longituds de pedaç per a diferents conjunts de dades, (ii) Augment de conjunt de dades mitjançant la baixada de mostres per augmentar la cobertura i les mostres a diferents resolucions, (iii) Afinació del prefix de resolució per incrustar de manera explícita informació de resolució en els primers escenaris de resolució, facilitant especialment el model de resolució breu amb escenaris de patch breus. llargs de la història. A més, el nostre enfocament aprofita el modelatge multinivell, on primer els TTM s'entrenen prèviament d'una manera independent del canal i després integren perfectament la barreja de canals durant l'ajustament per modelar les correlacions de canal específiques de les dades objectiu i la infusió exògena.
A continuació, es descriuen les principals contribucions del document:
• Enmig de la prevalença de grans models pre-entrenats que exigeixen un temps de càlcul i entrenament significatiu (en setmanes), el nostre treball és el primer a mostrar l'eficàcia de la creació de models pre-entrenats ràpids i petits (≤1M paràmetres) entrenats exclusivament en conjunts de dades de Public TS en poques hores (4-8 hores, 6 GPU A100). TTM demostra amb èxit l'aprenentatge de transferència a conjunts de dades d'objectius diversos i no vists per a la previsió de zero/pocs tirs, abordant els problemes d'escassetat de dades prevalents a les sèries temporals.
• La formació prèvia sobre conjunts de dades heterogenis de resolució múltiple no es pot gestionar amb eficàcia per TSMixer o altres models SOTA. Per tant, proposem diverses millores arquitectòniques i de formació , com ara l'aplicació de pedaços adaptatius, l'augment de dades mitjançant el mostreig inferior i l'ajustament del prefix de resolució (opcional) per a un entrenament previ robust.
• TTM utilitza una estratègia de modelització multinivell per modelar explícitament les correlacions de canals i incorpora senyals exògens, una capacitat crucial que manca en els enfocaments de TS basats en LLM.
• Amb una àmplia avaluació d'11 conjunts de dades, TTM mostra guanys de precisió significatius respecte als punts de referència populars (del 12 al 38% en pronòstics pocs/zero). També redueix dràsticament les necessitats de càlcul en comparació amb els mètodes LLM-TS, amb una reducció de 14X en els paràmetres aprendre, 106X menys paràmetres totals i reduccions substancials en l'ajustament (65X), el temps d'inferència (54X) i l'ús de memòria (27X). • Els resultats zero-shot de TTM sovint superen els resultats de pocs resultats de molts enfocaments SOTA, posant de manifest l'efectivitat del nostre enfocament.
Aquest document està disponible a arxiv sota la llicència CC BY-NC-ND 4.0 DEED.
[1] "Canal" es refereix a la sèrie temporal individual en dades multivariants (és a dir, un TS multivariant és un senyal multicanal).
[2] Accessible a https://forecastingdata.org/
[3] La resolució es refereix a la freqüència de mostreig de la sèrie temporal d'entrada (p. ex., cada hora, 10 minuts, 15 minuts, etc.)