Autori:
(1) Vijay Ekambaram, IBM Research;
(2) Arindam Jati, IBM Research;
(3) Nam H. Nguyen, IBM Research;
(4) Pankaj Dayama, IBM Research;
(5) Chandra Reddy, IBM Research;
(6) Wesley M. Gifford, IBM Research;
(7) Jayant Kalagnanam, IBM Research.
Napomena urednika: ovo je dio 1 od 5 studije koja detaljno opisuje razvoj malog, brzog AI modela koji pruža odličnu preciznost. Ostatak pročitajte u nastavku.
3 TTM tokovi rada i 3.1 tok rada prije obuke
5 Zaključci i budući rad i reference
Veliki prethodno obučeni modeli za učenje bez/nekoliko snimaka su odlični u domenima jezika i vida, ali nailaze na izazove u multivarijantnim vremenskim serijama (TS) zbog raznolike prirode i oskudice javno dostupnih podataka prije obuke. Posljedično, nedavno je došlo do porasta korištenja unaprijed obučenih modela velikih jezika (LLM) sa adaptacijama tokena za TS predviđanje. Ovi pristupi koriste učenje transfera između domena i iznenađujuće daju impresivne rezultate. Međutim, ovi modeli su obično vrlo spori i veliki (∼milijarde parametara) i ne uzimaju u obzir međukanalne korelacije. Da bismo ovo riješili, predstavljamo Tiny Time Mixers (TTM), značajno mali model baziran na laganoj TSMixer arhitekturi. TTM označava prvi uspjeh u razvoju brzih i sićušnih općih unaprijed obučenih modela (≤1M parametara), isključivo obučenih na javnim skupovima podataka TS, sa efektivnim mogućnostima učenja prijenosa za predviđanje. Kako bismo se uhvatili u koštac sa složenošću pre-treninga na više skupova podataka s različitim vremenskim rezolucijama, uvodimo nekoliko novih poboljšanja kao što su adaptivno zakrpe, povećanje skupa podataka putem smanjenja uzorkovanja i podešavanje prefiksa rezolucije. Štaviše, koristimo strategiju modeliranja na više nivoa kako bismo efikasno modelirali korelacije kanala i ubacili egzogene signale tokom finog podešavanja, što je ključna sposobnost koja nedostaje postojećim mjerilima. TTM pokazuje značajne dobitke u preciznosti (12-38%) u odnosu na popularna mjerila u prognoziranju s malo/nula. Takođe drastično smanjuje potrebe za računanjem u poređenju sa LLM-TS metodama, sa 14X smanjenjem parametara koji se mogu naučiti, 106X manjim ukupnim parametrima i značajnim smanjenjem finog podešavanja (65X) i vremena zaključivanja (54X). Zapravo, TTM-ov nulti pogodak često nadmašuje rezultate s nekoliko pogodaka u mnogim popularnim mjerilima, naglašavajući efikasnost našeg pristupa. Modeli i izvorni kod dostupni su na https://huggingface.co/ibm/TTM
Predviđanje multivarijantnih vremenskih serija (TS) podrazumeva predviđanje budućih vrednosti za više međusobno povezanih vremenskih serija na osnovu njihovih istorijskih podataka. Ovo polje je značajno napredovalo, primjenjujući metode statističkog i mašinskog učenja (ML) [Hyndman i Athanasopoulos, 2021.] u domenima poput vremena, saobraćaja, maloprodaje i energije. Općenito, svaka vremenska serija predstavlja varijablu ili kanal[1]. U određenim aplikacijama, nepredviđene varijable, kategorisane kao kontrolisani i nekontrolisani spoljni faktori, utiču na varijable za predviđanje. Ove ne-prognostičke varijable nazivamo egzogenim, a varijable koje zahtijevaju prognozu kao ciljne varijable.
Povezani rad: Nedavni napredak u multivarijantnom predviđanju obilježen je pojavom pristupa zasnovanih na transformatorima [Vaswani et al., 2017.], ilustrovani modelima kao što su PatchTST [Nie et al., 2023.], Autoformer [Wu et al., 2021.], Informer., Zhou et al., i2. et al., 2022]. Ovi modeli su pokazali značajna poboljšanja u odnosu na tradicionalne statističke i ML metode. Nadalje, arhitekture zasnovane na MLPMixer-u [Tolstikhin et al., 2021.], kao što je TSMixer [Ekambaram et al., 2023.], pojavile su se kao efikasne alternative transformatorima, hvaleći se 2-3X smanjenim zahtjevima za računanjem i memorijom bez kompromisa u preciznosti u usporedbi sa svojim kolegama transformatorima. Međutim, nijedan od ovih naprednih pristupa nije uspješno pokazao sposobnost stvaranja općih unaprijed obučenih modela koji mogu uspješno prenijeti učenje u nevidljivi ciljni skup podataka TS, na sličan način kao što je popularno svjedočeno u NLP-u i zadacima vizije. Ovo je veoma izazovno u domenu TS zbog raznolike prirode skupova podataka u različitim aplikacijama i ograničene javne dostupnosti TS podataka za prethodnu obuku. Postoje postojeći samonadzirani TS pristupi prije obuke koji koriste maskirano modeliranje i tehnike kontrastnog učenja kao što su SimMTM [Dong et al., 2023] i TF-C [Zhang et al., 2022] koji nude učenje transfera između dva skupa podataka kada su pažljivo odabrani na osnovu svojstava skupa podataka. Međutim, oni ne uspijevaju pružiti univerzalne mogućnosti učenja prijenosa kroz skupove podataka. Posljedično, nedavno je postojao rastući trend korištenja unaprijed obučenih modela velikih jezika (LLM) za predviđanje TS, tretirajući to kao zadatak učenja prijenosa između domena. Ovi univerzalni pristupi unakrsnog prijenosa, posebno noviji radovi kao što su LLMTime [Gruver et al., 2023] i GPT4TS [Zhou et al., 2023] daju obećavajuće rezultate u pristupima predviđanja s malo/nultim brojem pogodaka. Ovi modeli su pokrenuti sa GPT-2/3 ili LLAMA-2 sa odgovarajućim strategijama tokenizacije za prilagođavanje domenima vremenske serije.
Međutim, ovi TS pristupi zasnovani na LLM ne obrađuju eksplicitno korelacije kanala i egzogenu podršku u kontekstu multivarijatnog predviđanja. Štaviše, ovi veliki modeli, sa milijardama parametara, zahtevaju značajne računarske resurse i vreme rada. Stoga se u ovom radu fokusiramo na izgradnju unaprijed obučenih modela od nule isključivo koristeći TS podatke. Za razliku od jezika, koji ima obilje javnih podataka prije obuke u terabajtima, podaci o vremenskim serijama su relativno oskudni, vrlo raznoliki i javno ograničeni. Njegova oskudica dovodi do prekomjernog prilagođavanja kada se "veliki" modeli unaprijed treniraju isključivo na podacima o vremenskim serijama. Ovo postavlja pitanje: Mogu li manji modeli unaprijed obučeni isključivo na ograničenim javnim, raznolikim skupovima TS podataka dati bolju preciznost predviđanja nula/nekoliko snimaka? Iznenađujuće, odgovor je da! U tu svrhu predlažemo višeslojne male miksere vremena (TTM), značajno manji model (≤1M parametara) baziran na laganoj TSMixer arhitekturi, ekskluzivno obučen na različitim TS korpusima za efektivno multivarijantno TS predviđanje nula/nekoliko snimaka putem transfer učenja.
Konkretno, TTM je unaprijed obučen korištenjem više javnih skupova podataka (∼ 244M uzoraka) iz Monashovog spremišta podataka [2] [Godahewa et al., 2021]). Imajte na umu da skupovi podataka pokazuju značajnu raznolikost u pogledu karakteristika, kao što su različiti domeni, vremenska rezolucija[3] (od sekunde do dana), dužine i broj kanala. Prethodnu obuku na takvim heterogenim skupovima podataka ne može direktno rukovati TSMixer ili postojeći najsavremeniji (SOTA) modeli. Stoga, TTM predlaže sljedeća poboljšanja TSMixer arhitekture: (i) Adaptive Patching preko slojeva, uzimajući u obzir različitu prikladnost dužina zakrpa za različite skupove podataka, (ii) Povećanje skupa podataka putem Downsamplinga za povećanje pokrivenosti i uzoraka u različitim rezolucijama, (iii) Rezolucija Prefiks informacije olakšava podešavanje rezolucije u rezoluciji prvo uslovljavanje modeliranje, posebno korisno u scenarijima sa kratkom dužinom istorije. Štaviše, naš pristup koristi modeliranje na više nivoa, gdje se TTM prvo unaprijed obučavaju na način nezavisan od kanala, a zatim neprimjetno integriraju miješanje kanala tokom finog podešavanja kako bi modelirali korelacije kanala specifičnih za ciljne podatke i egzogenu infuziju.
U nastavku navodimo ključne doprinose rada:
• Usred rasprostranjenosti velikih unapred obučenih modela koji zahtevaju značajno vreme za računanje i obuku (u nedeljama), naš rad je prvi koji pokazuje efikasnost izgradnje brzih i sitnih unapred obučenih modela (≤1M parametara) isključivo obučenih na javnim TS skupovima podataka u trenu od samo nekoliko sati (4-8 sati, 6 A10). TTM uspješno demonstrira transfer učenja na različite, nevidljive ciljne skupove podataka za predviđanje nula/nekoliko snimaka, rješavajući probleme oskudice podataka koji preovladavaju u vremenskim serijama.
• TSMixer ili drugi SOTA modeli ne mogu efikasno upravljati prethodnom obukom o heterogenim skupovima podataka sa više rezolucija. Stoga predlažemo različita arhitektonska poboljšanja i poboljšanja za obuku , kao što su adaptivno zakrpe, povećanje podataka putem downsamplinga i (opcionalno) podešavanje prefiksa rezolucije za robusnu pre-trening.
• TTM koristi strategiju modeliranja na više nivoa da eksplicitno modelira korelacije kanala, i uključuje egzogene signale – ključnu sposobnost koja nedostaje TS pristupima zasnovanim na LLM.
• Uz opsežnu evaluaciju na 11 skupova podataka, TTM pokazuje značajne dobitke u preciznosti u odnosu na popularna mjerila (12-38% u predviđanju s nekoliko/nula pogodaka). Takođe drastično smanjuje potrebe za računanjem u poređenju sa LLM-TS metodama, sa 14X smanjenjem parametara koji se mogu naučiti, 106X manje ukupnih parametara i značajnim smanjenjem finog podešavanja (65X), vremena zaključivanja (54X) i upotrebe memorije (27X). • Nulti rezultati TTM-a često nadmašuju rezultate od nekoliko snimaka mnogih SOTA pristupa, naglašavajući efikasnost našeg pristupa.
Ovaj rad je dostupan na arxiv pod licencom CC BY-NC-ND 4.0 DEED.
[1] “Kanal” se odnosi na pojedinačne vremenske serije u multivarijantnim podacima (tj. multivarijantni TS je višekanalni signal).
[2] Dostupno na https://forecastingdata.org/
[3] Rezolucija se odnosi na brzinu uzorkovanja ulazne vremenske serije (npr. po satu, 10 minuta, 15 minuta, itd.)