Mga may-akda:
(1) Vijay Ekambaram, IBM Research;
(2) Arindam Jati, IBM Research;
(3) Nam H. Nguyen, IBM Research;
(4) Pankaj Dayama, IBM Research;
(5) Chandra Reddy, IBM Research;
(6) Wesley M. Gifford, IBM Research;
(7) Jayant Kalagnanam, IBM Research.
Tala ng editor: ito ay bahagi 1 ng 5 ng isang pag-aaral na nagdedetalye ng pagbuo ng isang maliit, mabilis na modelo ng AI na naghahatid ng mahusay na katumpakan. Basahin ang natitira sa ibaba.
3 TTM Workflows at 3.1 Pre-training Workflow
5 Mga Konklusyon at Gawain sa Hinaharap, at Mga Sanggunian
Ang malalaking pre-trained na modelo para sa zero/few-shot na pag-aaral ay mahusay sa mga domain ng wika at paningin ngunit nakakaharap ng mga hamon sa multivariate time series (TS) dahil sa magkakaibang kalikasan at kakulangan ng available na pampublikong data ng pre-training. Dahil dito, nagkaroon ng kamakailang pagsulong sa paggamit ng mga pre-trained large language models (LLMs) na may mga token adaptation para sa TS forecasting. Ang mga diskarteng ito ay gumagamit ng cross-domain transfer learning at nakakagulat na nagbubunga ng mga kahanga-hangang resulta. Gayunpaman, ang mga modelong ito ay karaniwang napakabagal at malaki (∼ bilyong mga parameter) at hindi isinasaalang-alang ang mga cross-channel na ugnayan. Upang matugunan ito, ipinakita namin ang Tiny Time Mixers (TTM), isang makabuluhang maliit na modelo batay sa magaan na arkitektura ng TSMixer. Minamarkahan ng TTM ang unang tagumpay sa pagbuo ng mabilis at maliliit na pangkalahatang pre-trained na mga modelo (≤1M parameter), na eksklusibong sinanay sa mga pampublikong TS dataset, na may epektibong mga kakayahan sa paglilipat sa pag-aaral para sa pagtataya. Upang matugunan ang pagiging kumplikado ng pre-training sa maraming dataset na may iba't ibang temporal na resolution, ipinakilala namin ang ilang mga pagpapahusay ng nobela gaya ng adaptive patching, pagpapalaki ng dataset sa pamamagitan ng downsampling, at resolution prefix tuning. Bukod dito, gumagamit kami ng multi-level na diskarte sa pagmomodelo upang epektibong magmodelo ng mga channel correlations at maglagay ng mga exogenous na signal sa panahon ng fine-tuning, isang mahalagang kakayahan na kulang sa mga kasalukuyang benchmark. Nagpapakita ang TTM ng makabuluhang mga nadagdag sa katumpakan (12-38%) sa mga sikat na benchmark sa ilang/zero-shot na pagtataya. Lubos din nitong binabawasan ang mga pangangailangan sa pag-compute kumpara sa mga pamamaraan ng LLM-TS, na may 14X na pagbawas sa mga natututunang parameter, 106X na mas kaunting kabuuang mga parameter, at malaking pagbawas sa fine-tuning (65X) at inference time (54X). Sa katunayan, ang zero-shot ng TTM ay kadalasang lumalampas sa mga resulta ng ilang-shot sa maraming sikat na benchmark, na nagha-highlight sa bisa ng aming diskarte. Available ang mga modelo at source code sa https://huggingface.co/ibm/TTM
Ang pagtataya ng multivariate time series (TS) ay nangangailangan ng paghula sa mga halaga sa hinaharap para sa maraming magkakaugnay na serye ng oras batay sa kanilang dating data. Malaki ang pagsulong ng field na ito, na nag-aaplay ng mga pamamaraan ng statistical at machine learning (ML) [Hyndman at Athanasopoulos, 2021] sa mga domain tulad ng lagay ng panahon, trapiko, retail, at enerhiya. Sa pangkalahatan, ang bawat serye ng oras ay kumakatawan sa isang variable o channel[1]. Sa ilang partikular na application, ang mga variable na hindi hulaan, na nakategorya bilang nakokontrol at hindi nakokontrol na mga panlabas na salik, ay nakakaapekto sa mga variable na mahulaan. Tinatawag naming exogenous ang mga di-forecasting variable na ito, at ang mga variable na nangangailangan ng forecast bilang mga target na variable.
Kaugnay na Trabaho: Ang mga kamakailang pag-unlad sa multivariate na pagtataya ay minarkahan ng pagdating ng mga diskarte na nakabatay sa transformer [Vaswani et al., 2017], na inihalimbawa ng mga modelo tulad ng PatchTST [Nie et al., 2023], Autoformer [Wu et al., 2021], Informer [Z 2021], Informer [Z 2], at FEDhou. et al., 2022]. Ang mga modelong ito ay nagpakita ng mga kapansin-pansing pagpapabuti sa tradisyonal na istatistika at ML na pamamaraan. Higit pa rito, ang mga arkitektura batay sa MLPMixer [Tolstikhin et al., 2021], tulad ng TSMixer [Ekambaram et al., 2023], ay lumitaw bilang mahusay na mga alternatibong transpormer, na ipinagmamalaki ang 2-3X na pinababang pag-compute at mga kinakailangan sa memory na walang kompromiso sa katumpakan kumpara sa kanilang mga katapat na transformer. Gayunpaman, wala sa mga advanced na diskarte na ito ang matagumpay na nagpakita ng kakayahang lumikha ng mga pangkalahatang pre-trained na modelo na maaaring matagumpay na ilipat ang pag-aaral sa hindi nakikitang target na TS dataset, sa katulad na paraan tulad ng popular na nasaksihan sa NLP at mga gawain sa paningin. Napakahirap nito sa TS domain dahil sa magkakaibang katangian ng mga dataset sa mga application at ang limitadong pampublikong availability ng TS data para sa pre-training. Mayroong umiiral na self-supervised pre-training TS approach gamit ang masked modeling at contrastive learning techniques gaya ng SimMTM [Dong et al., 2023] at TF-C [Zhang et al., 2022] na nag-aalok ng transfer learning sa pagitan ng dalawang dataset kapag maingat na pinili batay sa mga katangian ng dataset. Gayunpaman, nabigo silang magbigay ng mga kakayahan sa pag-aaral ng unibersal na paglipat sa mga dataset. Dahil dito, nagkaroon ng kamakailang lumalagong trend na gumamit ng mga pre-trained large language models (LLMs) para sa TS forecasting, na tinatrato ito bilang isang cross-domain transfer learning task. Ang mga unibersal na cross-transfer approach na ito, partikular ang mga kamakailang gawa tulad ng LLMTime [Gruver et al., 2023] at GPT4TS [Zhou et al., 2023] ay nagbubunga ng mga magagandang resulta sa iilan/zero-shot na mga diskarte sa pagtataya. Ang mga modelong ito ay naka-bootstrap mula sa GPT-2/3 o LLAMA-2 na may angkop na mga diskarte sa tokenization upang umangkop sa mga domain ng time-series.
Gayunpaman, ang mga diskarteng ito na nakabase sa LLM na TS ay hindi tahasang pinangangasiwaan ang mga channel correlations at exogenous na suporta sa konteksto ng multivariate na pagtataya. Higit pa rito, ang malalaking modelong ito, na may bilyun-bilyong parameter, ay humihingi ng makabuluhang computational resources at runtime. Samakatuwid, sa papel na ito, nakatuon kami sa pagbuo ng mga pre-trained na modelo mula sa simula gamit lamang ang data ng TS. Hindi tulad ng wika, na mayroong maraming pampublikong pre-training data sa terabytes, ang data ng time-series ay medyo kakaunti, napaka-iba't iba at limitado sa publiko. Ang kakulangan nito ay humahantong sa overfitting kapag nag-pre-training ng "malalaki" na mga modelo lamang sa data ng timeseries. Nag-uudyok ito ng tanong: Maaari bang magbigay ng mas mahusay na zero/few-shot na katumpakan ng pagtataya ang mas maliliit na modelo sa limitadong pampublikong magkakaibang TS dataset? Nakakagulat, ang sagot ay oo! Patungo dito, iminumungkahi namin ang Multi-level Tiny Time Mixers (TTM), isang makabuluhang mas maliit na modelo (≤1M na mga parameter) batay sa magaan na arkitektura ng TSMixer, na eksklusibong sinanay sa magkakaibang TS corpora para sa epektibong zero/fewshot multivariate TS forecasting sa pamamagitan ng transfer learning.
Sa partikular, ang TTM ay pre-trained gamit ang maramihang mga pampublikong dataset (∼ 244M sample) mula sa Monash data repository [2] [Godahewa et al., 2021]). Tandaan na ang mga dataset ay nagpapakita ng malaking pagkakaiba-iba sa mga tuntunin ng mga katangian, tulad ng iba't ibang domain, temporal na resolusyon[3] (mula sa pangalawa hanggang sa araw-araw), haba, at bilang ng mga channel. Ang paunang pagsasanay sa naturang mga heterogenous na dataset ay hindi maaaring pangasiwaan nang direkta ng TSMixer o mga kasalukuyang modelong state-of-the-art (SOTA). Samakatuwid, iminumungkahi ng TTM ang mga sumusunod na pagpapahusay sa arkitektura ng TSMixer: (i) Adaptive Patching sa mga layer, isinasaalang-alang ang iba't ibang kaangkupan ng mga haba ng patch para sa iba't ibang dataset, (ii) Dataset Augmentation sa pamamagitan ng Downsampling upang mapataas ang saklaw at mga sample sa iba't ibang mga resolution, (iii) Resolution Prefix Tuning sa tahasang pag-embed ng unang resolution ng impormasyon ng patch, facilita na resolution ng patch. kapaki-pakinabang sa mga senaryo na may maikling haba ng kasaysayan. Bukod dito, ang aming diskarte ay gumagamit ng multi-level na pagmomodelo, kung saan ang mga TTM ay unang sinanay sa isang channel-independent na paraan at pagkatapos ay walang putol na isinasama ang paghahalo ng channel sa panahon ng fine-tuning upang imodelo ang target na data-specific na channel-correlations at exogenous infusion
Sa ibaba, binabalangkas namin ang mga pangunahing kontribusyon ng papel:
• Sa gitna ng paglaganap ng malalaking pre-trained na modelo na nangangailangan ng makabuluhang pag-compute at oras ng pagsasanay (sa mga linggo), ang aming trabaho ang unang nagpapakita ng pagiging epektibo ng pagbuo ng Fast and Tiny Pre-trained na mga modelo (≤1M parameters) na eksklusibong sinanay sa mga Public TS dataset sa isang iglap na ilang oras lang (4-8 oras, 6 A100 GPU). Matagumpay na naipapakita ng TTM ang paglilipat ng pag-aaral sa magkakaibang, hindi nakikitang mga target na dataset para sa zero/few-shot na pagtataya, na tinutugunan ang mga isyu sa kakapusan ng data na laganap sa serye ng panahon.
• Ang paunang pagsasanay sa magkakaibang mga multi-resolution na dataset ay hindi mabisang pangasiwaan ng TSMixer o iba pang mga modelo ng SOTA. Samakatuwid, nagmumungkahi kami ng iba't ibang mga pagpapahusay sa arkitektura at pagsasanay , tulad ng adaptive patching, pagpapalaki ng data sa pamamagitan ng downsampling, at (isang opsyonal) resolution na pag-tune ng prefix para sa matatag na pre-training.
• Gumagamit ang TTM ng isang multi-level na diskarte sa pagmomodelo upang tahasang magmodelo ng mga channel-correlations, at isinasama ang mga exogenous na signal - isang napakahalagang kakayahan na kulang sa mga diskarte sa TS na nakabase sa LLM.
• Sa malawak na pagsusuri sa 11 dataset, ang TTM ay nagpapakita ng makabuluhang mga nadagdag sa katumpakan sa mga sikat na benchmark (12- 38% sa ilang/zero-shot na pagtataya). Lubos din nitong binabawasan ang mga pangangailangan sa pag-compute kumpara sa mga pamamaraan ng LLM-TS, na may 14X na pagbawas sa mga natututunang parameter, 106X na mas kaunting kabuuang parameter, at malaking pagbawas sa finetuning (65X), inference time (54X), at paggamit ng memory (27X). • Ang mga zero-shot na resulta ng TTM ay kadalasang nahihigitan ang ilang-shot na resulta ng maraming SOTA approach, na nagbibigay-diin sa pagiging epektibo ng aming diskarte.
Ang papel na ito ay makukuha sa arxiv sa ilalim ng CC BY-NC-ND 4.0 DEED na lisensya.
[1] Ang "Channel" ay tumutukoy sa indibidwal na serye ng oras sa multivariate na data (ibig sabihin, ang multivariate na TS ay isang multi-channel na signal).
[2] Maa-access sa https://forecastingdata.org/
[3] Ang Resolution ay tumutukoy sa sampling rate ng input time series (hal., oras-oras, 10 minuto, 15 minuto, atbp.)