paint-brush
Истражувачите на IBM создадоа модел на мини вештачка интелигенција што ја предвидува иднинатаод страна на@fewshot
Нова историја

Истражувачите на IBM создадоа модел на мини вештачка интелигенција што ја предвидува иднината

од страна на The FewShot Prompting Publication 6m2025/02/21
Read on Terminal Reader

Премногу долго; Да чита

Истражувачите развија практична, ефикасна алтернатива на масивните модели на вештачка интелигенција за предвидување временски серии.
featured image - Истражувачите на IBM создадоа модел на мини вештачка интелигенција што ја предвидува иднината
The FewShot Prompting Publication  HackerNoon profile picture
0-item

Автори:

(1) Виџеј Екамбарам, IBM Research;

(2) Ариндам Јати, IBM Research;

(3) Нам Х. Нгујен, IBM Research;

(4) Панкај Дајама, IBM Research;

(5) Чандра Реди, IBM Research;

(6) Весли М. Гифорд, IBM Research;

(7) Jayant Kalagnanam, IBM Research.

Забелешка на уредникот: ова е дел 1 од 5 од студијата која детално го објаснува развојот на мал, брз модел на вештачка интелигенција што дава одлична прецизност. Останатото прочитајте го подолу.

Табела со врски

Апстракт

Големите претходно обучени модели за учење со нула/малку снимки се одлични во доменот на јазикот и видот, но наидуваат на предизвици во повеќеваријантните временски серии (TS) поради разновидната природа и недостатокот на јавно достапни податоци за пред-обука. Следствено, има неодамнешен наплив на користење на претходно обучени големи јазични модели (LLM) со токени адаптации за TS предвидување. Овие пристапи користат учење за пренос на меѓудомени и изненадувачки даваат импресивни резултати. Сепак, овие модели обично се многу бавни и големи (~ милијарди параметри) и не ги земаат предвид меѓуканалните корелации. За да го решиме ова, ги претставуваме Tiny Time Mixers (TTM), значително мал модел базиран на лесната архитектура TSMixer. TTM го означува првиот успех во развојот на брзи и мали општи претходно обучени модели (≤1M параметри), исклучиво обучени за јавни TS сетови на податоци, со ефективни способности за учење на пренос за предвидување. За да се справиме со сложеноста на пред-тренингот на повеќе збирки на податоци со различни временски резолуции, воведуваме неколку нови подобрувања, како што се адаптивно поправање, зголемување на податоци преку намалување на примерокот и подесување на префиксот на резолуцијата. Покрај тоа, ние користиме стратегија за моделирање на повеќе нивоа за ефикасно да ги моделираме корелациите на каналите и да внесеме егзогени сигнали за време на фино подесување, клучна способност што недостасува во постоечките одредници. TTM покажува значителни добивки во прецизноста (12-38%) во однос на популарните одредници во прогнозирањето со неколку/нула снимки. Исто така, драстично ги намалува потребите за пресметување во споредба со методите LLM-TS, со намалување на параметрите за учење за 14x, 106x помалку вкупни параметри и значителни намалувања во дотерувањето (65X) и времето за заклучување (54X). Всушност, нула-шутот на TTM често ги надминува резултатите од неколку снимки во многу популарни репери, нагласувајќи ја ефикасноста на нашиот пристап. Моделите и изворниот код се достапни на https://huggingface.co/ibm/TTM

1 Вовед

Прогнозирањето на повеќеваријантните временски серии (TS) повлекува предвидување на идните вредности за повеќе меѓусебно поврзани временски серии врз основа на нивните историски податоци. Ова поле значително напредна, применувајќи методи на статистичко и машинско учење (ML) [Hyndman и Athanasopoulos, 2021] низ домени како што се времето, сообраќајот, малопродажбата и енергијата. Општо земено, секоја временска серија претставува променлива или канал[1]. Во одредени апликации, променливите кои не се предвидуваат, категоризирани како контролирани и неконтролирани надворешни фактори, влијаат на променливите за прогнозирање. Овие променливи кои не се предвидуваат ги означуваме како егзогени, а варијаблите кои бараат прогноза како целни променливи.


Поврзана работа: Неодамнешните достигнувања во мултиваријалното предвидување се обележани со доаѓањето на трансформаторот [Васвани и др., 2017] пристапи, прикажани со модели како PatchTst [Nie et al., 2023], AutoFormer [Wu et al., 2021], информаторот [Zhou et al., 2021], и FEDFormer [Zhou et al., 2022]. Овие модели покажаа забележителни подобрувања во однос на традиционалните статистички и ML методи. Понатаму, архитектурите базирани на MLPMixer [Tolstikhin et al., 2021], како што е TSMixer [Ekambaram et al., 2023], се појавија како ефикасни алтернативи на трансформаторот, со 2-3 пати намалени барања за пресметување и меморија без компромис за прецизност во споредба со нивните колеги од трансформаторот. Сепак, ниту еден од овие напредни пристапи не ја покажа успешно способноста да се создадат општи претходно обучени модели кои можат успешно да го пренесат учењето на невидена целна TS база на податоци, на сличен начин како што популарно се гледа во задачите за НЛП и визија. Ова е многу предизвикувачки во доменот на ТС поради разновидната природа на збирките на податоци низ апликациите и ограничената јавна достапност на податоците од ТС за предобука. Постојат само-надгледувани TS пристапи за пред-обука кои користат маскирани техники за моделирање и контрастно учење, како што се SimMTM [Dong et al., 2023] и TF-C [Zhang et al., 2022] кои нудат пренос на учење помеѓу две збирки на податоци кога се внимателно избрани врз основа на својствата на податоци. Сепак, тие не успеваат да обезбедат универзални преносни способности за учење низ сетови на податоци. Следствено, има неодамнешен растечки тренд да се користат претходно обучени големи јазични модели (LLMs) за прогнозирање на ТС, третирајќи го како задача за учење преку пренос на домени. Овие универзални пристапи за вкрстени трансфери, особено неодамнешните дела како што се LLMTime [Gruver et al., 2023] и GPT4TS [Zhou et al., 2023] даваат ветувачки резултати во пристапите за прогнозирање со неколку/нула снимки. Овие модели се подигнати од GPT-2/3 или LLAMA-2 со соодветни стратегии за токенизација за да се прилагодат на домени со временски серии.


Сепак, овие пристапи за ТС базирани на LLM не се справуваат експлицитно со корелации на канали и егзогена поддршка во контекст на повеќеваријантно предвидување. Покрај тоа, овие големи модели, со милијарди параметри, бараат значителни пресметковни ресурси и време на работа. Оттука, во овој труд, ние се фокусираме на изградба на претходно обучени модели од нула исклучиво користејќи TS податоци. За разлика од јазикот, кој има изобилство јавни податоци за пред-тренинг во терабајти, податоците од временските серии се релативно ретки, многу разновидни и јавно ограничени. Неговиот недостиг води до преоптоварување кога се предобучуваат „големите“ модели само на податоци од временските серии. Ова го поттикнува прашањето: Дали помалите модели претходно обучени чисто на ограничени јавни разновидни збирки на податоци за TS да дадат подобра точност на прогнозирање нула/малку снимки? Изненадувачки, одговорот е да! Во насока на ова, предлагаме повеќе нивоа Tiny Time Mixers (TTM), значително помал модел (≤1M параметри) заснован на лесната TSMixer архитектура, ексклузивно обучени на различни TS корпуси за ефективно нула/малку снимки повеќеваријантно TS предвидување преку учење на пренос.


Особено, TTM е претходно обучен со користење на повеќе јавни збирки на податоци (~ 244 милиони примероци) од складиштето на податоци на Monash[2] [Godahewa et al., 2021]. Забележете дека збирките на податоци покажуваат значителна разновидност во однос на карактеристиките, како што се различните домени, временската резолуција[3] (се протега од секунда до дневно), должината и бројот на канали. TSMixer или постоечките најсовремени модели (SOTA) не може директно да се справи со претобука за такви хетерогени збирки на податоци. Оттука, TTM ги предлага следните подобрувања на архитектурата на TSMixer: (i) Приспособливо закрпи низ слоевите, земајќи ја предвид разновидна соодветност на должини на закрпи за различни збирки на податоци, (ii) Зголемување на збирката на податоци преку намалување на примероци за да се зголеми покриеноста и примероците низ различни резолуции, (iii) Резолуција Префикс Подесување на првата резолуција, олеснување на експлицитна резолуција на моделот. особено корисни во сценарија со кратка историја. Покрај тоа, нашиот пристап го користи моделирањето на повеќе нивоа, каде што TTMs прво се претходно обучени на начин независен од каналот, а потоа беспрекорно го интегрираат мешањето на каналите за време на дотерувањето за да се моделираат корелации на канали специфични за целните податоци и егзогена инфузија


Подолу, ги прикажуваме клучните придонеси на трудот:


• Во услови на распространетост на големи претходно обучени модели кои бараат значително време за пресметување и обука (во недели), нашата работа е прва што ја покажа ефикасноста на градењето на Брзи и мали претходно обучени модели (≤1M параметри) исклучиво обучени на збирки на податоци на Public TS во блиц од само неколку часа (4-8 часа, 6 A100 GPU). TTM успешно го демонстрира учењето за пренос на разновидни, невидени целни групи на податоци за прогнозирање нула/малку снимки, решавајќи ги проблемите со недостигот на податоци распространети во временските серии.


• TSMixer или други SOTA модели не можат ефикасно да се справуваат со претобука за хетерогени збирки на податоци со повеќе резолуција. Оттука, предлагаме различни архитектонски подобрувања и подобрувања за обука , како што се приспособливо поправање, зголемување на податоците преку намалување на примероците и (опционално) подесување на префиксот на резолуција за робустен пред-тренинг.


• TTM користи стратегија за моделирање на повеќе нивоа за експлицитно моделирање на корелации на канали и инкорпорира егзогени сигнали - клучна способност што недостасува во пристапите за ТС базирани на LLM.


• Со опсежна евалуација на 11 збирки на податоци, TTM покажува значителни придобивки во прецизноста во однос на популарните одредници (12-38% во прогнозирање со неколку/нула снимки). Исто така, драстично ги намалува потребите за пресметување во споредба со методите LLM-TS, со намалување на параметрите за учење за 14x, 106x помалку вкупни параметри и значителни намалувања во дотерувањето (65X), времето на заклучување (54X) и користењето на меморијата (27X). • Резултатите од нула снимки на TTM често ги надминуваат резултатите од неколку снимки на многу SOTA пристапи, нагласувајќи ја ефективноста на нашиот пристап.


Овој труд е достапен на arxiv под лиценца CC BY-NC-ND 4.0 DEED.


[1] „Канал“ се однесува на поединечните временски серии во повеќеваријантните податоци (т.е. мултиваријатниот TS е повеќеканален сигнал).


[2] Достапно на https://forecastingdata.org/


[3] Резолуцијата се однесува на брзината на земање примероци од влезните временски серии (на пр. час, 10 минути, 15 минути, итн.)

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО...