लेखक:
(1) विजय एकंबरम, आईबीएम रिसर्च;
(2) अरिंदम जाति, आईबीएम रिसर्च;
(3) नाम एच. गुयेन, आईबीएम रिसर्च;
(4) पंकज दयामा, आईबीएम रिसर्च;
(5) चंद्र रेड्डी, आईबीएम रिसर्च;
(6) वेस्ले एम. गिफर्ड, आईबीएम रिसर्च;
(7) जयंत कलगनम, आईबीएम रिसर्च।
संपादक का नोट: यह एक छोटे, तेज़ एआई मॉडल के विकास का विवरण देने वाले अध्ययन का 5 में से 1 भाग है जो उत्कृष्ट सटीकता प्रदान करता है। बाकी नीचे पढ़ें।
3 टीटीएम वर्कफ़्लो और 3.1 प्री-ट्रेनिंग वर्कफ़्लो
5 निष्कर्ष और भविष्य के कार्य, और संदर्भ
जीरो/फ्यू-शॉट लर्निंग के लिए बड़े प्री-ट्रेन्ड मॉडल भाषा और विज़न डोमेन में उत्कृष्ट हैं, लेकिन सार्वजनिक रूप से उपलब्ध प्री-ट्रेन्ड डेटा की विविधतापूर्ण प्रकृति और कमी के कारण मल्टीवेरिएट टाइम सीरीज़ (TS) में चुनौतियों का सामना करते हैं। परिणामस्वरूप, TS पूर्वानुमान के लिए टोकन अनुकूलन के साथ प्री-ट्रेन्ड बड़े भाषा मॉडल (LLM) का उपयोग करने में हाल ही में उछाल आया है। ये दृष्टिकोण क्रॉस-डोमेन ट्रांसफ़र लर्निंग का उपयोग करते हैं और आश्चर्यजनक रूप से प्रभावशाली परिणाम देते हैं। हालाँकि, ये मॉडल आमतौर पर बहुत धीमे और बड़े (∼बिलियन पैरामीटर) होते हैं और क्रॉस-चैनल सहसंबंधों पर विचार नहीं करते हैं। इसे संबोधित करने के लिए, हम टिनी टाइम मिक्सर (TTM) प्रस्तुत करते हैं, जो हल्के TSMixer आर्किटेक्चर पर आधारित एक महत्वपूर्ण रूप से छोटा मॉडल है। TTM तेज़ और छोटे सामान्य प्री-ट्रेन्ड मॉडल (≤1M पैरामीटर) विकसित करने में पहली सफलता को चिह्नित करता है, जो विशेष रूप से सार्वजनिक TS डेटासेट पर प्रशिक्षित होते हैं, जिसमें पूर्वानुमान के लिए प्रभावी ट्रांसफ़र लर्निंग क्षमताएँ होती हैं। विभिन्न टेम्पोरल रिज़ॉल्यूशन वाले कई डेटासेट पर प्री-ट्रेनिंग की जटिलता से निपटने के लिए, हम कई नए संवर्द्धन पेश करते हैं जैसे कि अनुकूली पैचिंग, डाउनसैंपलिंग के माध्यम से डेटासेट वृद्धि और रिज़ॉल्यूशन प्रीफ़िक्स ट्यूनिंग। इसके अलावा, हम चैनल सहसंबंधों को प्रभावी ढंग से मॉडल करने और फ़ाइन-ट्यूनिंग के दौरान बहिर्जात संकेतों को शामिल करने के लिए एक बहु-स्तरीय मॉडलिंग रणनीति का उपयोग करते हैं, जो मौजूदा बेंचमार्क में कमी वाली एक महत्वपूर्ण क्षमता है। TTM कुछ/शून्य-शॉट पूर्वानुमान में लोकप्रिय बेंचमार्क पर महत्वपूर्ण सटीकता लाभ (12-38%) दिखाता है। यह LLM-TS विधियों की तुलना में गणना की ज़रूरतों को भी काफी कम कर देता है, जिसमें सीखने योग्य मापदंडों में 14 गुना कटौती, कुल मापदंडों में 106 गुना कमी और फ़ाइन-ट्यूनिंग (65 गुना) और अनुमान समय (54 गुना) में पर्याप्त कमी होती है। वास्तव में, TTM का शून्य-शॉट अक्सर कई लोकप्रिय बेंचमार्क में कुछ-शॉट परिणामों को पार कर जाता है, जो हमारे दृष्टिकोण की प्रभावकारिता को उजागर करता है। मॉडल और स्रोत कोड https://huggingface.co/ibm/TTM पर उपलब्ध हैं
बहुभिन्नरूपी समय श्रृंखला (टीएस) पूर्वानुमान में उनके ऐतिहासिक डेटा के आधार पर कई परस्पर संबंधित समय श्रृंखलाओं के लिए भविष्य के मूल्यों की भविष्यवाणी करना शामिल है। यह क्षेत्र मौसम, यातायात, खुदरा और ऊर्जा जैसे डोमेन में सांख्यिकीय और मशीन लर्निंग (एमएल) विधियों [हिंडमैन और एथानासोपोलोस, 2021] को लागू करते हुए काफी आगे बढ़ गया है। सामान्य तौर पर, प्रत्येक समय श्रृंखला एक चर या चैनल का प्रतिनिधित्व करती है[1]। कुछ अनुप्रयोगों में, गैर-पूर्वानुमान चर, जिन्हें नियंत्रणीय और अनियंत्रित बाहरी कारकों के रूप में वर्गीकृत किया जाता है, पूर्वानुमान के चर को प्रभावित करते हैं। हम इन गैर-पूर्वानुमान चर को बहिर्जात कहते हैं, और पूर्वानुमान की आवश्यकता वाले चर को लक्ष्य चर कहते हैं।
संबंधित कार्य: मल्टीवेरिएट पूर्वानुमान में हाल ही में हुई प्रगति को ट्रांसफॉर्मर-आधारित [वासवानी एट अल., 2017] दृष्टिकोणों के आगमन से चिह्नित किया गया है, जिसका उदाहरण पैचटीएसटी [नी एट अल., 2023], ऑटोफॉर्मर [वू एट अल., 2021], इन्फॉर्मर [झोउ एट अल., 2021] और एफईडीफॉर्मर [झोउ एट अल., 2022] जैसे मॉडल हैं। इन मॉडलों ने पारंपरिक सांख्यिकीय और एमएल विधियों पर उल्लेखनीय सुधार प्रदर्शित किए हैं। इसके अलावा, MLPMixer [टॉलस्टिखिन एट अल., 2021] पर आधारित आर्किटेक्चर, जैसे कि TSMixer [एकंबरम एट अल., 2023], अपने ट्रांसफॉर्मर समकक्षों की तुलना में बिना किसी सटीकता समझौते के 2-3X कम कंप्यूट और मेमोरी आवश्यकताओं का दावा करते हुए कुशल ट्रांसफॉर्मर विकल्प के रूप में उभरे हैं। हालांकि, इनमें से किसी भी उन्नत दृष्टिकोण ने सामान्य पूर्व प्रशिक्षित मॉडल बनाने की क्षमता का सफलतापूर्वक प्रदर्शन नहीं किया है जो सीखने को अदृश्य लक्ष्य टीएस डेटासेट में सफलतापूर्वक स्थानांतरित कर सके, उसी तरह जैसा कि एनएलपी और विज़न कार्यों में लोकप्रिय रूप से देखा जाता है। अनुप्रयोगों में डेटासेट की विविध प्रकृति और पूर्व प्रशिक्षण के लिए टीएस डेटा की सीमित सार्वजनिक उपलब्धता के कारण टीएस डोमेन में यह बहुत चुनौतीपूर्ण है। मास्क्ड मॉडलिंग और सिमएमटीएम [डोंग एट अल।, 2023] और टीएफ-सी [झांग एट अल।, 2022] जैसी कंट्रास्टिव लर्निंग तकनीकों का उपयोग करके मौजूदा स्व-पर्यवेक्षित पूर्व प्रशिक्षण टीएस दृष्टिकोण हैं जो डेटासेट गुणों के आधार पर सावधानीपूर्वक चयन किए जाने पर दो डेटासेट के बीच ट्रांसफर लर्निंग की पेशकश करते हैं। हालांकि, वे डेटासेट में सार्वभौमिक ट्रांसफर लर्निंग क्षमताएं प्रदान करने में विफल रहते हैं। ये सार्वभौमिक क्रॉस-ट्रांसफर दृष्टिकोण, विशेष रूप से हाल ही में किए गए कार्य जैसे कि एलएलएमटाइम [ग्रुवर एट अल., 2023] और जीपीटी4टीएस [झोउ एट अल., 2023] कुछ/शून्य-शॉट पूर्वानुमान दृष्टिकोणों में आशाजनक परिणाम देते हैं। इन मॉडलों को समय-श्रृंखला डोमेन के अनुकूल होने के लिए उपयुक्त टोकनाइजेशन रणनीतियों के साथ GPT-2/3 या LLAMA-2 से बूटस्ट्रैप किया गया है।
हालाँकि, ये LLM आधारित TS दृष्टिकोण बहुभिन्नरूपी पूर्वानुमान के संदर्भ में चैनल सहसंबंधों और बहिर्जात समर्थन को स्पष्ट रूप से संभाल नहीं पाते हैं। इसके अलावा, अरबों मापदंडों वाले ये बड़े मॉडल महत्वपूर्ण कम्प्यूटेशनल संसाधनों और रनटाइम की मांग करते हैं। इसलिए, इस पेपर में, हम केवल TS डेटा का उपयोग करके स्क्रैच से प्री-ट्रेन्ड मॉडल बनाने पर ध्यान केंद्रित करते हैं। भाषा के विपरीत, जिसमें टेराबाइट्स में प्रचुर मात्रा में सार्वजनिक प्री-ट्रेनिंग डेटा होता है, समय-श्रृंखला डेटा अपेक्षाकृत दुर्लभ, बहुत विविध और सार्वजनिक रूप से सीमित होता है। इसकी कमी से केवल समय-श्रृंखला डेटा पर "बड़े" मॉडल को प्री-ट्रेन करने पर ओवरफिटिंग होती है। यह एक प्रश्न को जन्म देता है: क्या सीमित सार्वजनिक विविध TS डेटासेट पर पूरी तरह से प्री-ट्रेन्ड छोटे मॉडल बेहतर शून्य/कुछ-शॉट पूर्वानुमान सटीकता दे सकते हैं? आश्चर्यजनक रूप से, इसका उत्तर हाँ है! इसके लिए, हम मल्टी-लेवल टिनी टाइम मिक्सर्स (TTM) का प्रस्ताव करते हैं, जो हल्के TSMixer आर्किटेक्चर पर आधारित एक काफी छोटा मॉडल (≤1M पैरामीटर) है, जो ट्रांसफर लर्निंग के माध्यम से प्रभावी शून्य/फ्यूशॉट मल्टीवेरिएट TS पूर्वानुमान के लिए विविध TS कॉर्पोरा पर विशेष रूप से प्रशिक्षित है।
विशेष रूप से, टीटीएम को मोनाश डेटा रिपॉजिटरी [2] [गोडाहेवा एट अल., 2021]) से कई सार्वजनिक डेटासेट (∼ 244 मिलियन सैंपल) का उपयोग करके पूर्व-प्रशिक्षित किया गया है। ध्यान दें कि डेटासेट विशेषताओं के संदर्भ में काफी विविधता प्रदर्शित करते हैं, जैसे कि विभिन्न डोमेन, टेम्पोरल रिज़ॉल्यूशन [3] (सेकंड से लेकर दैनिक तक फैले हुए), लंबाई और चैनलों की संख्या। ऐसे विषम डेटासेट पर प्रीट्रेनिंग को सीधे टीएसमिक्सर या मौजूदा अत्याधुनिक (एसओटीए) मॉडल द्वारा नियंत्रित नहीं किया जा सकता है। इसलिए, टीटीएम टीएसमिक्सर आर्किटेक्चर में निम्नलिखित संवर्द्धन का प्रस्ताव करता है: (i) विभिन्न डेटासेट के लिए पैच लंबाई की विभिन्न उपयुक्तता पर विचार करते हुए परतों में अनुकूली पैचिंग , (ii) विभिन्न रिज़ॉल्यूशन में कवरेज और सैंपल बढ़ाने के लिए डाउनसैंपलिंग के माध्यम से डेटासेट ऑग्मेंटेशन , इसके अलावा, हमारा दृष्टिकोण बहु-स्तरीय मॉडलिंग का लाभ उठाता है, जहां टीटीएम को पहले चैनल-स्वतंत्र तरीके से पूर्व-प्रशिक्षित किया जाता है और फिर लक्ष्य डेटा-विशिष्ट चैनल-सहसंबंधों और बहिर्जात जलसेक को मॉडल करने के लिए फाइन-ट्यूनिंग के दौरान चैनल मिश्रण को सहजता से एकीकृत किया जाता है।
नीचे, हम इस पेपर के प्रमुख योगदानों का उल्लेख कर रहे हैं:
• बड़े प्री-ट्रेन्ड मॉडल के प्रचलन के बीच, जिसमें महत्वपूर्ण गणना और प्रशिक्षण समय (सप्ताह में) की आवश्यकता होती है, हमारा काम केवल कुछ घंटों (4-8 घंटे, 6 A100 GPU) में पब्लिक TS डेटासेट पर विशेष रूप से प्रशिक्षित फास्ट और टिनी प्री-ट्रेन्ड मॉडल (≤1M पैरामीटर) बनाने की प्रभावकारिता को प्रदर्शित करने वाला पहला है। TTM समय श्रृंखला में प्रचलित डेटा की कमी के मुद्दों को संबोधित करते हुए, शून्य/कुछ-शॉट पूर्वानुमान के लिए विविध, अदृश्य लक्ष्य डेटासेट में स्थानांतरण सीखने को सफलतापूर्वक प्रदर्शित करता है।
• विषम बहु-रिज़ॉल्यूशन डेटासेट पर प्री-ट्रेनिंग को TSMixer या अन्य SOTA मॉडल द्वारा प्रभावी ढंग से नियंत्रित नहीं किया जा सकता है। इसलिए, हम विभिन्न आर्किटेक्चरल और प्रशिक्षण संवर्द्धन का प्रस्ताव करते हैं, जैसे कि अनुकूली पैचिंग, डाउनसैंपलिंग के माध्यम से डेटा वृद्धि, और मजबूत प्री-ट्रेनिंग के लिए (वैकल्पिक) रिज़ॉल्यूशन प्रीफ़िक्स ट्यूनिंग।
• टीटीएम चैनल-सहसंबंधों को स्पष्ट रूप से मॉडल करने के लिए बहु-स्तरीय मॉडलिंग रणनीति का उपयोग करता है, और बहिर्जात संकेतों को सम्मिलित करता है - एक महत्वपूर्ण क्षमता जो एलएलएम आधारित टीएस दृष्टिकोणों में कमी है।
• 11 डेटासेट पर व्यापक मूल्यांकन के साथ, TTM लोकप्रिय बेंचमार्क (कुछ/शून्य-शॉट पूर्वानुमान में 12-38%) की तुलना में महत्वपूर्ण सटीकता लाभ दिखाता है। यह LLM-TS विधियों की तुलना में गणना की ज़रूरतों को भी काफी हद तक कम करता है, जिसमें सीखने योग्य मापदंडों में 14 गुना कटौती, कुल मापदंडों में 106 गुना कमी, और फ़ाइनट्यूनिंग (65 गुना), अनुमान समय (54 गुना) और मेमोरी उपयोग (27 गुना) में पर्याप्त कमी होती है। • TTM के शून्य-शॉट परिणाम अक्सर कई SOTA दृष्टिकोणों के कुछ-शॉट परिणामों से बेहतर होते हैं, जो हमारे दृष्टिकोण की प्रभावशीलता को उजागर करता है।
यह पेपर CC BY-NC-ND 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] "चैनल" बहुभिन्नरूपी डेटा में व्यक्तिगत समय श्रृंखला को संदर्भित करता है (यानी, एक बहुभिन्नरूपी टीएस एक बहु-चैनल सिग्नल है)।
[2] https://forecastingdata.org/ पर उपलब्ध
[3] रिज़ॉल्यूशन इनपुट समय श्रृंखला (जैसे, प्रति घंटा, 10 मिनट, 15 मिनट, आदि) की नमूना दर को संदर्भित करता है।