paint-brush
आईबीएम शोधकर्ताओं ने भविष्य की भविष्यवाणी करने वाला मिनी एआई मॉडल बनायाद्वारा@fewshot
नया इतिहास

आईबीएम शोधकर्ताओं ने भविष्य की भविष्यवाणी करने वाला मिनी एआई मॉडल बनाया

द्वारा The FewShot Prompting Publication 6m2025/02/21
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने समय श्रृंखला पूर्वानुमान के लिए विशाल एआई मॉडल का एक व्यावहारिक, कुशल विकल्प विकसित किया है।
featured image - आईबीएम शोधकर्ताओं ने भविष्य की भविष्यवाणी करने वाला मिनी एआई मॉडल बनाया
The FewShot Prompting Publication  HackerNoon profile picture
0-item

लेखक:

(1) विजय एकंबरम, आईबीएम रिसर्च;

(2) अरिंदम जाति, आईबीएम रिसर्च;

(3) नाम एच. गुयेन, आईबीएम रिसर्च;

(4) पंकज दयामा, आईबीएम रिसर्च;

(5) चंद्र रेड्डी, आईबीएम रिसर्च;

(6) वेस्ले एम. गिफर्ड, आईबीएम रिसर्च;

(7) जयंत कलगनम, आईबीएम रिसर्च।

संपादक का नोट: यह एक छोटे, तेज़ एआई मॉडल के विकास का विवरण देने वाले अध्ययन का 5 में से 1 भाग है जो उत्कृष्ट सटीकता प्रदान करता है। बाकी नीचे पढ़ें।

लिंक की तालिका

अमूर्त

जीरो/फ्यू-शॉट लर्निंग के लिए बड़े प्री-ट्रेन्ड मॉडल भाषा और विज़न डोमेन में उत्कृष्ट हैं, लेकिन सार्वजनिक रूप से उपलब्ध प्री-ट्रेन्ड डेटा की विविधतापूर्ण प्रकृति और कमी के कारण मल्टीवेरिएट टाइम सीरीज़ (TS) में चुनौतियों का सामना करते हैं। परिणामस्वरूप, TS पूर्वानुमान के लिए टोकन अनुकूलन के साथ प्री-ट्रेन्ड बड़े भाषा मॉडल (LLM) का उपयोग करने में हाल ही में उछाल आया है। ये दृष्टिकोण क्रॉस-डोमेन ट्रांसफ़र लर्निंग का उपयोग करते हैं और आश्चर्यजनक रूप से प्रभावशाली परिणाम देते हैं। हालाँकि, ये मॉडल आमतौर पर बहुत धीमे और बड़े (∼बिलियन पैरामीटर) होते हैं और क्रॉस-चैनल सहसंबंधों पर विचार नहीं करते हैं। इसे संबोधित करने के लिए, हम टिनी टाइम मिक्सर (TTM) प्रस्तुत करते हैं, जो हल्के TSMixer आर्किटेक्चर पर आधारित एक महत्वपूर्ण रूप से छोटा मॉडल है। TTM तेज़ और छोटे सामान्य प्री-ट्रेन्ड मॉडल (≤1M पैरामीटर) विकसित करने में पहली सफलता को चिह्नित करता है, जो विशेष रूप से सार्वजनिक TS डेटासेट पर प्रशिक्षित होते हैं, जिसमें पूर्वानुमान के लिए प्रभावी ट्रांसफ़र लर्निंग क्षमताएँ होती हैं। विभिन्न टेम्पोरल रिज़ॉल्यूशन वाले कई डेटासेट पर प्री-ट्रेनिंग की जटिलता से निपटने के लिए, हम कई नए संवर्द्धन पेश करते हैं जैसे कि अनुकूली पैचिंग, डाउनसैंपलिंग के माध्यम से डेटासेट वृद्धि और रिज़ॉल्यूशन प्रीफ़िक्स ट्यूनिंग। इसके अलावा, हम चैनल सहसंबंधों को प्रभावी ढंग से मॉडल करने और फ़ाइन-ट्यूनिंग के दौरान बहिर्जात संकेतों को शामिल करने के लिए एक बहु-स्तरीय मॉडलिंग रणनीति का उपयोग करते हैं, जो मौजूदा बेंचमार्क में कमी वाली एक महत्वपूर्ण क्षमता है। TTM कुछ/शून्य-शॉट पूर्वानुमान में लोकप्रिय बेंचमार्क पर महत्वपूर्ण सटीकता लाभ (12-38%) दिखाता है। यह LLM-TS विधियों की तुलना में गणना की ज़रूरतों को भी काफी कम कर देता है, जिसमें सीखने योग्य मापदंडों में 14 गुना कटौती, कुल मापदंडों में 106 गुना कमी और फ़ाइन-ट्यूनिंग (65 गुना) और अनुमान समय (54 गुना) में पर्याप्त कमी होती है। वास्तव में, TTM का शून्य-शॉट अक्सर कई लोकप्रिय बेंचमार्क में कुछ-शॉट परिणामों को पार कर जाता है, जो हमारे दृष्टिकोण की प्रभावकारिता को उजागर करता है। मॉडल और स्रोत कोड https://huggingface.co/ibm/TTM पर उपलब्ध हैं

1 परिचय

बहुभिन्नरूपी समय श्रृंखला (टीएस) पूर्वानुमान में उनके ऐतिहासिक डेटा के आधार पर कई परस्पर संबंधित समय श्रृंखलाओं के लिए भविष्य के मूल्यों की भविष्यवाणी करना शामिल है। यह क्षेत्र मौसम, यातायात, खुदरा और ऊर्जा जैसे डोमेन में सांख्यिकीय और मशीन लर्निंग (एमएल) विधियों [हिंडमैन और एथानासोपोलोस, 2021] को लागू करते हुए काफी आगे बढ़ गया है। सामान्य तौर पर, प्रत्येक समय श्रृंखला एक चर या चैनल का प्रतिनिधित्व करती है[1]। कुछ अनुप्रयोगों में, गैर-पूर्वानुमान चर, जिन्हें नियंत्रणीय और अनियंत्रित बाहरी कारकों के रूप में वर्गीकृत किया जाता है, पूर्वानुमान के चर को प्रभावित करते हैं। हम इन गैर-पूर्वानुमान चर को बहिर्जात कहते हैं, और पूर्वानुमान की आवश्यकता वाले चर को लक्ष्य चर कहते हैं।


संबंधित कार्य: मल्टीवेरिएट पूर्वानुमान में हाल ही में हुई प्रगति को ट्रांसफॉर्मर-आधारित [वासवानी एट अल., 2017] दृष्टिकोणों के आगमन से चिह्नित किया गया है, जिसका उदाहरण पैचटीएसटी [नी एट अल., 2023], ऑटोफॉर्मर [वू एट अल., 2021], इन्फॉर्मर [झोउ एट अल., 2021] और एफईडीफॉर्मर [झोउ एट अल., 2022] जैसे मॉडल हैं। इन मॉडलों ने पारंपरिक सांख्यिकीय और एमएल विधियों पर उल्लेखनीय सुधार प्रदर्शित किए हैं। इसके अलावा, MLPMixer [टॉलस्टिखिन एट अल., 2021] पर आधारित आर्किटेक्चर, जैसे कि TSMixer [एकंबरम एट अल., 2023], अपने ट्रांसफॉर्मर समकक्षों की तुलना में बिना किसी सटीकता समझौते के 2-3X कम कंप्यूट और मेमोरी आवश्यकताओं का दावा करते हुए कुशल ट्रांसफॉर्मर विकल्प के रूप में उभरे हैं। हालांकि, इनमें से किसी भी उन्नत दृष्टिकोण ने सामान्य पूर्व प्रशिक्षित मॉडल बनाने की क्षमता का सफलतापूर्वक प्रदर्शन नहीं किया है जो सीखने को अदृश्य लक्ष्य टीएस डेटासेट में सफलतापूर्वक स्थानांतरित कर सके, उसी तरह जैसा कि एनएलपी और विज़न कार्यों में लोकप्रिय रूप से देखा जाता है। अनुप्रयोगों में डेटासेट की विविध प्रकृति और पूर्व प्रशिक्षण के लिए टीएस डेटा की सीमित सार्वजनिक उपलब्धता के कारण टीएस डोमेन में यह बहुत चुनौतीपूर्ण है। मास्क्ड मॉडलिंग और सिमएमटीएम [डोंग एट अल।, 2023] और टीएफ-सी [झांग एट अल।, 2022] जैसी कंट्रास्टिव लर्निंग तकनीकों का उपयोग करके मौजूदा स्व-पर्यवेक्षित पूर्व प्रशिक्षण टीएस दृष्टिकोण हैं जो डेटासेट गुणों के आधार पर सावधानीपूर्वक चयन किए जाने पर दो डेटासेट के बीच ट्रांसफर लर्निंग की पेशकश करते हैं। हालांकि, वे डेटासेट में सार्वभौमिक ट्रांसफर लर्निंग क्षमताएं प्रदान करने में विफल रहते हैं। ये सार्वभौमिक क्रॉस-ट्रांसफर दृष्टिकोण, विशेष रूप से हाल ही में किए गए कार्य जैसे कि एलएलएमटाइम [ग्रुवर एट अल., 2023] और जीपीटी4टीएस [झोउ एट अल., 2023] कुछ/शून्य-शॉट पूर्वानुमान दृष्टिकोणों में आशाजनक परिणाम देते हैं। इन मॉडलों को समय-श्रृंखला डोमेन के अनुकूल होने के लिए उपयुक्त टोकनाइजेशन रणनीतियों के साथ GPT-2/3 या LLAMA-2 से बूटस्ट्रैप किया गया है।


हालाँकि, ये LLM आधारित TS दृष्टिकोण बहुभिन्नरूपी पूर्वानुमान के संदर्भ में चैनल सहसंबंधों और बहिर्जात समर्थन को स्पष्ट रूप से संभाल नहीं पाते हैं। इसके अलावा, अरबों मापदंडों वाले ये बड़े मॉडल महत्वपूर्ण कम्प्यूटेशनल संसाधनों और रनटाइम की मांग करते हैं। इसलिए, इस पेपर में, हम केवल TS डेटा का उपयोग करके स्क्रैच से प्री-ट्रेन्ड मॉडल बनाने पर ध्यान केंद्रित करते हैं। भाषा के विपरीत, जिसमें टेराबाइट्स में प्रचुर मात्रा में सार्वजनिक प्री-ट्रेनिंग डेटा होता है, समय-श्रृंखला डेटा अपेक्षाकृत दुर्लभ, बहुत विविध और सार्वजनिक रूप से सीमित होता है। इसकी कमी से केवल समय-श्रृंखला डेटा पर "बड़े" मॉडल को प्री-ट्रेन करने पर ओवरफिटिंग होती है। यह एक प्रश्न को जन्म देता है: क्या सीमित सार्वजनिक विविध TS डेटासेट पर पूरी तरह से प्री-ट्रेन्ड छोटे मॉडल बेहतर शून्य/कुछ-शॉट पूर्वानुमान सटीकता दे सकते हैं? आश्चर्यजनक रूप से, इसका उत्तर हाँ है! इसके लिए, हम मल्टी-लेवल टिनी टाइम मिक्सर्स (TTM) का प्रस्ताव करते हैं, जो हल्के TSMixer आर्किटेक्चर पर आधारित एक काफी छोटा मॉडल (≤1M पैरामीटर) है, जो ट्रांसफर लर्निंग के माध्यम से प्रभावी शून्य/फ्यूशॉट मल्टीवेरिएट TS पूर्वानुमान के लिए विविध TS कॉर्पोरा पर विशेष रूप से प्रशिक्षित है।


विशेष रूप से, टीटीएम को मोनाश डेटा रिपॉजिटरी [2] [गोडाहेवा एट अल., 2021]) से कई सार्वजनिक डेटासेट (∼ 244 मिलियन सैंपल) का उपयोग करके पूर्व-प्रशिक्षित किया गया है। ध्यान दें कि डेटासेट विशेषताओं के संदर्भ में काफी विविधता प्रदर्शित करते हैं, जैसे कि विभिन्न डोमेन, टेम्पोरल रिज़ॉल्यूशन [3] (सेकंड से लेकर दैनिक तक फैले हुए), लंबाई और चैनलों की संख्या। ऐसे विषम डेटासेट पर प्रीट्रेनिंग को सीधे टीएसमिक्सर या मौजूदा अत्याधुनिक (एसओटीए) मॉडल द्वारा नियंत्रित नहीं किया जा सकता है। इसलिए, टीटीएम टीएसमिक्सर आर्किटेक्चर में निम्नलिखित संवर्द्धन का प्रस्ताव करता है: (i) विभिन्न डेटासेट के लिए पैच लंबाई की विभिन्न उपयुक्तता पर विचार करते हुए परतों में अनुकूली पैचिंग , (ii) विभिन्न रिज़ॉल्यूशन में कवरेज और सैंपल बढ़ाने के लिए डाउनसैंपलिंग के माध्यम से डेटासेट ऑग्मेंटेशन , इसके अलावा, हमारा दृष्टिकोण बहु-स्तरीय मॉडलिंग का लाभ उठाता है, जहां टीटीएम को पहले चैनल-स्वतंत्र तरीके से पूर्व-प्रशिक्षित किया जाता है और फिर लक्ष्य डेटा-विशिष्ट चैनल-सहसंबंधों और बहिर्जात जलसेक को मॉडल करने के लिए फाइन-ट्यूनिंग के दौरान चैनल मिश्रण को सहजता से एकीकृत किया जाता है।


नीचे, हम इस पेपर के प्रमुख योगदानों का उल्लेख कर रहे हैं:


• बड़े प्री-ट्रेन्ड मॉडल के प्रचलन के बीच, जिसमें महत्वपूर्ण गणना और प्रशिक्षण समय (सप्ताह में) की आवश्यकता होती है, हमारा काम केवल कुछ घंटों (4-8 घंटे, 6 A100 GPU) में पब्लिक TS डेटासेट पर विशेष रूप से प्रशिक्षित फास्ट और टिनी प्री-ट्रेन्ड मॉडल (≤1M पैरामीटर) बनाने की प्रभावकारिता को प्रदर्शित करने वाला पहला है। TTM समय श्रृंखला में प्रचलित डेटा की कमी के मुद्दों को संबोधित करते हुए, शून्य/कुछ-शॉट पूर्वानुमान के लिए विविध, अदृश्य लक्ष्य डेटासेट में स्थानांतरण सीखने को सफलतापूर्वक प्रदर्शित करता है।


• विषम बहु-रिज़ॉल्यूशन डेटासेट पर प्री-ट्रेनिंग को TSMixer या अन्य SOTA मॉडल द्वारा प्रभावी ढंग से नियंत्रित नहीं किया जा सकता है। इसलिए, हम विभिन्न आर्किटेक्चरल और प्रशिक्षण संवर्द्धन का प्रस्ताव करते हैं, जैसे कि अनुकूली पैचिंग, डाउनसैंपलिंग के माध्यम से डेटा वृद्धि, और मजबूत प्री-ट्रेनिंग के लिए (वैकल्पिक) रिज़ॉल्यूशन प्रीफ़िक्स ट्यूनिंग।


• टीटीएम चैनल-सहसंबंधों को स्पष्ट रूप से मॉडल करने के लिए बहु-स्तरीय मॉडलिंग रणनीति का उपयोग करता है, और बहिर्जात संकेतों को सम्मिलित करता है - एक महत्वपूर्ण क्षमता जो एलएलएम आधारित टीएस दृष्टिकोणों में कमी है।


• 11 डेटासेट पर व्यापक मूल्यांकन के साथ, TTM लोकप्रिय बेंचमार्क (कुछ/शून्य-शॉट पूर्वानुमान में 12-38%) की तुलना में महत्वपूर्ण सटीकता लाभ दिखाता है। यह LLM-TS विधियों की तुलना में गणना की ज़रूरतों को भी काफी हद तक कम करता है, जिसमें सीखने योग्य मापदंडों में 14 गुना कटौती, कुल मापदंडों में 106 गुना कमी, और फ़ाइनट्यूनिंग (65 गुना), अनुमान समय (54 गुना) और मेमोरी उपयोग (27 गुना) में पर्याप्त कमी होती है। • TTM के शून्य-शॉट परिणाम अक्सर कई SOTA दृष्टिकोणों के कुछ-शॉट परिणामों से बेहतर होते हैं, जो हमारे दृष्टिकोण की प्रभावशीलता को उजागर करता है।


यह पेपर CC BY-NC-ND 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] "चैनल" बहुभिन्नरूपी डेटा में व्यक्तिगत समय श्रृंखला को संदर्भित करता है (यानी, एक बहुभिन्नरूपी टीएस एक बहु-चैनल सिग्नल है)।


[2] https://forecastingdata.org/ पर उपलब्ध


[3] रिज़ॉल्यूशन इनपुट समय श्रृंखला (जैसे, प्रति घंटा, 10 मिनट, 15 मिनट, आदि) की नमूना दर को संदर्भित करता है।