1,300 रीडिंग

सबसे कम संभव इष्टतम समय जटिलता वाला ट्रांसफार्मर एल्गोरिदम

द्वारा Thomas Cherickal17m2024/05/26

बहुत लंबा; पढ़ने के लिए

ट्रांसफॉर्मर जैसे DPO, LoRa, आदि में कुछ अविश्वसनीय प्रगति हुई है। लेकिन बुनियादी ट्रांसफॉर्मर एल्गोरिदम में भी सुधार किया गया है! हम ट्रांसफॉर्मर को बिल्कुल नए स्तर पर प्रदर्शन करते हुए देखेंगे। इन खोजों की महत्ता को कम करके नहीं आंका जा सकता! यह क्रांतिकारी है।

featured image - सबसे कम संभव इष्टतम समय जटिलता वाला ट्रांसफार्मर एल्गोरिदम

अटेंशन, माम्बा, जाम्बा और xLSTM की तुलना

प्रस्ताव

हम इस लेख में केवल समय जटिलता के बारे में बात कर रहे हैं - जानबूझकर।

स्पेस जटिलता के लिए, 1-बिट ट्रांसफॉर्मर्स पर मेरा लेख देखें, जो यहां उपलब्ध है:

परिचय

जहाँ तक जनरेटिव AI तकनीक का सवाल है, हम भविष्य की ओर तेजी से आगे बढ़ रहे हैं और लार्ज लैंग्वेज मॉडल के पीछे के एल्गोरिदम कोई अपवाद नहीं हैं। इस लेख में, हम हाल ही में जनरेटिव AI के क्षेत्र में तीन सबसे रोमांचक विकासों को कवर करने जा रहे हैं, और उनके बारे में विस्तार से बात करेंगे। उनमें से एक ने एक बड़ी भाषा मॉडल एल्गोरिदम को चलाने के लिए इष्टतम समय जटिलता भी हासिल की है। दूसरे शब्दों में, एक हालिया विकास सबसे इष्टतम रूप से सबसे तेज़ LLM ट्रांसफ़ॉर्मर एल्गोरिदम बन गया है - जहाँ तक असिम्टोटिक समय जटिलता का सवाल है, हमारे वर्तमान मॉडल के अनुसार, निरंतर समय अनुकूलन को छोड़कर, इससे तेज़ जाना संभव नहीं है। चूँकि हम सैकड़ों अरबों मापदंडों से निपट रहे हैं, इसलिए स्थिरांक की गति बहुत बड़ी हो सकती है! मुझे उम्मीद है कि आप भी मेरी तरह उत्साहित होंगे क्योंकि यह एक रोमांचक सवारी होगी!

वर्तमान एल्गोरिथ्म - ध्यान-आधारित ट्रांसफार्मर

हर कोई 2017 के महत्वपूर्ण पेपर "ध्यान ही सब कुछ है जिसकी आपको आवश्यकता है" से परिचित है, लेकिन फिर भी मैं इसे संक्षेप में प्रस्तुत करने जा रहा हूं ताकि नए लोगों को स्पष्ट रूप से समझ में आ जाए कि हम किस बारे में बात कर रहे हैं।

शोध पत्र का लिंक यह है:

आपको बस ध्यान की जरूरत है

पेपर परिचय से:

आवर्तक तंत्रिका नेटवर्क, विशेषकर दीर्घ-अल्पकालिक स्मृति और गेटेड आवर्तक तंत्रिका नेटवर्क, अनुक्रम मॉडलिंग और भाषा मॉडलिंग तथा मशीन अनुवाद जैसी ट्रांसडक्शन समस्याओं में अत्याधुनिक दृष्टिकोण के रूप में दृढ़ता से स्थापित हो चुके हैं।

तब से पुनरावर्ती भाषा मॉडल और एनकोडर-डिकोडर आर्किटेक्चर की सीमाओं को आगे बढ़ाने के लिए कई प्रयास जारी हैं।

पुनरावर्ती मॉडल आमतौर पर इनपुट और आउटपुट अनुक्रमों के प्रतीक पदों के साथ गणना को कारक बनाते हैं।

गणना समय में चरणों के लिए स्थितियों को संरेखित करते हुए, वे पिछली छिपी हुई स्थिति ℎ𝑡−1 और स्थिति 𝑡 के इनपुट के एक फ़ंक्शन के रूप में छिपी हुई स्थिति ℎ𝑡 का एक अनुक्रम उत्पन्न करते हैं।

यह स्वाभाविक अनुक्रमिक प्रकृति प्रशिक्षण उदाहरणों के भीतर समानांतरीकरण को रोकती है, जो लंबी अनुक्रम लंबाई पर महत्वपूर्ण हो जाती है, क्योंकि मेमोरी बाधाएं उदाहरणों में बैचिंग को सीमित करती हैं।

हाल के कार्यों में फैक्टराइजेशन ट्रिक्स और सशर्त संगणना के माध्यम से कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार हासिल किया गया है, साथ ही बाद के मामले में मॉडल प्रदर्शन में भी सुधार हुआ है।

हालाँकि, अनुक्रमिक गणना की मूलभूत बाधा अभी भी बनी हुई है।

ध्यान तंत्र विभिन्न कार्यों में सम्मोहक अनुक्रम मॉडलिंग और पारगमन मॉडल का एक अभिन्न अंग बन गया है, जो इनपुट या आउटपुट अनुक्रमों में उनकी दूरी की परवाह किए बिना निर्भरताओं के मॉडलिंग की अनुमति देता है।

हालाँकि, कुछ मामलों को छोड़कर, ऐसे ध्यान तंत्रों का उपयोग पुनरावर्ती नेटवर्क के साथ संयोजन में किया जाता है।

इस कार्य में हम ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो एक मॉडल आर्किटेक्चर है जो पुनरावृत्ति से बचता है तथा इसके बजाय इनपुट और आउटपुट के बीच वैश्विक निर्भरता बनाने के लिए पूरी तरह से ध्यान तंत्र पर निर्भर करता है।

ट्रांसफॉर्मर काफी अधिक समानांतरीकरण की अनुमति देता है और आठ P100 GPU पर केवल बारह घंटे तक प्रशिक्षित होने के बाद अनुवाद गुणवत्ता में एक नए स्तर तक पहुंच सकता है।

और जैसा कि हम जानते हैं, GPT-1, GPT-2, GPT-3 और GPT 3.5 ट्रांसफॉर्मर्स ने जल्द ही जनरेटिव AI में हमेशा के लिए क्रांति ला दी।

अचानक मशीनें मानव जैसी अंग्रेजी बोलने लगीं।

यह वह क्लासिक आरेख था जो अगले दो वर्षों तक लेखों और शोध समाचार बुलेटिनों में छाया रहा:

फिर GPT-4 सामने आया - और फिर जीवन कभी भी पहले जैसा नहीं रहा।

हम एक महत्वपूर्ण बिन्दु को पार कर चुके थे।

लेकिन, ये ट्रांसफार्मर महंगे थे, प्रशिक्षण में धीमे थे, तथा इनकी परिचालन लागत बहुत अधिक होने के कारण इन्हें स्थापित करना कठिन था।

ट्रांसफॉर्मर एल्गोरिथ्म की समय जटिलता द्विघात थी, या O(n*n) जहां n इनपुट पैरामीटरों की संख्या थी ।

𝐿 परतों वाले एक मानक ट्रांसफार्मर मॉडल के लिए, अनुमान एल्गोरिथ्म की समय जटिलता 𝑂( L*n*n*d ) है जहाँ L परतों की संख्या थी, n इनपुट टोकन की संख्या थी, और d ट्रांसफार्मर की गहराई थी।

कुछ समय के लिए तो यह अत्याधुनिक तकनीक प्रतीत हुई।

क्वांटाइजेशन को 2021 की शुरुआत में ही एक अन्य पेपर में पेश किया गया था, और ऐसा लग रहा था कि यह अगला अत्याधुनिक तंत्र होगा ( प्रस्तावना अनुभाग देखें)।

लेकिन जल्द ही हमारे सामने एक और दावेदार आ गया।

माम्बा एल्गोरिदम में आपका स्वागत है

प्रासंगिक शोध पत्र यह था:

माम्बा: चयनात्मक राज्य स्थानों के साथ रैखिक-समय अनुक्रम मॉडलिंग

शोध पत्र के सारांश से:

फाउंडेशन मॉडल, जो अब गहन शिक्षण में अधिकांश रोमांचक अनुप्रयोगों को शक्ति प्रदान कर रहे हैं, लगभग सार्वभौमिक रूप से ट्रांसफॉर्मर आर्किटेक्चर और इसके कोर अटेंशन मॉड्यूल पर आधारित हैं।

कई उप-चतुर्भुज-समय आर्किटेक्चर जैसे कि रैखिक ध्यान, गेटेड कन्वोल्यूशन और आवर्तक मॉडल, और संरचित राज्य अंतरिक्ष मॉडल (एसएसएम) को लंबे अनुक्रमों पर ट्रांसफॉर्मर्स की कम्प्यूटेशनल अकुशलता को संबोधित करने के लिए विकसित किया गया है, लेकिन उन्होंने भाषा जैसे महत्वपूर्ण तौर-तरीकों पर ध्यान देने के रूप में अच्छा प्रदर्शन नहीं किया है।

हमने पाया कि ऐसे मॉडलों की मुख्य कमजोरी यह है कि वे विषय-वस्तु आधारित तर्क करने में असमर्थ हैं, और हमने इनमें कई सुधार किए हैं।

सबसे पहले, एसएसएम पैरामीटर्स को इनपुट के फंक्शन के रूप में छोड़ देने से, असतत तौर-तरीकों के साथ उनकी कमजोरी दूर हो जाती है, जिससे मॉडल को वर्तमान टोकन के आधार पर अनुक्रम लंबाई आयाम के साथ सूचना को चुनिंदा रूप से प्रसारित या भूलने की अनुमति मिल जाती है।

दूसरा, भले ही यह परिवर्तन कुशल कन्वोल्यूशन के उपयोग को रोकता है, फिर भी हम पुनरावर्ती मोड में एक हार्डवेयर-जागरूक समानांतर एल्गोरिदम डिज़ाइन करते हैं।

हम इन चयनात्मक एसएसएम को बिना किसी ध्यान या एमएलपी ब्लॉक (माम्बा) के सरलीकृत अंत-से-अंत तंत्रिका नेटवर्क वास्तुकला में एकीकृत करते हैं।

मांबा में तीव्र अनुमान (ट्रांसफॉर्मर्स की तुलना में 5 गुना अधिक थ्रूपुट) और अनुक्रम लंबाई में रैखिक स्केलिंग की सुविधा है, तथा दस लाख लंबाई वाले अनुक्रम तक वास्तविक डेटा पर इसका प्रदर्शन बेहतर होता है।

सामान्य अनुक्रम मॉडल की रीढ़ के रूप में, माम्बा भाषा, ऑडियो और जीनोमिक्स जैसे कई तौर-तरीकों में अत्याधुनिक प्रदर्शन प्राप्त करता है।

भाषा मॉडलिंग पर, हमारा माम्बा-3बी मॉडल समान आकार के ट्रांसफॉर्मर्स से बेहतर प्रदर्शन करता है और प्रीट्रेनिंग और डाउनस्ट्रीम मूल्यांकन दोनों में अपने आकार से दोगुने आकार के ट्रांसफॉर्मर्स से मेल खाता है।

Suअचानक

अचानक हमारे शहर में एक नया प्रतियोगी आ गया!

माम्बा-ट्रांसफार्मर एल्गोरिथम के मुख्य लाभ थे:

हाइब्रिड वास्तुकला :
माम्बा ने ट्रांसफॉर्मर और माम्बा परतों को संयोजित किया, जिससे प्रबंधनीय मेमोरी फ़ुटप्रिंट को बनाए रखते हुए बेहतर प्रदर्शन और उच्च थ्रूपुट की अनुमति मिली।
चुनौतियाँ :
- मेमोरी और कम्प्यूट दक्षता : माम्बा ने ट्रांसफॉर्मर्स की उच्च मेमोरी और कम्प्यूट आवश्यकताओं को संबोधित किया, विशेष रूप से लंबे संदर्भों के लिए।
- सारांश स्थिति : ट्रांसफॉर्मर्स के विपरीत, माम्बा एकल सारांश स्थिति प्रदान करता है, जिससे तीव्र अनुमान लगाना संभव होता है।
वास्तुकला विवरण :
- ट्रांसफार्मर परतें : माम्बा ने ट्रांसफार्मर परतों को शामिल किया।
- माम्बा परतें : माम्बा स्टेट-स्पेस मॉडलिंग (एसएसएम) परतों को प्रस्तुत करता है, जो लम्बे संदर्भों को कुशलतापूर्वक संभालता है।
- विशेषज्ञों का मिश्रण (MoE) : माम्बा गणना आवश्यकताओं में उल्लेखनीय वृद्धि किए बिना मॉडल क्षमता बढ़ाने के लिए MoE परतों का उपयोग करता है।
प्रदर्शन :
माम्बा ने मिक्सट्रल-8x7B और लामा-2 70B जैसे मौजूदा मॉडलों के समान प्रदर्शन किया, जबकि 256K टोकन तक की संदर्भ लंबाई का समर्थन किया।
दक्षता : लंबे संदर्भों के लिए माम्बा का थ्रूपुट मिक्सट्रल-8x7B से 3 गुना अधिक था, और यह बड़े संदर्भों के साथ भी एकल GPU में फिट हो गया।

माम्बा आर्किटेक्चर बड़े भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो ट्रांसफॉर्मर और एसएसएम दोनों दृष्टिकोणों की शक्तियों को जोड़ता है।

हालाँकि, जैसे-जैसे परीक्षण जारी रहा, यह पाया गया कि माम्बा एल्गोरिदम सभी उपयोग-मामलों के लिए उपयुक्त नहीं था।

विशेष रूप से, जब माम्बा एल्गोरिथ्म को आईएमडीबी डेटासेट के साथ प्रस्तुत किया गया तो यह बुरी तरह विफल रहा।

हालाँकि वास्तुकला अभी भी अत्याधुनिक थी, और यह दृष्टि उपयोग मामलों के लिए बेहद उपयोगी पाई गई।

आप यहां पायथन में कार्यान्वयन देख सकते हैं:

और यह माम्बा एल्गोरिथम का एक उत्कृष्ट विवरण है, जिसमें सिद्धांत भी प्रदान किया गया है।

और यहां PyPI में मानक Mamba कार्यान्वयन है:

माम्बा एल्गोरिथम का समय आ गया है और यह अभी भी शोध का एक अत्यधिक सक्रिय क्षेत्र है। जल्द ही इसका उत्तराधिकारी सामने आया, लेकिन हम सबसे अच्छा आखिर में रखेंगे।

हम अगले प्रतियोगी की ओर बढ़ेंगे - xLSTM एल्गोरिथ्म

xLSTM एल्गोरिथ्म

आप यहां शोध पत्र देख सकते हैं:

xLSTM: विस्तारित दीर्घ अल्पकालिक स्मृति - arXiv .

शोध पत्र के सारांश से:

1990 के दशक में, निरंतर त्रुटि कैरोसेल और गेटिंग को दीर्घ-अल्पकालिक स्मृति (LSTM) के केंद्रीय विचारों के रूप में पेश किया गया था।

तब से, एलएसटीएम समय की कसौटी पर खरा उतरा है और कई गहन शिक्षण सफलता की कहानियों में योगदान दिया है, विशेष रूप से उन्होंने पहले बड़े भाषा मॉडल (एलएलएम) का गठन किया।

हालाँकि, ट्रांसफॉर्मर प्रौद्योगिकी के आगमन ने, जिसके मूल में समानांतर स्व-ध्यान है, एक नए युग की शुरुआत को चिह्नित किया, जिसने पैमाने पर LSTM को पीछे छोड़ दिया।

अब हम एक सरल प्रश्न उठाते हैं: LSTM को अरबों पैरामीटरों तक विस्तारित करते हुए, आधुनिक LLM की नवीनतम तकनीकों का लाभ उठाते हुए, लेकिन LSTM की ज्ञात सीमाओं को कम करते हुए, हम भाषा मॉडलिंग में कितनी दूर तक पहुंच पाते हैं?

सबसे पहले, हम उचित सामान्यीकरण और स्थिरीकरण तकनीकों के साथ घातांकीय गेटिंग का परिचय देते हैं।

दूसरे, हम LSTM मेमोरी संरचना को संशोधित करते हैं, और प्राप्त करते हैं:

(i) स्केलर मेमोरी, स्केलर अपडेट और नई मेमोरी मिक्सिंग के साथ sLSTM,

(ii) mLSTM जो मैट्रिक्स मेमोरी और सहप्रसरण अद्यतन नियम के साथ पूरी तरह से समानांतर है।

इन LSTM एक्सटेंशन को अवशिष्ट ब्लॉक बैकबोन में एकीकृत करने से xLSTM ब्लॉक प्राप्त होते हैं, जिन्हें फिर xLSTM आर्किटेक्चर में अवशिष्ट रूप से स्टैक किया जाता है।

एक्सपोनेंशियल गेटिंग और संशोधित मेमोरी संरचनाएं, प्रदर्शन और स्केलिंग दोनों में, अत्याधुनिक ट्रांसफॉर्मर्स और स्टेट स्पेस मॉडल्स की तुलना में xLSTM क्षमताओं को बेहतर प्रदर्शन करने में मदद करती हैं।

दीर्घ-अल्पकालिक स्मृति (एलएसटीएम) एल्गोरिथ्म अपने समय में अत्यधिक उपयोगी था और इसमें काफी सफलता भी मिली थी।

xLSTM में उसी मॉडल का उपयोग किया गया, लेकिन पूरी तरह से अलग आर्किटेक्चर में।

यह मुख्य नवाचार था, जिसे शोध पत्र में इस चित्र में संक्षेपित किया गया है:

xLSTM के मुख्य लाभ थे:

ट्रांसफॉर्मर एल्गोरिथम की तुलना में xLSTM के लाभ:

लंबे अनुक्रमों को संभालना :
- xLSTM को विशेष रूप से अपने गेटिंग तंत्र के साथ लंबे अनुक्रमों को संभालने के लिए डिज़ाइन किया गया था जो सूचना के प्रवाह को नियंत्रित करता था। इसने पारंपरिक LSTM की तुलना में अनुक्रमिक डेटा में दीर्घकालिक निर्भरताओं को पकड़ने में इसे अधिक प्रभावी बना दिया।
कम्प्यूटेशनल दक्षता :
- xLSTM कुछ कार्यों के लिए कम्प्यूटेशनली अधिक कुशल हो सकता है, विशेष रूप से छोटे डेटासेट के साथ काम करते समय या जब अनुक्रम की लंबाई अत्यधिक बड़ी न हो।
- दूसरी ओर, ट्रांसफॉर्मर्स को अपने स्व-ध्यान तंत्र के कारण महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो अनुक्रम की लंबाई के साथ द्विघात रूप से बढ़ता है।
स्मृति प्रयोग :
- xLSTM को सामान्यतः ट्रांसफॉर्मर्स की तुलना में कम मेमोरी की आवश्यकता होती है।
- ट्रांसफॉर्मर्स में स्व-ध्यान तंत्र के लिए बड़े ध्यान मैट्रिसेस को संग्रहीत करने की आवश्यकता होती है, जो विशेष रूप से लंबे अनुक्रमों के लिए स्मृति-गहन हो सकता है।
प्रशिक्षण स्थिरता :
- xLSTM अपनी पुनरावर्ती प्रकृति और गेटिंग तंत्र के कारण प्रशिक्षण के दौरान अधिक स्थिर हो सकता है, जो लुप्त ग्रेडिएंट समस्या को कम करने में मदद करता है।
- ट्रांसफॉर्मर्स, शक्तिशाली होते हुए भी, कभी-कभी प्रशिक्षित करने के लिए अधिक चुनौतीपूर्ण हो सकते हैं और इसके लिए हाइपरपैरामीटर्स और रेग्यूलराइजेशन तकनीकों की सावधानीपूर्वक ट्यूनिंग की आवश्यकता हो सकती है।
सरलता और व्याख्याशीलता :
- ट्रांसफॉर्मर्स की तुलना में xLSTM मॉडल को समझना और व्याख्या करना अधिक सरल हो सकता है।
- एलएसटीएम की पुनरावर्ती प्रकृति ने नेटवर्क के माध्यम से सूचना के प्रवाह का पता लगाना आसान बना दिया, जबकि ट्रांसफॉर्मर्स में ध्यान तंत्र अधिक अमूर्त और व्याख्या करने में कठिन हो सकता है।
छोटे डेटासेट पर प्रदर्शन :
- xLSTM छोटे डेटासेट पर या जब लेबल वाला डेटा सीमित हो, तब बेहतर प्रदर्शन कर सकता है।
- ट्रांसफॉर्मर्स को अपनी पूरी क्षमता प्राप्त करने के लिए आम तौर पर बड़ी मात्रा में डेटा की आवश्यकता होती है, जिससे सीमित डेटा उपलब्धता वाले परिदृश्यों में xLSTM एक बेहतर विकल्प बन जाता है
  .
अनुक्रमिक डेटा :
- कुछ प्रकार के अनुक्रमिक डेटा के लिए, जैसे समय श्रृंखला या कुछ प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए, xLSTM अनुक्रमों को संभालने के लिए अपने अंतर्निहित डिजाइन के कारण बेहतर प्रदर्शन प्रदान कर सकता है।

हालांकि, यह ध्यान रखना महत्वपूर्ण था कि ट्रांसफॉर्मर्स के अपने फायदे थे, जैसे बेहतर समानांतरकरण क्षमताएं, बड़े डेटासेट पर बेहतर प्रदर्शन और कई एनएलपी कार्यों में अत्याधुनिक परिणाम।

xLSTM और ट्रांसफॉर्मर के बीच चयन, कार्य की विशिष्ट आवश्यकताओं और बाधाओं पर आधारित होना चाहिए।

आप PyTorch में xLSTM का कार्यान्वयन यहां देख सकते हैं:

आप xLSTM का विस्तृत विवरण यहां देख सकते हैं:

इसकी वर्तमान स्थिति का सारांश इस प्रकार है:

लेकिन माम्बा का एक उत्तराधिकारी था जिसने पवित्र ग्रिल को मारा - एलएलएम एल्गोरिदम के लिए इष्टतम समय जटिलता

जाम्बा - माम्बा का उत्तराधिकारी जिसने इसे आसानी से हरा दिया!

शोध पत्र यहां पाया जा सकता है:

जाम्बा: एक हाइब्रिड ट्रांसफॉर्मर-माम्बा भाषा मॉडल

शोध पत्र के सार से:

हम जाम्बा प्रस्तुत करते हैं, जो एक नवीन हाइब्रिड ट्रांसफॉर्मर-माम्बा मिक्सचर-ऑफ-एक्सपर्ट्स (एमओई) आर्किटेक्चर पर आधारित एक नया बेस लार्ज लैंग्वेज मॉडल है।

विशेष रूप से, जाम्बा ट्रांसफॉर्मर और माम्बा परतों के ब्लॉकों को आपस में जोड़ता है, जिससे दोनों मॉडल परिवारों के लाभ प्राप्त होते हैं।

सक्रिय पैरामीटर उपयोग को प्रबंधनीय बनाए रखते हुए मॉडल क्षमता को बढ़ाने के लिए इनमें से कुछ परतों में MoE जोड़ा गया है।

यह लचीली वास्तुकला संसाधन- और उद्देश्य-विशिष्ट विन्यास की अनुमति देती है।

हमने जो विशेष कॉन्फ़िगरेशन क्रियान्वित किया है, उसके परिणामस्वरूप हमें एक शक्तिशाली मॉडल प्राप्त हुआ है जो एक 80GB GPU में फिट हो जाता है।

बड़े पैमाने पर निर्मित, जाम्बा वेनिला ट्रांसफॉर्मर्स की तुलना में उच्च थ्रूपुट और छोटी मेमोरी फुटप्रिंट प्रदान करता है, और साथ ही मानक भाषा मॉडल बेंचमार्क और दीर्घकालिक संदर्भ मूल्यांकन पर अत्याधुनिक प्रदर्शन भी प्रदान करता है।

उल्लेखनीय रूप से, मॉडल 256K टोकन संदर्भ लंबाई तक के लिए मजबूत परिणाम प्रस्तुत करता है।

हम विभिन्न वास्तुशिल्प निर्णयों का अध्ययन करते हैं, जैसे कि ट्रांसफॉर्मर और माम्बा परतों को कैसे संयोजित किया जाए, और विशेषज्ञों को कैसे मिलाया जाए, और यह दर्शाते हैं कि उनमें से कुछ बड़े पैमाने पर मॉडलिंग में महत्वपूर्ण हैं।

हम इन आर्किटेक्चर के कई दिलचस्प गुणों का भी वर्णन करते हैं, जो जाम्बा के प्रशिक्षण और मूल्यांकन से पता चले हैं, और इस नवीन आर्किटेक्चर के आगे के अन्वेषण को प्रोत्साहित करने के लिए विभिन्न एब्लेशन रन से चेकपॉइंट जारी करने की योजना बना रहे हैं।

हम जाम्बा के अपने कार्यान्वयन के भार को अनुमेय लाइसेंस के तहत सार्वजनिक रूप से उपलब्ध कराते हैं।

कार्यान्वयन हगिंगफेस रिपोजिटरी पर यहां उपलब्ध है:

मॉडल: https://huggingface.co/ai21labs/Jamba-v0.1

अन्य मॉडलों से तुलना :
- विभिन्न मानकों पर मूल्यांकन करने पर, जाम्बा ने अन्य अत्याधुनिक मॉडलों जैसे कि मिस्ट्रल-8x7B , लामा-2 70B , और मिक्सट्रल-8x7B के साथ तुलनीय प्रदर्शन प्रदर्शित किया है।
- उल्लेखनीय रूप से, जाम्बा 256K टोकन तक की संदर्भ लंबाई का समर्थन करता है , जो सार्वजनिक रूप से उपलब्ध मॉडलों में सबसे लंबी है
- हेलस्वैग , आर्क चैलेंज और पीआईक्यूए जैसे कार्यों में , जाम्बा लामा 2 , मिक्सट्रल 8x7बी और जेम्मा जैसे मॉडलों से बेहतर प्रदर्शन करता है।

संक्षेप में, जाम्बा की हाइब्रिड वास्तुकला ट्रांसफॉर्मर्स और माम्बा परतों की शक्तियों को जोड़ती है, जिसके परिणामस्वरूप प्रभावशाली प्रदर्शन और मापनीयता होती है।

याद रखने योग्य मुख्य आरेख ऊपर दिए गए शोध पत्र में प्रस्तुत किया गया है:

माम्बा और ट्रांसफॉर्मर मॉडल के अंतर्संबंध से समय जटिलता में अविश्वसनीय वृद्धि होती है, जिसे नीचे दिए गए लेख में खूबसूरती से संक्षेपित किया गया है:

माम्बा और जाम्बा - सरलता से समझाया गया

लेखक : निमृता कौल
दिनांक : 1 अप्रैल, 2024
सारांश :
- जाम्बा AI21 द्वारा प्रस्तुत पहला उत्पादन-ग्रेड माम्बा-आधारित वृहद भाषा मॉडल है।
- इसमें ट्रांसफॉर्मर और माम्बा दोनों आर्किटेक्चर की ताकतें सम्मिलित हैं।
- - ट्रांसफार्मर-आधारित मॉडल O(n²) की प्रशिक्षण समय जटिलता के कारण लंबे अनुक्रमों के साथ संघर्ष करते हैं।
  - माम्बा आर्किटेक्चर रैखिक प्रशिक्षण समय जटिलता ( O(n) ) और स्थिर अनुमान समय ( O(1) ) प्रदान करता है।
  - माम्बा स्टेट स्पेस मॉडल (एसएसएम) आर्किटेक्चर पर आधारित है।
  - एसएसएम, विभेदक या अंतर समीकरणों का उपयोग करके किसी प्रणाली का वर्णन करने के लिए अवस्था चरों का उपयोग करते हैं।
  - माम्बा के हाइब्रिड दृष्टिकोण का लक्ष्य मौजूदा मॉडलों की सीमाओं को संबोधित करना है।

आप यहां पर पूरा लेख पढ़ सकते हैं:

माम्बा और जाम्बा - सरलता से समझाया गया , निम्रिता कौल द्वारा, मीडियम.कॉम पर।

इष्टतम सीमा तक पहुँच गया है!

यहां ध्यान देने योग्य मुख्य बात यह है कि प्रशिक्षण के लिए, एल्गोरिथ्म को प्रत्येक इनपुट टोकन को कम से कम एक बार देखना होगा, जिससे समय जटिलता O(n) होगी।

इसके अलावा, किसी भी एलएलएम मॉडल के लिए अनुमान लगाने की सबसे तेज़ गति O(1) है - स्थिर समय, टोकन की लंबाई से स्वतंत्र (एक अविश्वसनीय उपलब्धि)!

जाम्बा एल्गोरिथम के मामले में ये दोनों सीमाएं पार हो चुकी हैं!

इसलिए निरंतर-समय सुधारों के अंतर्गत - जो अभी भी बहुत अधिक हो सकते हैं (ये संख्याएं सैकड़ों अरबों में हैं):

जाम्बा ने ट्रांसफॉर्मर एल्गोरिथ्म के लिए समय जटिलता की इष्टतम सीमा तक पहुंच बना ली है!

दी गई प्रणाली स्थितियों के अंतर्गत, जब तक कि नई तकनीक (क्वांटम कंप्यूटिंग, कोई भी) पेश नहीं की जाती है, तब तक हमारे पास तीव्र असिमोटोटिक समय जटिलता नहीं हो सकती है!

जो कि एक बहुत ही महत्वपूर्ण परिणाम है!

A121 लैब्स द्वारा आधिकारिक घोषणा:

मीडियम पर जाम्बा पर एक और अच्छा लेख:

इस समय उपलब्ध जाम्बा के सर्वोत्तम कार्यान्वयनों में से एक:

एक बार फिर, हगिंगफेस हब का जाम्बा मॉडल:

निष्कर्ष

इस प्रकार जाम्बा उस अंतिम समय जटिलता तक पहुँच जाता है जिसे मौजूदा सिस्टम के तहत करंट ट्रांसफॉर्मर एल्गोरिदम द्वारा एक स्थिर स्तर भिन्नता तक प्राप्त किया जा सकता है। दोहराएँ; स्थिरांक बहुत बड़े हो सकते हैं, क्योंकि ये सैकड़ों अरबों पदों के क्रम में हैं! हालाँकि, यह अभी भी एक महत्वपूर्ण उपलब्धि है। और इस पर शोध की कोई सीमा नहीं है जहाँ तक यह जा सकता है, खासकर जब इसे DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन) और क्वांटिज़ेशन के साथ जोड़ा जाता है - अधिक जानकारी के लिए उपसंहार देखें।

उपसंहार:

इसका एक पक्ष ऐसा भी है जिस पर कोई भी खुलकर काम नहीं कर रहा है।

क्या माम्बा, xLSTM और जाम्बा मॉडल को 1-बिट परिशुद्धता तक परिमाणित किया जा सकता है?

बिल्कुल!

मैं एक-बिट में परिमाणित होने के बाद माम्बा और जाम्बा के प्रदर्शन में सुधार देखने के लिए उत्सुक हूँ! या 1.58 बिट {-1, 0, 1}।

एक बार फिर, अधिक जानकारी के लिए यह आलेख देखें:

https://hackernoon.com/why-1-bit-transformers-will-change-the-world

इस तकनीक का भविष्य अविश्वसनीय रूप से रोमांचक होने वाला है!

इस क्षेत्र में काम करने का आनंद और रोमांच सदैव आपके साथ बना रहे!

प्रोत्साहित करना!

संदर्भ:

उपरोक्त लेख में स्पष्ट रूप से उल्लिखित के अलावा:

ट्रांसफॉर्मर-एक्सएल: निश्चित-लंबाई संदर्भ से परे चौकस भाषा मॉडल
- दाई, जेड., यांग, जेड., यांग, वाई., कार्बोनेल, जे., और ले, क्यू.वी. (2019)। ट्रांसफॉर्मर-एक्सएल: एक निश्चित-लंबाई संदर्भ से परे चौकस भाषा मॉडल ।
लॉन्गफॉर्मर: लॉन्ग-डॉक्यूमेंट ट्रांसफॉर्मर
- बेल्टागी, आई., पीटर्स, एम.ई., और कोहन, ए. (2020). लॉन्गफ़ॉर्मर: लॉन्ग-डॉक्यूमेंट ट्रांसफ़ॉर्मर ।
रिफॉर्मर: कुशल ट्रांसफार्मर
- किताएव, एन., कैसर, एल., और लेव्स्काया, ए. (2020). रिफॉर्मर: द एफिशिएंट ट्रांसफॉर्मर ।
लिनफॉर्मर: रैखिक जटिलता के साथ आत्म-ध्यान
- वांग, एस., ली, बी.जेड., खबसा, एम., फैंग, एच., और मा, एच. (2020). लिनफ़ॉर्मर: रैखिक जटिलता के साथ आत्म-ध्यान ।
स्टेट स्पेस मॉडल: समय श्रृंखला डेटा मॉडलिंग के लिए एक सामान्य ढांचा
- डर्बिन, जे., और कूपमैन, एस.जे. (2012). स्टेट स्पेस मॉडल: टाइम सीरीज़ डेटा मॉडलिंग के लिए एक सामान्य ढांचा।
एस4: संरचित राज्य स्थानों के साथ अनुक्रम मॉडलिंग
- गु, ए., गोयल, के., और रे, सी. (2021). एस4: संरचित राज्य स्थानों के साथ अनुक्रम मॉडलिंग।
बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर
- अनाम लेखक। (वर्ष निर्दिष्ट नहीं)। [बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर](URL प्रदान नहीं किया गया)।
कुशल ट्रांसफार्मर: एक सर्वेक्षण
- टाय, वाई., देघघानी, एम., बहरी, डी., और मेट्ज़लर, डी. (2020). कुशल ट्रांसफार्मर: एक सर्वेक्षण ।
कुशल पूर्णांक-अंकगणित-केवल अनुमान के लिए तंत्रिका नेटवर्क का परिमाणीकरण और प्रशिक्षण
- जैकब, बी., क्लिगिस, एस., चेन, बी., झू, एम., टैंग, एम., हॉवर्ड, ए., ... और एडम, एच. (2018)। कुशल पूर्णांक-अंकगणित-केवल अनुमान के लिए तंत्रिका नेटवर्क का परिमाणीकरण और प्रशिक्षण।
क्यू-बर्ट: बर्ट का हेसियन आधारित अल्ट्रा लो प्रिसिजन क्वांटाइजेशन
- शेन, एस., डोंग, जेड., ये, जे., मा, एल., और घोलामी, ए. (2020). क्यू-बर्ट: बर्ट का हेसियन आधारित अल्ट्रा लो प्रिसिजन क्वांटाइजेशन
BERT: भाषा समझ के लिए डीप बाइडायरेक्शनल ट्रांसफॉर्मर्स का पूर्व-प्रशिक्षण
- डेवलिन, जे., चांग, एमडब्लू, ली, के., और टाउटानोवा, के. (2018). बर्ट: भाषा समझ के लिए डीप बाइडायरेक्शनल ट्रांसफॉर्मर्स का प्री-ट्रेनिंग।
GPT-3: भाषा मॉडल बहुत कम सीखने वाले होते हैं
- ब्राउन, टीबी, मान, बी., राइडर, एन., सुब्बियाह, एम., कपलान, जे., धारीवाल, पी., ... और अमोदेई, डी. (2020). जीपीटी-3: भाषा मॉडल कम सीखने वाले होते हैं।
रोबर्टा: एक मज़बूती से अनुकूलित BERT प्रीट्रेनिंग दृष्टिकोण
- लियू, वाई., ओट, एम., गोयल, एन., डू, जे., जोशी, एम., चेन, डी., ... और स्टॉयनोव, वी. (2019)। रोबर्टा: एक मज़बूती से अनुकूलित BERT प्रीट्रेनिंग दृष्टिकोण ।
अल्बर्ट: भाषा अभ्यावेदन के स्व-पर्यवेक्षित शिक्षण के लिए एक लाइट बर्ट
- लैन, जेड., चेन, एम., गुडमैन, एस., जिम्पेल, के., शर्मा, पी., और सोरिकट, आर. (2019). अल्बर्ट: भाषा अभ्यावेदन के स्व-पर्यवेक्षित शिक्षण के लिए एक लाइट बर्ट।
T5: एकीकृत टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज
- राफेल, सी., शज़ीर, एन., रॉबर्ट्स, ए., ली, के., नारंग, एस., मटेना, एम., ... और लियू, पी.जे. (2019)। टी5: एकीकृत टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज।
डिस्टिलबर्ट, बर्ट का आसुत संस्करण: छोटा, तेज, सस्ता और हल्का
- सान्ह, वी., डेब्यू, एल., चौमोंड, जे., और वुल्फ, टी. (2019)। डिस्टिलबर्ट, बर्ट का एक आसुत संस्करण: छोटा, तेज़, सस्ता और हल्का ।

प्रस्तावना और उपसंहार के लिए

क्वांटीकरण के लिए यह पेपर निश्चित रूप से पढ़ने लायक है:

शोध पत्र - बिटनेट: बड़े भाषा मॉडल के लिए 1-बिट ट्रांसफॉर्मर स्केलिंग :
- सार : बड़े भाषा मॉडल के बढ़ते आकार ने तैनाती के लिए चुनौतियां पेश की हैं और उच्च ऊर्जा खपत के कारण पर्यावरणीय प्रभाव के बारे में चिंताएं जताई हैं। इस काम में, हम BitNet को पेश करते हैं, जो बड़े भाषा मॉडल के लिए डिज़ाइन किया गया एक स्केलेबल और स्थिर 1-बिट ट्रांसफॉर्मर आर्किटेक्चर है। विशेष रूप से, हम nn.Linear परत के लिए एक ड्रॉप-इन प्रतिस्थापन के रूप में BitLinear को स्क्रैच से 1-बिट वेट को प्रशिक्षित करने के लिए पेश करते हैं। भाषा मॉडलिंग पर प्रायोगिक परिणाम दिखाते हैं कि BitNet अत्याधुनिक 8-बिट क्वांटिज़ेशन विधियों और FP16 ट्रांसफॉर्मर बेसलाइन की तुलना में मेमोरी फ़ुटप्रिंट और ऊर्जा खपत को काफी कम करते हुए प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। इसके अलावा, BitNet पूर्ण-सटीक ट्रांसफ़ॉर्मर्स के समान स्केलिंग कानून प्रदर्शित करता है
  पूरा शोध पत्र पढ़ें
  
  https://arxiv.org/abs/2310.11453

और हगिंगफेस पर मॉडल:

हगिंग फेस रिपोजिटरी - बिटनेट b1.58-3B क्वांटाइज्ड :
- इस रिपॉजिटरी में बिटनेट b1.58-3B मॉडल का क्वांटाइज्ड संस्करण शामिल है।
  जबकि मूल रिपोजिटरी प्रभावशाली सत्यापन परिणाम प्रदर्शित करती है, यह बिटनेट की रैखिक परतों का अनुकरण करती है, जिसके परिणामस्वरूप मेमोरी उपयोग FP16 मॉडल के समान होता है।
  
  हगिंग फेस मॉडल का अन्वेषण करें
  
  https://huggingface.co/kousw/bitnet_b1_58-3B_quantized