अटेंशन, माम्बा, जाम्बा और xLSTM की तुलना
प्रस्ताव
हम इस लेख में केवल समय जटिलता के बारे में बात कर रहे हैं - जानबूझकर।
स्पेस जटिलता के लिए, 1-बिट ट्रांसफॉर्मर्स पर मेरा लेख देखें, जो यहां उपलब्ध है:
परिचय
जहाँ तक जनरेटिव AI तकनीक का सवाल है, हम भविष्य की ओर तेजी से आगे बढ़ रहे हैं और लार्ज लैंग्वेज मॉडल के पीछे के एल्गोरिदम कोई अपवाद नहीं हैं। इस लेख में, हम हाल ही में जनरेटिव AI के क्षेत्र में तीन सबसे रोमांचक विकासों को कवर करने जा रहे हैं, और उनके बारे में विस्तार से बात करेंगे। उनमें से एक ने एक बड़ी भाषा मॉडल एल्गोरिदम को चलाने के लिए इष्टतम समय जटिलता भी हासिल की है। दूसरे शब्दों में, एक हालिया विकास सबसे इष्टतम रूप से सबसे तेज़ LLM ट्रांसफ़ॉर्मर एल्गोरिदम बन गया है - जहाँ तक असिम्टोटिक समय जटिलता का सवाल है, हमारे वर्तमान मॉडल के अनुसार, निरंतर समय अनुकूलन को छोड़कर, इससे तेज़ जाना संभव नहीं है। चूँकि हम सैकड़ों अरबों मापदंडों से निपट रहे हैं, इसलिए स्थिरांक की गति बहुत बड़ी हो सकती है! मुझे उम्मीद है कि आप भी मेरी तरह उत्साहित होंगे क्योंकि यह एक रोमांचक सवारी होगी!
वर्तमान एल्गोरिथ्म - ध्यान-आधारित ट्रांसफार्मर
हर कोई 2017 के महत्वपूर्ण पेपर "ध्यान ही सब कुछ है जिसकी आपको आवश्यकता है" से परिचित है, लेकिन फिर भी मैं इसे संक्षेप में प्रस्तुत करने जा रहा हूं ताकि नए लोगों को स्पष्ट रूप से समझ में आ जाए कि हम किस बारे में बात कर रहे हैं।
शोध पत्र का लिंक यह है:
पेपर परिचय से:
आवर्तक तंत्रिका नेटवर्क, विशेषकर दीर्घ-अल्पकालिक स्मृति और गेटेड आवर्तक तंत्रिका नेटवर्क, अनुक्रम मॉडलिंग और भाषा मॉडलिंग तथा मशीन अनुवाद जैसी ट्रांसडक्शन समस्याओं में अत्याधुनिक दृष्टिकोण के रूप में दृढ़ता से स्थापित हो चुके हैं।
तब से पुनरावर्ती भाषा मॉडल और एनकोडर-डिकोडर आर्किटेक्चर की सीमाओं को आगे बढ़ाने के लिए कई प्रयास जारी हैं।
पुनरावर्ती मॉडल आमतौर पर इनपुट और आउटपुट अनुक्रमों के प्रतीक पदों के साथ गणना को कारक बनाते हैं।
गणना समय में चरणों के लिए स्थितियों को संरेखित करते हुए, वे पिछली छिपी हुई स्थिति ℎ𝑡−1 और स्थिति 𝑡 के इनपुट के एक फ़ंक्शन के रूप में छिपी हुई स्थिति ℎ𝑡 का एक अनुक्रम उत्पन्न करते हैं।
यह स्वाभाविक अनुक्रमिक प्रकृति प्रशिक्षण उदाहरणों के भीतर समानांतरीकरण को रोकती है, जो लंबी अनुक्रम लंबाई पर महत्वपूर्ण हो जाती है, क्योंकि मेमोरी बाधाएं उदाहरणों में बैचिंग को सीमित करती हैं।
हाल के कार्यों में फैक्टराइजेशन ट्रिक्स और सशर्त संगणना के माध्यम से कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार हासिल किया गया है, साथ ही बाद के मामले में मॉडल प्रदर्शन में भी सुधार हुआ है।
हालाँकि, अनुक्रमिक गणना की मूलभूत बाधा अभी भी बनी हुई है।
ध्यान तंत्र विभिन्न कार्यों में सम्मोहक अनुक्रम मॉडलिंग और पारगमन मॉडल का एक अभिन्न अंग बन गया है, जो इनपुट या आउटपुट अनुक्रमों में उनकी दूरी की परवाह किए बिना निर्भरताओं के मॉडलिंग की अनुमति देता है।
हालाँकि, कुछ मामलों को छोड़कर, ऐसे ध्यान तंत्रों का उपयोग पुनरावर्ती नेटवर्क के साथ संयोजन में किया जाता है।
इस कार्य में हम ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो एक मॉडल आर्किटेक्चर है जो पुनरावृत्ति से बचता है तथा इसके बजाय इनपुट और आउटपुट के बीच वैश्विक निर्भरता बनाने के लिए पूरी तरह से ध्यान तंत्र पर निर्भर करता है।
ट्रांसफॉर्मर काफी अधिक समानांतरीकरण की अनुमति देता है और आठ P100 GPU पर केवल बारह घंटे तक प्रशिक्षित होने के बाद अनुवाद गुणवत्ता में एक नए स्तर तक पहुंच सकता है।
और जैसा कि हम जानते हैं, GPT-1, GPT-2, GPT-3 और GPT 3.5 ट्रांसफॉर्मर्स ने जल्द ही जनरेटिव AI में हमेशा के लिए क्रांति ला दी।
अचानक मशीनें मानव जैसी अंग्रेजी बोलने लगीं।
यह वह क्लासिक आरेख था जो अगले दो वर्षों तक लेखों और शोध समाचार बुलेटिनों में छाया रहा:
फिर GPT-4 सामने आया - और फिर जीवन कभी भी पहले जैसा नहीं रहा।
हम एक महत्वपूर्ण बिन्दु को पार कर चुके थे।
लेकिन, ये ट्रांसफार्मर महंगे थे, प्रशिक्षण में धीमे थे, तथा इनकी परिचालन लागत बहुत अधिक होने के कारण इन्हें स्थापित करना कठिन था।
ट्रांसफॉर्मर एल्गोरिथ्म की समय जटिलता द्विघात थी, या O(n*n) जहां n इनपुट पैरामीटरों की संख्या थी ।
𝐿 परतों वाले एक मानक ट्रांसफार्मर मॉडल के लिए, अनुमान एल्गोरिथ्म की समय जटिलता 𝑂( L*n*n*d ) है जहाँ L परतों की संख्या थी, n इनपुट टोकन की संख्या थी, और d ट्रांसफार्मर की गहराई थी।
कुछ समय के लिए तो यह अत्याधुनिक तकनीक प्रतीत हुई।
क्वांटाइजेशन को 2021 की शुरुआत में ही एक अन्य पेपर में पेश किया गया था, और ऐसा लग रहा था कि यह अगला अत्याधुनिक तंत्र होगा ( प्रस्तावना अनुभाग देखें)।
लेकिन जल्द ही हमारे सामने एक और दावेदार आ गया।
माम्बा एल्गोरिदम में आपका स्वागत है
प्रासंगिक शोध पत्र यह था:
माम्बा: चयनात्मक राज्य स्थानों के साथ रैखिक-समय अनुक्रम मॉडलिंग
शोध पत्र के सारांश से:
फाउंडेशन मॉडल, जो अब गहन शिक्षण में अधिकांश रोमांचक अनुप्रयोगों को शक्ति प्रदान कर रहे हैं, लगभग सार्वभौमिक रूप से ट्रांसफॉर्मर आर्किटेक्चर और इसके कोर अटेंशन मॉड्यूल पर आधारित हैं।
कई उप-चतुर्भुज-समय आर्किटेक्चर जैसे कि रैखिक ध्यान, गेटेड कन्वोल्यूशन और आवर्तक मॉडल, और संरचित राज्य अंतरिक्ष मॉडल (एसएसएम) को लंबे अनुक्रमों पर ट्रांसफॉर्मर्स की कम्प्यूटेशनल अकुशलता को संबोधित करने के लिए विकसित किया गया है, लेकिन उन्होंने भाषा जैसे महत्वपूर्ण तौर-तरीकों पर ध्यान देने के रूप में अच्छा प्रदर्शन नहीं किया है।
हमने पाया कि ऐसे मॉडलों की मुख्य कमजोरी यह है कि वे विषय-वस्तु आधारित तर्क करने में असमर्थ हैं, और हमने इनमें कई सुधार किए हैं।
सबसे पहले, एसएसएम पैरामीटर्स को इनपुट के फंक्शन के रूप में छोड़ देने से, असतत तौर-तरीकों के साथ उनकी कमजोरी दूर हो जाती है, जिससे मॉडल को वर्तमान टोकन के आधार पर अनुक्रम लंबाई आयाम के साथ सूचना को चुनिंदा रूप से प्रसारित या भूलने की अनुमति मिल जाती है।
दूसरा, भले ही यह परिवर्तन कुशल कन्वोल्यूशन के उपयोग को रोकता है, फिर भी हम पुनरावर्ती मोड में एक हार्डवेयर-जागरूक समानांतर एल्गोरिदम डिज़ाइन करते हैं।
हम इन चयनात्मक एसएसएम को बिना किसी ध्यान या एमएलपी ब्लॉक (माम्बा) के सरलीकृत अंत-से-अंत तंत्रिका नेटवर्क वास्तुकला में एकीकृत करते हैं।
मांबा में तीव्र अनुमान (ट्रांसफॉर्मर्स की तुलना में 5 गुना अधिक थ्रूपुट) और अनुक्रम लंबाई में रैखिक स्केलिंग की सुविधा है, तथा दस लाख लंबाई वाले अनुक्रम तक वास्तविक डेटा पर इसका प्रदर्शन बेहतर होता है।
सामान्य अनुक्रम मॉडल की रीढ़ के रूप में, माम्बा भाषा, ऑडियो और जीनोमिक्स जैसे कई तौर-तरीकों में अत्याधुनिक प्रदर्शन प्राप्त करता है।
भाषा मॉडलिंग पर, हमारा माम्बा-3बी मॉडल समान आकार के ट्रांसफॉर्मर्स से बेहतर प्रदर्शन करता है और प्रीट्रेनिंग और डाउनस्ट्रीम मूल्यांकन दोनों में अपने आकार से दोगुने आकार के ट्रांसफॉर्मर्स से मेल खाता है।
Suअचानक
अचानक हमारे शहर में एक नया प्रतियोगी आ गया!
माम्बा-ट्रांसफार्मर एल्गोरिथम के मुख्य लाभ थे:
हाइब्रिड वास्तुकला :
माम्बा ने ट्रांसफॉर्मर और माम्बा परतों को संयोजित किया, जिससे प्रबंधनीय मेमोरी फ़ुटप्रिंट को बनाए रखते हुए बेहतर प्रदर्शन और उच्च थ्रूपुट की अनुमति मिली।
चुनौतियाँ :
मेमोरी और कम्प्यूट दक्षता : माम्बा ने ट्रांसफॉर्मर्स की उच्च मेमोरी और कम्प्यूट आवश्यकताओं को संबोधित किया, विशेष रूप से लंबे संदर्भों के लिए।
सारांश स्थिति : ट्रांसफॉर्मर्स के विपरीत, माम्बा एकल सारांश स्थिति प्रदान करता है, जिससे तीव्र अनुमान लगाना संभव होता है।
वास्तुकला विवरण :
- ट्रांसफार्मर परतें : माम्बा ने ट्रांसफार्मर परतों को शामिल किया।
- माम्बा परतें : माम्बा स्टेट-स्पेस मॉडलिंग (एसएसएम) परतों को प्रस्तुत करता है, जो लम्बे संदर्भों को कुशलतापूर्वक संभालता है।
- विशेषज्ञों का मिश्रण (MoE) : माम्बा गणना आवश्यकताओं में उल्लेखनीय वृद्धि किए बिना मॉडल क्षमता बढ़ाने के लिए MoE परतों का उपयोग करता है।
प्रदर्शन :
माम्बा ने मिक्सट्रल-8x7B और लामा-2 70B जैसे मौजूदा मॉडलों के समान प्रदर्शन किया, जबकि 256K टोकन तक की संदर्भ लंबाई का समर्थन किया।
दक्षता : लंबे संदर्भों के लिए माम्बा का थ्रूपुट मिक्सट्रल-8x7B से 3 गुना अधिक था, और यह बड़े संदर्भों के साथ भी एकल GPU में फिट हो गया।
माम्बा आर्किटेक्चर बड़े भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो ट्रांसफॉर्मर और एसएसएम दोनों दृष्टिकोणों की शक्तियों को जोड़ता है।
हालाँकि, जैसे-जैसे परीक्षण जारी रहा, यह पाया गया कि माम्बा एल्गोरिदम सभी उपयोग-मामलों के लिए उपयुक्त नहीं था।
विशेष रूप से, जब माम्बा एल्गोरिथ्म को आईएमडीबी डेटासेट के साथ प्रस्तुत किया गया तो यह बुरी तरह विफल रहा।
हालाँकि वास्तुकला अभी भी अत्याधुनिक थी, और यह दृष्टि उपयोग मामलों के लिए बेहद उपयोगी पाई गई।
आप यहां पायथन में कार्यान्वयन देख सकते हैं:
और यह माम्बा एल्गोरिथम का एक उत्कृष्ट विवरण है, जिसमें सिद्धांत भी प्रदान किया गया है।
और यहां PyPI में मानक Mamba कार्यान्वयन है:
माम्बा एल्गोरिथम का समय आ गया है और यह अभी भी शोध का एक अत्यधिक सक्रिय क्षेत्र है। जल्द ही इसका उत्तराधिकारी सामने आया, लेकिन हम सबसे अच्छा आखिर में रखेंगे।
हम अगले प्रतियोगी की ओर बढ़ेंगे - xLSTM एल्गोरिथ्म
xLSTM एल्गोरिथ्म
आप यहां शोध पत्र देख सकते हैं:
xLSTM: विस्तारित दीर्घ अल्पकालिक स्मृति - arXiv .
शोध पत्र के सारांश से:
1990 के दशक में, निरंतर त्रुटि कैरोसेल और गेटिंग को दीर्घ-अल्पकालिक स्मृति (LSTM) के केंद्रीय विचारों के रूप में पेश किया गया था।
तब से, एलएसटीएम समय की कसौटी पर खरा उतरा है और कई गहन शिक्षण सफलता की कहानियों में योगदान दिया है, विशेष रूप से उन्होंने पहले बड़े भाषा मॉडल (एलएलएम) का गठन किया।
हालाँकि, ट्रांसफॉर्मर प्रौद्योगिकी के आगमन ने, जिसके मूल में समानांतर स्व-ध्यान है, एक नए युग की शुरुआत को चिह्नित किया, जिसने पैमाने पर LSTM को पीछे छोड़ दिया।
अब हम एक सरल प्रश्न उठाते हैं: LSTM को अरबों पैरामीटरों तक विस्तारित करते हुए, आधुनिक LLM की नवीनतम तकनीकों का लाभ उठाते हुए, लेकिन LSTM की ज्ञात सीमाओं को कम करते हुए, हम भाषा मॉडलिंग में कितनी दूर तक पहुंच पाते हैं?
सबसे पहले, हम उचित सामान्यीकरण और स्थिरीकरण तकनीकों के साथ घातांकीय गेटिंग का परिचय देते हैं।
दूसरे, हम LSTM मेमोरी संरचना को संशोधित करते हैं, और प्राप्त करते हैं:
(i) स्केलर मेमोरी, स्केलर अपडेट और नई मेमोरी मिक्सिंग के साथ sLSTM,
(ii) mLSTM जो मैट्रिक्स मेमोरी और सहप्रसरण अद्यतन नियम के साथ पूरी तरह से समानांतर है।
इन LSTM एक्सटेंशन को अवशिष्ट ब्लॉक बैकबोन में एकीकृत करने से xLSTM ब्लॉक प्राप्त होते हैं, जिन्हें फिर xLSTM आर्किटेक्चर में अवशिष्ट रूप से स्टैक किया जाता है।
एक्सपोनेंशियल गेटिंग और संशोधित मेमोरी संरचनाएं, प्रदर्शन और स्केलिंग दोनों में, अत्याधुनिक ट्रांसफॉर्मर्स और स्टेट स्पेस मॉडल्स की तुलना में xLSTM क्षमताओं को बेहतर प्रदर्शन करने में मदद करती हैं।
दीर्घ-अल्पकालिक स्मृति (एलएसटीएम) एल्गोरिथ्म अपने समय में अत्यधिक उपयोगी था और इसमें काफी सफलता भी मिली थी।
xLSTM में उसी मॉडल का उपयोग किया गया, लेकिन पूरी तरह से अलग आर्किटेक्चर में।
यह मुख्य नवाचार था, जिसे शोध पत्र में इस चित्र में संक्षेपित किया गया है:
xLSTM के मुख्य लाभ थे:
ट्रांसफॉर्मर एल्गोरिथम की तुलना में xLSTM के लाभ:
लंबे अनुक्रमों को संभालना :
xLSTM को विशेष रूप से अपने गेटिंग तंत्र के साथ लंबे अनुक्रमों को संभालने के लिए डिज़ाइन किया गया था जो सूचना के प्रवाह को नियंत्रित करता था। इसने पारंपरिक LSTM की तुलना में अनुक्रमिक डेटा में दीर्घकालिक निर्भरताओं को पकड़ने में इसे अधिक प्रभावी बना दिया।
कम्प्यूटेशनल दक्षता :
xLSTM कुछ कार्यों के लिए कम्प्यूटेशनली अधिक कुशल हो सकता है, विशेष रूप से छोटे डेटासेट के साथ काम करते समय या जब अनुक्रम की लंबाई अत्यधिक बड़ी न हो।
दूसरी ओर, ट्रांसफॉर्मर्स को अपने स्व-ध्यान तंत्र के कारण महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो अनुक्रम की लंबाई के साथ द्विघात रूप से बढ़ता है।
स्मृति प्रयोग :
xLSTM को सामान्यतः ट्रांसफॉर्मर्स की तुलना में कम मेमोरी की आवश्यकता होती है।
ट्रांसफॉर्मर्स में स्व-ध्यान तंत्र के लिए बड़े ध्यान मैट्रिसेस को संग्रहीत करने की आवश्यकता होती है, जो विशेष रूप से लंबे अनुक्रमों के लिए स्मृति-गहन हो सकता है।
प्रशिक्षण स्थिरता :
xLSTM अपनी पुनरावर्ती प्रकृति और गेटिंग तंत्र के कारण प्रशिक्षण के दौरान अधिक स्थिर हो सकता है, जो लुप्त ग्रेडिएंट समस्या को कम करने में मदद करता है।
ट्रांसफॉर्मर्स, शक्तिशाली होते हुए भी, कभी-कभी प्रशिक्षित करने के लिए अधिक चुनौतीपूर्ण हो सकते हैं और इसके लिए हाइपरपैरामीटर्स और रेग्यूलराइजेशन तकनीकों की सावधानीपूर्वक ट्यूनिंग की आवश्यकता हो सकती है।
सरलता और व्याख्याशीलता :
ट्रांसफॉर्मर्स की तुलना में xLSTM मॉडल को समझना और व्याख्या करना अधिक सरल हो सकता है।
एलएसटीएम की पुनरावर्ती प्रकृति ने नेटवर्क के माध्यम से सूचना के प्रवाह का पता लगाना आसान बना दिया, जबकि ट्रांसफॉर्मर्स में ध्यान तंत्र अधिक अमूर्त और व्याख्या करने में कठिन हो सकता है।
छोटे डेटासेट पर प्रदर्शन :
xLSTM छोटे डेटासेट पर या जब लेबल वाला डेटा सीमित हो, तब बेहतर प्रदर्शन कर सकता है।
ट्रांसफॉर्मर्स को अपनी पूरी क्षमता प्राप्त करने के लिए आम तौर पर बड़ी मात्रा में डेटा की आवश्यकता होती है, जिससे सीमित डेटा उपलब्धता वाले परिदृश्यों में xLSTM एक बेहतर विकल्प बन जाता है
.
अनुक्रमिक डेटा :
कुछ प्रकार के अनुक्रमिक डेटा के लिए, जैसे समय श्रृंखला या कुछ प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए, xLSTM अनुक्रमों को संभालने के लिए अपने अंतर्निहित डिजाइन के कारण बेहतर प्रदर्शन प्रदान कर सकता है।
हालांकि, यह ध्यान रखना महत्वपूर्ण था कि ट्रांसफॉर्मर्स के अपने फायदे थे, जैसे बेहतर समानांतरकरण क्षमताएं, बड़े डेटासेट पर बेहतर प्रदर्शन और कई एनएलपी कार्यों में अत्याधुनिक परिणाम।
xLSTM और ट्रांसफॉर्मर के बीच चयन, कार्य की विशिष्ट आवश्यकताओं और बाधाओं पर आधारित होना चाहिए।
आप PyTorch में xLSTM का कार्यान्वयन यहां देख सकते हैं:
आप xLSTM का विस्तृत विवरण यहां देख सकते हैं:
इसकी वर्तमान स्थिति का सारांश इस प्रकार है:
लेकिन माम्बा का एक उत्तराधिकारी था जिसने पवित्र ग्रिल को मारा - एलएलएम एल्गोरिदम के लिए इष्टतम समय जटिलता
जाम्बा - माम्बा का उत्तराधिकारी जिसने इसे आसानी से हरा दिया!
शोध पत्र यहां पाया जा सकता है:
जाम्बा: एक हाइब्रिड ट्रांसफॉर्मर-माम्बा भाषा मॉडल
शोध पत्र के सार से:
हम जाम्बा प्रस्तुत करते हैं, जो एक नवीन हाइब्रिड ट्रांसफॉर्मर-माम्बा मिक्सचर-ऑफ-एक्सपर्ट्स (एमओई) आर्किटेक्चर पर आधारित एक नया बेस लार्ज लैंग्वेज मॉडल है।
विशेष रूप से, जाम्बा ट्रांसफॉर्मर और माम्बा परतों के ब्लॉकों को आपस में जोड़ता है, जिससे दोनों मॉडल परिवारों के लाभ प्राप्त होते हैं।
सक्रिय पैरामीटर उपयोग को प्रबंधनीय बनाए रखते हुए मॉडल क्षमता को बढ़ाने के लिए इनमें से कुछ परतों में MoE जोड़ा गया है।
यह लचीली वास्तुकला संसाधन- और उद्देश्य-विशिष्ट विन्यास की अनुमति देती है।
हमने जो विशेष कॉन्फ़िगरेशन क्रियान्वित किया है, उसके परिणामस्वरूप हमें एक शक्तिशाली मॉडल प्राप्त हुआ है जो एक 80GB GPU में फिट हो जाता है।
बड़े पैमाने पर निर्मित, जाम्बा वेनिला ट्रांसफॉर्मर्स की तुलना में उच्च थ्रूपुट और छोटी मेमोरी फुटप्रिंट प्रदान करता है, और साथ ही मानक भाषा मॉडल बेंचमार्क और दीर्घकालिक संदर्भ मूल्यांकन पर अत्याधुनिक प्रदर्शन भी प्रदान करता है।
उल्लेखनीय रूप से, मॉडल 256K टोकन संदर्भ लंबाई तक के लिए मजबूत परिणाम प्रस्तुत करता है।
हम विभिन्न वास्तुशिल्प निर्णयों का अध्ययन करते हैं, जैसे कि ट्रांसफॉर्मर और माम्बा परतों को कैसे संयोजित किया जाए, और विशेषज्ञों को कैसे मिलाया जाए, और यह दर्शाते हैं कि उनमें से कुछ बड़े पैमाने पर मॉडलिंग में महत्वपूर्ण हैं।
हम इन आर्किटेक्चर के कई दिलचस्प गुणों का भी वर्णन करते हैं, जो जाम्बा के प्रशिक्षण और मूल्यांकन से पता चले हैं, और इस नवीन आर्किटेक्चर के आगे के अन्वेषण को प्रोत्साहित करने के लिए विभिन्न एब्लेशन रन से चेकपॉइंट जारी करने की योजना बना रहे हैं।
हम जाम्बा के अपने कार्यान्वयन के भार को अनुमेय लाइसेंस के तहत सार्वजनिक रूप से उपलब्ध कराते हैं।
कार्यान्वयन हगिंगफेस रिपोजिटरी पर यहां उपलब्ध है:
मॉडल: https://huggingface.co/ai21labs/Jamba-v0.1
अन्य मॉडलों से तुलना :
विभिन्न मानकों पर मूल्यांकन करने पर, जाम्बा ने अन्य अत्याधुनिक मॉडलों जैसे कि मिस्ट्रल-8x7B , लामा-2 70B , और मिक्सट्रल-8x7B के साथ तुलनीय प्रदर्शन प्रदर्शित किया है।
उल्लेखनीय रूप से, जाम्बा 256K टोकन तक की संदर्भ लंबाई का समर्थन करता है , जो सार्वजनिक रूप से उपलब्ध मॉडलों में सबसे लंबी है
हेलस्वैग , आर्क चैलेंज और पीआईक्यूए जैसे कार्यों में , जाम्बा लामा 2 , मिक्सट्रल 8x7बी और जेम्मा जैसे मॉडलों से बेहतर प्रदर्शन करता है।
संक्षेप में, जाम्बा की हाइब्रिड वास्तुकला ट्रांसफॉर्मर्स और माम्बा परतों की शक्तियों को जोड़ती है, जिसके परिणामस्वरूप प्रभावशाली प्रदर्शन और मापनीयता होती है।
याद रखने योग्य मुख्य आरेख ऊपर दिए गए शोध पत्र में प्रस्तुत किया गया है:
माम्बा और ट्रांसफॉर्मर मॉडल के अंतर्संबंध से समय जटिलता में अविश्वसनीय वृद्धि होती है, जिसे नीचे दिए गए लेख में खूबसूरती से संक्षेपित किया गया है:
माम्बा और जाम्बा - सरलता से समझाया गया
लेखक : निमृता कौल
दिनांक : 1 अप्रैल, 2024
सारांश :
जाम्बा AI21 द्वारा प्रस्तुत पहला उत्पादन-ग्रेड माम्बा-आधारित वृहद भाषा मॉडल है।
इसमें ट्रांसफॉर्मर और माम्बा दोनों आर्किटेक्चर की ताकतें सम्मिलित हैं।
ट्रांसफार्मर-आधारित मॉडल O(n²) की प्रशिक्षण समय जटिलता के कारण लंबे अनुक्रमों के साथ संघर्ष करते हैं।
माम्बा आर्किटेक्चर रैखिक प्रशिक्षण समय जटिलता ( O(n) ) और स्थिर अनुमान समय ( O(1) ) प्रदान करता है।
माम्बा स्टेट स्पेस मॉडल (एसएसएम) आर्किटेक्चर पर आधारित है।
एसएसएम, विभेदक या अंतर समीकरणों का उपयोग करके किसी प्रणाली का वर्णन करने के लिए अवस्था चरों का उपयोग करते हैं।
माम्बा के हाइब्रिड दृष्टिकोण का लक्ष्य मौजूदा मॉडलों की सीमाओं को संबोधित करना है।
आप यहां पर पूरा लेख पढ़ सकते हैं:
माम्बा और जाम्बा - सरलता से समझाया गया , निम्रिता कौल द्वारा, मीडियम.कॉम पर।
इष्टतम सीमा तक पहुँच गया है!
यहां ध्यान देने योग्य मुख्य बात यह है कि प्रशिक्षण के लिए, एल्गोरिथ्म को प्रत्येक इनपुट टोकन को कम से कम एक बार देखना होगा, जिससे समय जटिलता O(n) होगी।
इसके अलावा, किसी भी एलएलएम मॉडल के लिए अनुमान लगाने की सबसे तेज़ गति O(1) है - स्थिर समय, टोकन की लंबाई से स्वतंत्र (एक अविश्वसनीय उपलब्धि)!
जाम्बा एल्गोरिथम के मामले में ये दोनों सीमाएं पार हो चुकी हैं!
इसलिए निरंतर-समय सुधारों के अंतर्गत - जो अभी भी बहुत अधिक हो सकते हैं (ये संख्याएं सैकड़ों अरबों में हैं):
जाम्बा ने ट्रांसफॉर्मर एल्गोरिथ्म के लिए समय जटिलता की इष्टतम सीमा तक पहुंच बना ली है!
दी गई प्रणाली स्थितियों के अंतर्गत, जब तक कि नई तकनीक (क्वांटम कंप्यूटिंग, कोई भी) पेश नहीं की जाती है, तब तक हमारे पास तीव्र असिमोटोटिक समय जटिलता नहीं हो सकती है!
जो कि एक बहुत ही महत्वपूर्ण परिणाम है!
A121 लैब्स द्वारा आधिकारिक घोषणा:
मीडियम पर जाम्बा पर एक और अच्छा लेख:
इस समय उपलब्ध जाम्बा के सर्वोत्तम कार्यान्वयनों में से एक:
एक बार फिर, हगिंगफेस हब का जाम्बा मॉडल:
निष्कर्ष
इस प्रकार जाम्बा उस अंतिम समय जटिलता तक पहुँच जाता है जिसे मौजूदा सिस्टम के तहत करंट ट्रांसफॉर्मर एल्गोरिदम द्वारा एक स्थिर स्तर भिन्नता तक प्राप्त किया जा सकता है। दोहराएँ; स्थिरांक बहुत बड़े हो सकते हैं, क्योंकि ये सैकड़ों अरबों पदों के क्रम में हैं! हालाँकि, यह अभी भी एक महत्वपूर्ण उपलब्धि है। और इस पर शोध की कोई सीमा नहीं है जहाँ तक यह जा सकता है, खासकर जब इसे DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन) और क्वांटिज़ेशन के साथ जोड़ा जाता है - अधिक जानकारी के लिए उपसंहार देखें।
उपसंहार:
इसका एक पक्ष ऐसा भी है जिस पर कोई भी खुलकर काम नहीं कर रहा है।
क्या माम्बा, xLSTM और जाम्बा मॉडल को 1-बिट परिशुद्धता तक परिमाणित किया जा सकता है?
बिल्कुल!
मैं एक-बिट में परिमाणित होने के बाद माम्बा और जाम्बा के प्रदर्शन में सुधार देखने के लिए उत्सुक हूँ! या 1.58 बिट {-1, 0, 1}।
एक बार फिर, अधिक जानकारी के लिए यह आलेख देखें:
इस तकनीक का भविष्य अविश्वसनीय रूप से रोमांचक होने वाला है!
इस क्षेत्र में काम करने का आनंद और रोमांच सदैव आपके साथ बना रहे!
प्रोत्साहित करना!
संदर्भ:
उपरोक्त लेख में स्पष्ट रूप से उल्लिखित के अलावा:
- ट्रांसफॉर्मर-एक्सएल: निश्चित-लंबाई संदर्भ से परे चौकस भाषा मॉडल
- दाई, जेड., यांग, जेड., यांग, वाई., कार्बोनेल, जे., और ले, क्यू.वी. (2019)। ट्रांसफॉर्मर-एक्सएल: एक निश्चित-लंबाई संदर्भ से परे चौकस भाषा मॉडल ।
- लॉन्गफॉर्मर: लॉन्ग-डॉक्यूमेंट ट्रांसफॉर्मर
- बेल्टागी, आई., पीटर्स, एम.ई., और कोहन, ए. (2020). लॉन्गफ़ॉर्मर: लॉन्ग-डॉक्यूमेंट ट्रांसफ़ॉर्मर ।
- रिफॉर्मर: कुशल ट्रांसफार्मर
- किताएव, एन., कैसर, एल., और लेव्स्काया, ए. (2020). रिफॉर्मर: द एफिशिएंट ट्रांसफॉर्मर ।
- लिनफॉर्मर: रैखिक जटिलता के साथ आत्म-ध्यान
- वांग, एस., ली, बी.जेड., खबसा, एम., फैंग, एच., और मा, एच. (2020). लिनफ़ॉर्मर: रैखिक जटिलता के साथ आत्म-ध्यान ।
- स्टेट स्पेस मॉडल: समय श्रृंखला डेटा मॉडलिंग के लिए एक सामान्य ढांचा
- डर्बिन, जे., और कूपमैन, एस.जे. (2012). स्टेट स्पेस मॉडल: टाइम सीरीज़ डेटा मॉडलिंग के लिए एक सामान्य ढांचा।
- एस4: संरचित राज्य स्थानों के साथ अनुक्रम मॉडलिंग
- गु, ए., गोयल, के., और रे, सी. (2021). एस4: संरचित राज्य स्थानों के साथ अनुक्रम मॉडलिंग।
- बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर
- अनाम लेखक। (वर्ष निर्दिष्ट नहीं)। [बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर](URL प्रदान नहीं किया गया)।
- कुशल ट्रांसफार्मर: एक सर्वेक्षण
- टाय, वाई., देघघानी, एम., बहरी, डी., और मेट्ज़लर, डी. (2020). कुशल ट्रांसफार्मर: एक सर्वेक्षण ।
- कुशल पूर्णांक-अंकगणित-केवल अनुमान के लिए तंत्रिका नेटवर्क का परिमाणीकरण और प्रशिक्षण
- जैकब, बी., क्लिगिस, एस., चेन, बी., झू, एम., टैंग, एम., हॉवर्ड, ए., ... और एडम, एच. (2018)। कुशल पूर्णांक-अंकगणित-केवल अनुमान के लिए तंत्रिका नेटवर्क का परिमाणीकरण और प्रशिक्षण।
- क्यू-बर्ट: बर्ट का हेसियन आधारित अल्ट्रा लो प्रिसिजन क्वांटाइजेशन
- शेन, एस., डोंग, जेड., ये, जे., मा, एल., और घोलामी, ए. (2020). क्यू-बर्ट: बर्ट का हेसियन आधारित अल्ट्रा लो प्रिसिजन क्वांटाइजेशन
- BERT: भाषा समझ के लिए डीप बाइडायरेक्शनल ट्रांसफॉर्मर्स का पूर्व-प्रशिक्षण
- डेवलिन, जे., चांग, एमडब्लू, ली, के., और टाउटानोवा, के. (2018). बर्ट: भाषा समझ के लिए डीप बाइडायरेक्शनल ट्रांसफॉर्मर्स का प्री-ट्रेनिंग।
- GPT-3: भाषा मॉडल बहुत कम सीखने वाले होते हैं
- ब्राउन, टीबी, मान, बी., राइडर, एन., सुब्बियाह, एम., कपलान, जे., धारीवाल, पी., ... और अमोदेई, डी. (2020). जीपीटी-3: भाषा मॉडल कम सीखने वाले होते हैं।
- रोबर्टा: एक मज़बूती से अनुकूलित BERT प्रीट्रेनिंग दृष्टिकोण
- लियू, वाई., ओट, एम., गोयल, एन., डू, जे., जोशी, एम., चेन, डी., ... और स्टॉयनोव, वी. (2019)। रोबर्टा: एक मज़बूती से अनुकूलित BERT प्रीट्रेनिंग दृष्टिकोण ।
- अल्बर्ट: भाषा अभ्यावेदन के स्व-पर्यवेक्षित शिक्षण के लिए एक लाइट बर्ट
- लैन, जेड., चेन, एम., गुडमैन, एस., जिम्पेल, के., शर्मा, पी., और सोरिकट, आर. (2019). अल्बर्ट: भाषा अभ्यावेदन के स्व-पर्यवेक्षित शिक्षण के लिए एक लाइट बर्ट।
- T5: एकीकृत टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज
- राफेल, सी., शज़ीर, एन., रॉबर्ट्स, ए., ली, के., नारंग, एस., मटेना, एम., ... और लियू, पी.जे. (2019)। टी5: एकीकृत टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज।
- डिस्टिलबर्ट, बर्ट का आसुत संस्करण: छोटा, तेज, सस्ता और हल्का
- सान्ह, वी., डेब्यू, एल., चौमोंड, जे., और वुल्फ, टी. (2019)। डिस्टिलबर्ट, बर्ट का एक आसुत संस्करण: छोटा, तेज़, सस्ता और हल्का ।
प्रस्तावना और उपसंहार के लिए
क्वांटीकरण के लिए यह पेपर निश्चित रूप से पढ़ने लायक है:
शोध पत्र - बिटनेट: बड़े भाषा मॉडल के लिए 1-बिट ट्रांसफॉर्मर स्केलिंग :
सार : बड़े भाषा मॉडल के बढ़ते आकार ने तैनाती के लिए चुनौतियां पेश की हैं और उच्च ऊर्जा खपत के कारण पर्यावरणीय प्रभाव के बारे में चिंताएं जताई हैं। इस काम में, हम BitNet को पेश करते हैं, जो बड़े भाषा मॉडल के लिए डिज़ाइन किया गया एक स्केलेबल और स्थिर 1-बिट ट्रांसफॉर्मर आर्किटेक्चर है। विशेष रूप से, हम
nn.Linear
परत के लिए एक ड्रॉप-इन प्रतिस्थापन के रूप में BitLinear को स्क्रैच से 1-बिट वेट को प्रशिक्षित करने के लिए पेश करते हैं। भाषा मॉडलिंग पर प्रायोगिक परिणाम दिखाते हैं कि BitNet अत्याधुनिक 8-बिट क्वांटिज़ेशन विधियों और FP16 ट्रांसफॉर्मर बेसलाइन की तुलना में मेमोरी फ़ुटप्रिंट और ऊर्जा खपत को काफी कम करते हुए प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। इसके अलावा, BitNet पूर्ण-सटीक ट्रांसफ़ॉर्मर्स के समान स्केलिंग कानून प्रदर्शित करता है
https://arxiv.org/abs/2310.11453
और हगिंगफेस पर मॉडल:
- हगिंग फेस रिपोजिटरी - बिटनेट b1.58-3B क्वांटाइज्ड :
इस रिपॉजिटरी में बिटनेट b1.58-3B मॉडल का क्वांटाइज्ड संस्करण शामिल है।
जबकि मूल रिपोजिटरी प्रभावशाली सत्यापन परिणाम प्रदर्शित करती है, यह बिटनेट की रैखिक परतों का अनुकरण करती है, जिसके परिणामस्वरूप मेमोरी उपयोग FP16 मॉडल के समान होता है।
हगिंग फेस मॉडल का अन्वेषण करें