ठीक है, ChatGPT को रिलीज़ हुए एक साल से अधिक समय हो गया है। इस महत्वपूर्ण मोड़ से पहले, अनुसंधान समुदाय और उद्योग के नेता पहले से ही स्थिर प्रसार निष्कर्षों और अनुप्रयोगों की एक श्रृंखला के साथ, विशेष रूप से कंप्यूटर विज़न के क्षेत्र में जेनरेटिव एआई पर सक्रिय रूप से काम कर रहे थे। संक्षेप में संक्षेप में कहें तो, 2022 को स्थिर प्रसार का वर्ष माना जा सकता है, और 2023 को बड़े भाषा मॉडल (एलएलएम) का वर्ष माना जा सकता है।
2023 की शुरुआत में एलएलएम के प्रभुत्व को चिह्नित किया गया, जिसमें चैटजीपीटी ने व्यापक रूप से अपनाने और नवाचार में नेतृत्व किया। इस वर्ष एलएलएम विभिन्न क्षेत्रों में व्यापक होता जा रहा है, जिससे सैद्धांतिक अनुसंधान और व्यावहारिक उद्योग अनुप्रयोगों के बीच अंतर को प्रभावी ढंग से कम किया जा रहा है। आइए 2023 में एलएलएम परिदृश्य को आकार देने वाले प्रमुख मील के पत्थर और रुझानों का पता लगाएं, साथ ही इस बात की भी जानकारी लें कि उन्होंने प्रौद्योगिकी के साथ हमारी बातचीत में कैसे क्रांति ला दी है।
ओपन-सोर्स एलएलएम का वर्ष
2023 में, हमने ओपन-सोर्स बड़े भाषा मॉडल (एलएलएम) के लिए एक उल्लेखनीय वर्ष देखा। सबसे महत्वपूर्ण रिलीज़ मेटा द्वारा LLaMa श्रृंखला थी, जिसने उसके बाद लगातार रिलीज़ के लिए एक मिसाल कायम की, जिसमें हर महीने, सप्ताह और कभी-कभी दैनिक रूप से नए मॉडल सामने आए। मेटा, एलुथेरएआई, मोज़ेकएमएल, टीआईआईयूएई और स्टेबिलिटीएआई जैसे प्रमुख खिलाड़ियों ने एआई समुदाय के भीतर विविध आवश्यकताओं को पूरा करते हुए, सार्वजनिक डेटासेट पर प्रशिक्षित विभिन्न प्रकार के मॉडल पेश किए। इनमें से अधिकांश मॉडल डिकोडर-केवल ट्रांसफॉर्मर थे, जो चैटजीपीटी द्वारा स्थापित प्रवृत्ति को जारी रखते थे। इस वर्ष जारी किए गए कुछ सबसे उल्लेखनीय मॉडल यहां दिए गए हैं:
मेटा द्वारा LLaMa: LLaMa परिवार विभिन्न आकारों के मॉडल पेश करता है, जिसमें सबसे बड़ा मॉडल 65 बिलियन मापदंडों का दावा करता है, जिसे 1.4 ट्रिलियन टोकन पर प्रशिक्षित किया गया है। विशेष रूप से, छोटे मॉडल, विशेष रूप से 1 ट्रिलियन टोकन पर प्रशिक्षित 13 बिलियन मापदंडों वाले मॉडल ने, अधिक डेटा पर विस्तारित प्रशिक्षण अवधि का लाभ उठाकर बेहतर प्रदर्शन का प्रदर्शन किया, यहां तक कि कुछ बेंचमार्क में बड़े मॉडल को भी पीछे छोड़ दिया। 13B LLaMa मॉडल ने अधिकांश बेंचमार्क में GPT-3 से बेहतर प्रदर्शन किया, और सबसे बड़े मॉडल ने अपनी रिलीज़ पर नए अत्याधुनिक प्रदर्शन बेंचमार्क स्थापित किए।एलुथर एआई द्वारा पाइथिया: पाइथिया में 154 आंशिक रूप से प्रशिक्षित चौकियों के साथ 16 मॉडलों का एक सूट शामिल है, जिसे खुले तौर पर सुलभ और पारदर्शी रूप से प्रशिक्षित एलएलएम पर नियंत्रित वैज्ञानिक अनुसंधान की सुविधा के लिए डिज़ाइन किया गया है। यह श्रृंखला एलएलएम के प्रशिक्षण के लिए विस्तृत पेपर और एक व्यापक कोडबेस प्रदान करके शोधकर्ताओं को बहुत सहायता करती है।मोज़ेकएमएल द्वारा एमपीटी औरTIIUAE द्वारा फाल्कन श्रृंखला: दोनों को 1T से 1.5T टोकन तक विभिन्न प्रकार के डेटा स्रोतों पर प्रशिक्षित किया गया था, और 7B और 30B मापदंडों के साथ संस्करण तैयार किए गए थे। विशेष रूप से, बाद में वर्ष में, TIIUAE ने 180B मॉडल जारी किया, जो अब तक का सबसे बड़ा ओपन-सोर्स मॉडल है।मिस्ट्राल ,पीएचआई औरओर्का : ये मॉडल 2023 में एक और प्रवृत्ति को उजागर करते हैं, सीमित हार्डवेयर और बजट बाधाओं के लिए उपयुक्त छोटे और अधिक कुशल मॉडल के प्रशिक्षण पर ध्यान केंद्रित करते हुए, एआई मॉडल विकास में पहुंच और व्यावहारिकता की दिशा में एक महत्वपूर्ण बदलाव को चिह्नित करते हैं।
छोटा और कुशल मॉडल
2023 में, हमने कई छोटे और कुशल मॉडल भी जारी होते देखे हैं। इस प्रवृत्ति का प्राथमिक कारण अधिकांश अनुसंधान समूहों के लिए बड़े मॉडलों के प्रशिक्षण की अत्यधिक उच्च लागत है। इसके अतिरिक्त, बड़े मॉडल अक्सर अपनी महंगी प्रशिक्षण और तैनाती लागत के साथ-साथ अपनी महत्वपूर्ण मेमोरी और कम्प्यूटेशनल पावर आवश्यकताओं के कारण कई वास्तविक दुनिया के अनुप्रयोगों के लिए अनुपयुक्त होते हैं। इसलिए, छोटे और कुशल मॉडल वर्ष के मुख्य रुझानों में से एक बनकर उभरे हैं। जैसा कि पहले उल्लेख किया गया है, मिस्ट्रल और ओर्का श्रृंखला इस प्रवृत्ति में प्रमुख खिलाड़ी रहे हैं। मिस्ट्रल ने 7बी मॉडल के साथ समुदाय को आश्चर्यचकित कर दिया, जिसने अधिकांश बेंचमार्क में अपने बड़े समकक्षों से बेहतर प्रदर्शन किया, जबकि फाई श्रृंखला और भी छोटी है, केवल 1.3बी से 2.7बी मापदंडों के साथ, फिर भी यह प्रभावशाली प्रदर्शन प्रदान करता है।
एक और नवीन दृष्टिकोण है
छोटे और कुशल मॉडलों की सफलता काफी हद तक डेटा गुणवत्ता और तेजी से ध्यान देने वाली युक्तियों पर निर्भर करती है। जबकि मिस्ट्रल ने अपने प्रशिक्षण डेटा की विशिष्टताओं का खुलासा नहीं किया है, विभिन्न शोधों और मॉडलों से पता चला है कि प्रभावी मॉडलों के प्रशिक्षण के लिए डेटा गुणवत्ता महत्वपूर्ण है। इस वर्ष की सबसे उल्लेखनीय खोजों में से एक है
निम्न-रैंक अनुकूलन ट्यूनिंग
ठीक है, चलो बात करते हैं
लोरा मूल रूप से पूर्व-प्रशिक्षित मॉडल वजन को फ्रीज करता है और प्रशिक्षित परतों ( रैंक-डीकंपोजीशन मैट्रिक्स ) को इंजेक्ट करता है। ये मैट्रिक्स कॉम्पैक्ट हैं फिर भी मॉडल के व्यवहार के लिए आवश्यक अनुकूलन को अनुमानित करने में सक्षम हैं, जो मूल मॉडल के ज्ञान की अखंडता को बनाए रखते हुए कुशल फाइन-ट्यूनिंग की अनुमति देते हैं। LoRA का सबसे अधिक उपयोग किया जाने वाला संस्करण है
विशेषज्ञों का मिश्रण
पिछले वर्ष जारी किए गए सबसे उल्लेखनीय MoE मॉडलों में से एक है
भाषा से लेकर सामान्य आधार मॉडल तक
एलएलएम सामान्य आधार मॉडल में विकसित हो रहे हैं, जो भाषा प्रसंस्करण से परे अपनी क्षमताओं का विस्तार कर रहे हैं। यह परिवर्तन उन मॉडलों की ओर बदलाव का प्रतीक है जो न केवल पाठ को समझ सकते हैं और उत्पन्न कर सकते हैं बल्कि कोड, दृश्य सामग्री, ऑडियो और भी बहुत कुछ उत्पन्न कर सकते हैं। पिछले साल, हमने जैसे मॉडलों की शुरूआत देखी
उपकरण से सुसज्जित एजेंट
विभिन्न उपकरणों और प्लेटफार्मों के साथ एलएलएम का एकीकरण एआई को रोजमर्रा के उपयोग के लिए अधिक सुलभ और व्यावहारिक बना रहा है। इन उपकरणों से लैस एजेंटों को कोडिंग सहायता से लेकर रचनात्मक लेखन तक विशिष्ट कार्यों के लिए तैयार किया जा रहा है, जिससे एआई कई पेशेवर वर्कफ़्लो का एक अनिवार्य हिस्सा बन गया है। यह विकास एलएलएम की तर्कशक्ति और कार्य क्षमताओं के कारण संभव हुआ है। इस प्रकार की सुविधा को अक्सर फ़ंक्शन कॉलिंग के रूप में संदर्भित किया जाता है
OpenAI अभी भी उद्योग परिदृश्य पर हावी है
ओपनएआई ने अनुसंधान और अनुप्रयोग के मामले में अपना नेतृत्व बनाए रखते हुए उद्योग परिदृश्य पर अपना दबदबा बनाए रखा है। GPT-4 और नया
निष्कर्ष
वर्ष 2023 बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में महत्वपूर्ण विकास और नवाचार की अवधि को चिह्नित करता है। ओपन-सोर्स मॉडल के माध्यम से एआई के लोकतंत्रीकरण से लेकर अधिक कुशल और विशिष्ट प्रणालियों के विकास तक, ये प्रगति न केवल तकनीकी उपलब्धियां हैं, बल्कि एआई को विभिन्न डोमेन में अधिक सुलभ और लागू बनाने की दिशा में भी कदम हैं। आगे देखते हुए, इन प्रौद्योगिकियों के लिए उद्योगों को बदलने और मानव क्षमताओं को बढ़ाने की क्षमता एक रोमांचक संभावना बनी हुई है। 2024 में, हम और भी उल्लेखनीय मील के पत्थर की आशा करते हैं, मेटा ने एलएलएएमए-3 को प्रशिक्षित करने की योजना की घोषणा की है और इसे ओपन-सोर्स करने की योजना बनाई है। उद्योग परिदृश्य में, यह देखने में भी गहरी दिलचस्पी है कि क्या Google जैसे दिग्गज या एंथ्रोपिक जैसे स्टार्टअप OpenAI से आगे निकल सकते हैं।
अधिक लेखों के लिए मेरे व्यक्तिगत ब्लॉग पर जाएँ और सदस्यता लें।