यह अब कोई खबर नहीं है कि एलएलएम बदल गए हैं और विभिन्न उद्योगों में एआई और व्यवसायों के लिए खेल को बदलना जारी रखेंगे। आईबीएम के एक अध्ययन में पाया गया कि उत्पादकता में सुधार और प्रतिस्पर्धात्मक बढ़त हासिल करने के लिए सीईओ तेजी से जेनेरिक एआई को अपना रहे हैं । अध्ययन, जिसमें दुनिया भर के 3,000 सीईओ का सर्वेक्षण किया गया, में पाया गया कि 75% सीईओ का मानना है कि सबसे उन्नत जेनरेटिव एआई वाले संगठन को प्रतिस्पर्धात्मक लाभ होगा।
यदि आप सोच रहे हैं कि एलएलएम का उपयोग करने का सबसे अच्छा तरीका क्या है और क्या उन्हें बनाना या बेहतर बनाना है, तो हम इस गाइड को साझा करना चाहेंगे कि इसे प्रभावी ढंग से और कुशलता से करने के लिए आपको क्या पता होना चाहिए।
सबसे पहले, हम देखेंगे कि एलएलएम कैसे लागू किए जा रहे हैं और वे किन उद्योगों पर सबसे अधिक प्रभाव डाल सकते हैं ताकि आपको बेहतर अंदाजा हो कि आप एलएलएम के साथ क्या हासिल कर सकते हैं। फिर, हम इस बारे में बात करेंगे कि हम एलएलएम क्यों बनाते हैं या उसे बेहतर बनाते हैं। और अंत में, हम महत्वपूर्ण विचारों, रणनीतियों और सर्वोत्तम प्रथाओं को साझा करेंगे, ताकि आपके निर्णय लेने के बाद आपकी टीम का दृष्टिकोण बेहतर हो सके।
अब, आइए इस बात पर गहराई से विचार करें कि एलएलएम से उद्योगों और व्यवसायों में कैसे बदलाव आने का अनुमान है:
ओपनएआई, ओपन रिसर्च और पेंसिल्वेनिया विश्वविद्यालय के शोधकर्ताओं के हालिया वर्किंग पेपर में पाया गया कि एलएलएम आम तौर पर कई अमेरिकी बाजारों को प्रभावित कर सकता है, और निम्नलिखित के कारण सूचना उद्योग सबसे अधिक प्रभावित होगा:
इस बीच, मैकिन्से का एक अध्ययन बैंकिंग को उन उद्योगों में से एक के रूप में उद्धृत करता है जो एलएलएम के लिए सबसे महत्वपूर्ण प्रभाव देख सकते हैं। यदि उपयोग के मामले पूरी तरह से कार्यान्वित किए गए, तो उनका अनुमान है कि प्रौद्योगिकी $200 बिलियन से $340 बिलियन का अतिरिक्त वार्षिक मूल्य प्रदान करेगी।
दिलचस्प बात यह है कि मैकिन्से के इसी अध्ययन में यह भी दावा किया गया है कि फाउंडेशन मॉडल और जेनरेटिव एआई की बदौलत फार्मास्यूटिकल्स और मेडिकल उत्पादों को बढ़ावा दिया जा सकता है। अध्ययन में कहा गया है कि इसका असर सालाना 60 से 110 अरब डॉलर तक हो सकता है। विशेष रूप से, वे दवा खोज में संभावनाएं देखते हैं। ऐसे:
लेकिन जबकि फाउंडेशन मॉडल और एलएलएम के आसपास प्रचार जादुई सुधारों के विचारों को बढ़ावा दे सकता है, वास्तविकता एलएलएम है, और फाउंडेशन मॉडल सही नहीं हैं। जिस किसी ने भी बड़े पैमाने पर चैटजीपीटी या बाजार में अन्य एलएलएम का उपयोग किया है, उसने देखा है कि, विशेष रूप से डोमेन-विशिष्ट कार्यों के लिए, एलएलएम का सीधे बॉक्स से उपयोग करना विफल हो सकता है। यहां एलएलएम की कुछ चुनौतियाँ और सीमाएँ हैं:
शायद हमारे सामने आने वाली सबसे आम समस्या मतिभ्रम है। मतिभ्रम एक ऐसी घटना है जहां एलएलएम गलत बयान दे सकते हैं जो प्रशंसनीय लगते हैं। मतिभ्रम दो प्रकार के होते हैं: आंतरिक और बाह्य। आंतरिक मतिभ्रम तब होता है जब मॉडल त्रुटिपूर्ण तर्क का उपयोग करता है जो उपयोगकर्ता के इनपुट के खिलाफ जाता है, जबकि बाहरी मतिभ्रम तब होता है जब मॉडल उपयोगकर्ता के प्रश्न के संदर्भ को गलत समझता है।
जीपीटी जैसे फाउंडेशन मॉडल में एक छोटी संदर्भ विंडो होती है और इनपुट के रूप में केवल सीमित संख्या में वर्ण ही ले सकते हैं, जो विशिष्ट अनुप्रयोगों के लिए आदर्श नहीं हो सकता है। इंसानों की तरह, जैसे-जैसे इनपुट की लंबाई बढ़ती है, वैसे-वैसे मॉडल के लिए इसे सटीक रूप से संसाधित करने में कठिनाई होती है।
भयावह भूल एक ऐसी घटना है जो तब होती है जब एक कृत्रिम तंत्रिका नेटवर्क को क्रमिक रूप से कई कार्यों पर प्रशिक्षित किया जाता है, और कार्य ए के लिए नेटवर्क में महत्वपूर्ण भार को कार्य बी के उद्देश्यों के साथ संरेखित करने के लिए संशोधित किया जाता है। इससे नेटवर्क कार्य ए को भूल सकता है, भले ही यह पहले इसे अच्छी तरह से करने में सक्षम था।
एलएलएम, जो मुख्य रूप से बिना लेबल वाले डेटा पर प्रशिक्षित होते हैं, पूर्वाग्रह से ग्रस्त हो सकते हैं क्योंकि उनकी प्रशिक्षण प्रक्रिया में उपयोग किया जाने वाला डेटा वास्तविक दुनिया के डेटा वितरण का सटीक प्रतिनिधित्व नहीं हो सकता है। ऐसा इसलिए है क्योंकि प्रशिक्षण के लिए उपयोग किया जाने वाला पक्षपाती डेटा मॉडल के आउटपुट में प्रतिबिंबित हो सकता है।
ये सीमाएँ कंपनियों और उद्यमों को रणनीतिक रूप से सोचने के लिए प्रेरित करती हैं कि वे एलएलएम के साथ कैसे काम करना चाहते हैं। दरअसल, एलएलएम में कंपनियों के काम करने के तरीके को बदलने की व्यापक क्षमता है, जो उन्हें अधिक मूल्य प्रदान कर सकता है, लेकिन इन चुनौतियों का समाधान किया जाना चाहिए। यहीं पर मौजूदा एलएलएम के निर्माण या उसे बेहतर बनाने का सवाल उठ सकता है।
स्क्रैच से एलएलएम बनाना कब समझ में आता है? अपना स्वयं का एलएलएम बनाना सबसे अधिक सार्थक होगा यदि आपके पास एक बहुत ही अनोखा उपयोग का मामला है जो मौजूदा सामान्य एलएलएम सेवा नहीं दे सकता है या यदि एलएलएम आपकी कंपनी के लिए एक मुख्य उत्पाद या प्राथमिक व्यवसाय चालक बन जाता है। इसके अतिरिक्त, यदि आपके पास बड़ी मात्रा में मूल्यवान मालिकाना डेटा तक पहुंच है, तो डेटा गोपनीयता और सुरक्षा बनाए रखते हुए इसे अपने लाभ के लिए उपयोग करने के लिए एलएलएम बनाना भी समझदारी होगी।
एलएलएम को बेहतर बनाते समय आपके पास दो विकल्प होते हैं: मौजूदा ओपन-सोर्स एलएलएम के साथ जाना या वाणिज्यिक एलएलएम के एपीआई का उपयोग करना। यदि आपकी टीम के पास कम तकनीकी विशेषज्ञता है तो एक वाणिज्यिक एलएलएम अधिक सार्थक हो सकता है, जबकि एक ओपन-सोर्स मॉडल आपको अधिक नियंत्रण देगा। जैसा कि कहा गया है, एलएलएम को बेहतर बनाने से जुड़े जोखिम भी हैं। आपको संभावित पूर्वाग्रहों, विषाक्तता और डेटा सुरक्षा जोखिमों पर नज़र रखनी होगी। इसके अतिरिक्त, वाणिज्यिक एपीआई मॉडल और प्रशिक्षण डेटा की अनुकूलनशीलता और उत्पाद के नियंत्रण को सीमित कर सकते हैं।
चाहे आप फाइन-ट्यूनिंग कर रहे हों या शुरू से एलएलएम बनाने का चयन कर रहे हों, जान लें कि आपको अपने उद्देश्य तक पहुंचने के लिए महत्वपूर्ण संसाधन आवंटित करने के लिए तैयार रहना होगा। शुरुआत से एलएलएम बनाने के लिए समय और वित्त समर्पित करने के साथ-साथ सही विशेषज्ञता खोजने के अलावा बड़े पैमाने पर कम्प्यूटेशनल शक्ति की आवश्यकता होती है।
उदाहरण के लिए, OpenAI के GPT-3, जो लगभग 175 बिलियन मापदंडों वाला एक बड़ा भाषा मॉडल है, का अनुमान $4.6 मिलियन से अधिक है । ओपनएआई ने माइक्रोसॉफ्ट के एक सुपरकंप्यूटर में भी निवेश किया है जिसमें 285,000 से अधिक सीपीयू कोर और 10,000 जीपीयू हैं। 50 अरब मापदंडों वाले ब्लूमबर्ग के छोटे ब्लूमबर्गजीपीटी मॉडल को बनाने में लगभग 2.7 मिलियन डॉलर की लागत आने का अनुमान है। ये अनुमान इन एलएलएम को प्रभावी बनाने और सुनिश्चित करने के लिए आवश्यक मॉडल पुनरावृत्ति को कवर नहीं करते हैं।
एलएलएम के विशाल आकार को प्रभावी ढंग से संभालने के लिए, यह सुनिश्चित करना आवश्यक है कि डेटा को पर्याप्त रूप से साफ, लेबल, व्यवस्थित और कुशलतापूर्वक संग्रहीत किया गया है। याद रखें कि डेटा का प्रबंधन और प्रसंस्करण महंगा हो सकता है, विशेष रूप से आवश्यक बुनियादी ढांचे, उपकरण और डेटा इंजीनियरों को ध्यान में रखते हुए।
बेशक, एलएलएम को बेहतर बनाना अधिक व्यावहारिक हो सकता है क्योंकि इसमें आपके संगठन के निर्माण की तुलना में कम लागत आती है। एलएलएम को फाइन-ट्यून करने की लागत कई कारकों पर निर्भर करती है, जिसमें मॉडल का आकार, इसे फाइन-ट्यून करने के लिए उपयोग किए जाने वाले डेटा की मात्रा और उपयोग किए गए कंप्यूटिंग संसाधन शामिल हैं।
एलएलएम को फाइन-ट्यूनिंग करने की लागत उपयोग किए गए विशिष्ट फाइन-ट्यूनिंग एल्गोरिदम से भी प्रभावित हो सकती है, और कुछ एल्गोरिदम दूसरों की तुलना में अधिक कम्प्यूटेशनल रूप से महंगे हैं। OpenAI के फाइन-ट्यूनिंग मॉडल की कीमत प्रति 1,000 टोकन $0.0004 से $0.0300 तक हो सकती है और यह इस बात पर निर्भर करेगा कि आप प्रशिक्षण के लिए किस प्रकार के मॉडल का उपयोग कर रहे हैं। और उसके बाद प्रति 1,000 टोकन पर लगभग $0.0016 से $0.1200 तक के उपयोग की अतिरिक्त लागत आती है।
जैसा कि कहा गया है, विभिन्न फाइन-ट्यूनिंग तकनीकों में प्रगति ने इसे ऐसा बना दिया है कि वित्तीय और कम्प्यूटेशनल लागत को कम किया जा सकता है। एक उदाहरण जीपीटी-3 को बेहतर बनाने के लिए हगिंग फेस द्वारा निष्पक्षता और पारदर्शिता दृष्टिकोण के साथ नीति मूल्यांकन का उपयोग है। इस विधि और बिटसैंडबाइट्स लाइब्रेरी का लाभ उठाकर, हगिंग फेस ने प्रदर्शित किया है कि उपलब्ध जीपीयू मेमोरी से काफी बड़े एलएलएम को फाइन-ट्यून करना संभव है। हम इस लेख में कुछ और तरीकों पर चर्चा करेंगे।
इसमें कोई आश्चर्य नहीं होना चाहिए कि एलएलएम के निर्माण और उसे बेहतर बनाने के लिए उन्नत तकनीकी विशेषज्ञता की आवश्यकता होती है। एक वरिष्ठ मशीन लर्निंग इंजीनियर एलएलएम को बेहतर बनाने के लिए आवश्यक ज्ञान से सुसज्जित होगा। हालाँकि, आपको अपने स्वयं के एलएलएम को ठीक से शुरू करने और बनाने के लिए वास्तव में असाधारण मशीन लर्निंग इंजीनियरों की एक टीम की आवश्यकता होगी। अपने संगठन का स्वयं का एलएलएम बनाने के लिए अपनी टीम में किस प्रकार के इंजीनियरों की आवश्यकता है, इसका बेहतर विचार पाने के लिए ओपनएआई, मेटा और गूगल एआई जैसी एआई कंपनियों के प्रमुख वैज्ञानिकों, शोधकर्ताओं और वास्तुकारों की प्रोफाइल पर एक नज़र डालें। खरोंचना। आपको यह भी सुनिश्चित करना होगा कि इन शोधकर्ताओं को आपके उद्योग और व्यवसाय का मजबूत डोमेन ज्ञान हो।
यह सर्वविदित है कि शुरुआत से अपना स्वयं का एलएलएम बनाने के लिए बड़ी मात्रा में डेटा की आवश्यकता होगी। उदाहरण के लिए, एलएलएएमए ने 4.6 टेराबाइट्स तक पहुंचने वाले 1.4 ट्रिलियन टोकन वाले एक प्रशिक्षण डेटासेट का उपयोग किया। LLaMA के छोटे संस्करणों को 1 ट्रिलियन टोकन पर प्रशिक्षित किया गया था। GPT के मामले में, 1.5 ट्रिलियन टोकन का उपयोग किया गया था।
एलएलएम को बेहतर बनाने के लिए, आपकी पद्धति और संसाधनों के आधार पर, आपको कम की आवश्यकता होगी। एक उदाहरण Google का Med-PaLM 2 होगा, जिसे PaLM LLM से फाइन-ट्यून किया गया था। पेपर के अनुसार, एआई टीम ने निर्देश को फाइन-ट्यूनिंग का उपयोग किया और 193,000 उदाहरणों की आवश्यकता थी जो लगभग 19 मिलियन से 39 मिलियन टोकन होंगे। Med-PaLM 2 ने MedQA डेटासेट पर 86.5% स्कोर करके अपने पूर्ववर्ती की तुलना में एक नया अत्याधुनिक सेट किया, जिसका उपयोग Med-PaLM और PaLM के प्रदर्शन को मापने के लिए किया गया था।
लेकिन डेटा आकार से अधिक, कंपनियों को यह भी सुनिश्चित करना होगा कि उन्होंने उचित डेटा गुणवत्ता उपाय किए हैं क्योंकि "कचरा अंदर, कचरा बाहर" अभी भी बड़े भाषा मॉडल पर भी लागू होता है जो भारी मात्रा में प्रशिक्षण डेटा का उपयोग करते हैं।
मालिकाना डेटा का उपयोग करते समय, संगठनों को अधिक प्रभावी मॉडल के लिए गुणवत्ता और नैतिकता को उच्च मानक पर रखने के लिए निम्नलिखित कार्यों का पता लगाना होगा:
संगठन के लक्ष्यों के आधार पर, एलएलएम को ठीक करना वास्तव में पर्याप्त हो सकता है। आपके संगठन की आवश्यकताओं के अनुरूप एलएलएम को अनुकूलित करने और उसके प्रदर्शन में सुधार करने के विभिन्न तरीके हैं। हालाँकि, हम इष्टतम दृष्टिकोण निर्धारित करने के लिए एक पिछड़ी पद्धति का पालन करने की सलाह देते हैं। यह विधि एलएलएम को बेहतर बनाने की लागत को कम करने में भी मदद करती है, क्योंकि जितना अधिक आप इन चरणों में "पीछे" जाएंगे, तकनीकें उतनी ही अधिक महंगी हो सकती हैं।
आइए इसे सबसे सरल तरीके से तोड़ें।
आमतौर पर, फाउंडेशन मॉडल या एलएलएम का प्रशिक्षण मशीन लर्निंग इंजीनियरों के साथ शुरू होता है, जो बिना पर्यवेक्षण के प्रशिक्षण से गुजरते हैं, फिर एलएलएम को ठीक करने के लिए पर्यवेक्षित प्रशिक्षण और अंत में, आवश्यक आउटपुट प्राप्त करने के लिए शीघ्र और शीघ्र ट्यूनिंग करते हैं। बेशक, बीच में अलग-अलग चरण हैं, लेकिन हम इन तीन चरणों पर कायम रहेंगे।
एलएलएम को बेहतर बनाने के लिए हमारा अनुशंसित मार्ग पीछे की ओर जाएगा। जहां आप सबसे पहले प्रॉम्प्ट-ट्यूनिंग शुरू करते हैं, जिसमें प्रॉम्प्ट इंजीनियरिंग और प्रॉम्प्ट डिबगिंग शामिल है। इसमें कम से कम संसाधनों का उपयोग होगा. हालाँकि, मान लीजिए कि एलएलएम स्थिर है या आपकी इच्छानुसार प्रदर्शन नहीं कर रहा है। उस स्थिति में, आप पर्यवेक्षित/निर्देश फाइन-ट्यूनिंग की ओर बढ़ते हैं, जिसमें आरएलएचएफ, पुनर्प्राप्ति-संवर्धित पीढ़ी, या ट्रांसफर लर्निंग जैसी विधियां शामिल हो सकती हैं।
अंत में, यदि बाकी सब विफल हो जाता है, तो अगला कदम अप्रशिक्षित तरीकों को अपनाना होगा और यह सुनिश्चित करना होगा कि हमारे पास मॉडल को पूर्व-प्रशिक्षित करने के लिए एक उपयुक्त डेटासेट है।
गतिशील वातावरण में तैनात अधिकांश मॉडलों की तरह, चाहे निर्मित या ठीक-ठीक, एलएलएम को ताजा डेटा के साथ प्रभावी बने रहने के लिए पुनरावृत्ति की आवश्यकता होती है। पुनरावृत्ति एक मॉडल को नए डेटा या ताज़ा उद्देश्यों में दोबारा फिट करना है। कंपनियों को ताजा डेटासेट का उपयोग करके नियमित रूप से दोहराए जाने वाले मॉडल के लिए मजबूत प्रक्रियाएं बनानी चाहिए, जिसमें निर्माण/फाइन-ट्यूनिंग, परीक्षण और उन्हें उत्पादन में तैनात करना शामिल है।
ओपनएआई जैसी सफल एलएलएम बनाने वाली कंपनियां लगातार जीपीटी-3 के नए संस्करण पेश करती रहती हैं। जबकि चैटजीपीटी का प्रशिक्षण डेटा कट-ऑफ सितंबर 2021 है, ओपनएआई मॉडल की पूर्वानुमान क्षमताओं में सुधार करने , पूर्वाग्रह को कम करने और कम नुकसान पहुंचाने के लिए उपयोगकर्ता के व्यवहार से ताजा डेटा का उपयोग करता है।
आपका व्यावसायिक उद्देश्य भी एक महत्वपूर्ण कारक है कि एलएलएम का निर्माण या उसे बेहतर बनाना सार्थक होगा या नहीं। विचार करें कि एलएलएम की क्षमताएं कंपनी की व्यापक रणनीतिक दृष्टि से कैसे मेल खाती हैं। इस तरह, आप अपने मुख्य व्यावसायिक उद्देश्यों पर ध्यान केंद्रित रखते हुए इन शक्तिशाली उपकरणों का उनकी पूरी क्षमता से लाभ उठाते हैं। इस आलेख के शीर्ष पर उल्लिखित उद्योगों में कुछ उदाहरण उद्धृत किए गए हैं, लेकिन अब आइए एलएलएम के कुछ कार्यों और विभिन्न उद्योगों के लिए उनके रणनीतिक निहितार्थों पर चर्चा करें:
चाहे आप एलएलएम बना रहे हों या उसे बेहतर बना रहे हों, सही एलएलएम का चयन अक्सर पहला कदम होता है। हां, एलएलएम के निर्माण के लिए भी, पहले से मौजूद मॉडल की वास्तुकला को देखना और वहीं से शुरुआत करना आम बात है। आपकी पसंद जो भी हो, टीमों को अपना सर्वश्रेष्ठ शुरुआती बिंदु खोजने के लिए कई मॉडलों के साथ प्रयोग और मूल्यांकन करना होगा।
एलएलएम का मूल्यांकन भी अपनी चुनौतियों के साथ आता है। आख़िरकार, यह अभी भी अनुसंधान का एक चालू क्षेत्र है, इसलिए इन मॉडलों के मूल्यांकन का कोई सख्त मानकीकरण या व्यवस्थितकरण नहीं है।
बेशक, हगिंगफेस जैसे समुदायों द्वारा निर्धारित लीडरबोर्ड हैं, जो आपको एक सामान्य विचार दे सकते हैं कि कोई मॉडल कितना अच्छा प्रदर्शन करेगा। लेकिन लीडरबोर्ड पर जो अच्छा प्रदर्शन कर सकता है वह आपके विशिष्ट उपयोग के मामले में उतनी आसानी से अनुवादित नहीं हो सकता है। एलएलएम का मूल्यांकन अक्सर बेंचमार्क डेटासेट पर किया जाता है, लेकिन उनका प्रदर्शन सटीक रूप से प्रतिबिंबित नहीं कर सकता है कि वे वास्तविक दुनिया के परिदृश्यों में कैसा प्रदर्शन करेंगे, जो बहुत अधिक विविध और अप्रत्याशित हो सकता है।
बड़े भाषा मॉडल के मूल्यांकन के लिए दो दृष्टिकोण हैं: एक मात्रात्मक और एक गुणात्मक दृष्टिकोण। दोनों अपनी चेतावनियों के साथ आते हैं।
मात्रात्मक मूल्यांकन में अक्सर मशीन लर्निंग मेट्रिक्स जैसे उलझन, BLEU, क्रॉस-एन्ट्रॉपी लॉस आदि शामिल होते हैं। OpenAI eval लाइब्रेरी, EleutherAI द्वारा lm-eval Python पैकेज और भाषा मॉडल का समग्र मूल्यांकन (HELM) जैसे उपकरण उपयोगकर्ताओं को अपने मूल्यांकन करने की अनुमति देते हैं। मात्रात्मक रूप से कई बेंचमार्क पर मॉडल।
जबकि मात्रात्मक मूल्यांकन सीधा है, ये मेट्रिक्स उपयोगकर्ताओं को उनके विशिष्ट कार्य के लिए उपयुक्त मॉडल चुनने में आवश्यक रूप से सहायता नहीं कर सकते हैं। उपयोगकर्ताओं को अक्सर ऐसे मॉडल की आवश्यकता होती है जो उनके विशिष्ट कार्य में उत्कृष्ट हो, जैसे कि कानूनी दस्तावेज़ का मसौदा तैयार करना या कंपनी की वित्तीय रिपोर्ट का विश्लेषण करना, न कि ऐसे मॉडल की जो उच्चतम सटीकता के साथ अगले टोकन की भविष्यवाणी कर सके।
गुणात्मक मूल्यांकन में सुसंगतता, पूर्वाग्रह, रचनात्मकता और विश्वसनीयता जैसे मानदंडों का उपयोग करके विशिष्ट कार्यों के आधार पर एलएलएम का मूल्यांकन करना शामिल है। यह मैन्युअल मूल्यांकन अपेक्षाकृत धीमा है क्योंकि मानव मूल्यांकनकर्ताओं की गति और उपलब्धता इसमें बाधा उत्पन्न कर सकती है। हालाँकि, डेटा लेबलिंग में समान स्वचालन तकनीकों को लागू करके प्रक्रिया को अनुकूलित करना संभव है: सक्रिय शिक्षण, प्रोग्रामेटिक क्यूए, ऑटो क्यूए, आदि।
आपकी कंपनी के विशिष्ट डेटासेट का उपयोग करके मात्रात्मक और गुणात्मक मूल्यांकन दोनों के संयोजन से सर्वोत्तम एलएलएम को बेहतर बनाने या आधार बनाने की सलाह दी जाएगी।
मशीन लर्निंग में स्केलिंग कानूनों का उपयोग कंप्यूट बजट के विस्तार के साथ डेटासेट आकार से अधिक मॉडल के आकार को बढ़ाने पर ध्यान केंद्रित करने के लिए किया जाता है। यह इस धारणा के तहत था कि बड़े मॉडल अधिक अंतर्दृष्टि निकाल सकते हैं और डेटा की मात्रा स्थिर रहने पर भी बेहतर प्रदर्शन कर सकते हैं।
लेकिन 2022 में, डीपमाइंड ने इस दृष्टिकोण को चुनौती दी , यह सुझाव देते हुए कि मॉडल को आम तौर पर प्रशिक्षित किया जाता है और इसलिए, मॉडल आकार के साथ-साथ डेटासेट का आकार भी बढ़ना चाहिए। डीपमाइंड के निष्कर्षों के अनुसार, कंप्यूटिंग शक्ति में प्रत्येक दस गुना वृद्धि के लिए मॉडल और डेटासेट का आकार लगभग तीन गुना बढ़ना चाहिए। इसका तात्पर्य यह है कि वर्तमान मॉडल इष्टतम डेटा/गणना वक्र से नीचे हैं, और उन्हें बड़ा बनाने से डेटा में वृद्धि के बिना बेहतर परिणाम नहीं मिलेंगे।
ये नए स्केलिंग कानून उपलब्ध जानकारी के आधार पर पहले अधिकतम उच्च गुणवत्ता वाले डेटासेट आकार का निर्धारण करने की सलाह देते हैं। फिर, डीपमाइंड के डेटा-इष्टतम स्केलिंग कानूनों का उपयोग करके, उस डेटासेट के लिए इष्टतम मॉडल आकार को उपलब्ध गणना के आधार पर चुना जा सकता है। यह आवश्यक है कि मॉडलों को मनमाने ढंग से बड़ा न बनाया जाए बल्कि डेटा के आधार पर सही संतुलन खोजा जाए। इसके अलावा, बड़े डेटासेट को एकत्र करने के लिए विशेषज्ञता और सामान्यीकरण में सुधार के लिए विविधता की आवश्यकता होती है, जो प्रक्रिया में जटिलता की एक और परत जोड़ती है।
चाहे आप फाइन-ट्यूनिंग कर रहे हों या एलएलएम का निर्माण कर रहे हों, मॉडल केवल उतने ही अच्छे होंगे जितना डेटा उन्हें प्रदान किया गया है। इसलिए आपका डेटा प्रतिनिधिक और व्यापक रूप से पूर्व-संसाधित होना चाहिए। डेटा स्रोतों की विविधता डोमेन-विशिष्ट एलएलएम के लिए भी फायदेमंद है।
उदाहरण के लिए, Google के Med-PaLM 2 को मॉडल को ठीक से ठीक करने के लिए कई स्वास्थ्य और चिकित्सा QA डेटासेट से सैकड़ों से हजारों उदाहरणों की आवश्यकता होती है। और ब्लूमबर्गजीपीटी के निर्माण के लिए, डेटासेट मिश्रण का उपयोग 51% वित्तीय डेटा और सामयिक विविधता के लिए 49% सामान्य डोमेन डेटा था। दोनों ही मामलों में, शोधकर्ताओं ने प्रभावी मॉडल बनाने के लिए उच्च-गुणवत्ता और प्रासंगिक डेटा का उपयोग सुनिश्चित करने के लिए व्यापक डेटा क्यूरेशन किया।
जब एलएलएम बनाने या उसे बेहतर बनाने की बात आती है तो कोई सीधा रास्ता नहीं है। अधिकांश मशीन लर्निंग या एआई प्रयासों की तरह, छोटी शुरुआत करना हमेशा एक अच्छा उपाय है। छोटे डेटासेट पर छोटे मॉडल से शुरुआत करने से प्रयोग आसान हो जाएगा। मॉडल आर्किटेक्चर में चौड़ाई, गहराई, विरलता आदि जैसे वृद्धिशील परिवर्तनों को दोहराने और पेश करने से आपकी टीम के लिए उनके प्रभाव का मूल्यांकन करना आसान हो जाएगा। आप पुराने मौजूदा मॉडलों से शुरुआत कर सकते हैं, उन्हें अपनी आवश्यकताओं के अनुसार समायोजित कर सकते हैं और वहीं से शुरुआत कर सकते हैं। एक बार जब आपका छोटा मॉडल अच्छी तरह से काम करने लगे, तो आप धीरे-धीरे मॉडल और डेटासेट का आकार बढ़ा सकते हैं।
फ़ॉलबैक की आवश्यकता होने पर अपने मॉडल के स्नैपशॉट को बैकअप के रूप में सहेजना याद रखें। चाहे आप निर्माण कर रहे हों या सुधार कर रहे हों, असफलताएँ अवश्यंभावी होंगी, इसलिए मुद्दों का पूर्वानुमान लगाना महत्वपूर्ण है।
यह हमें अस्थिरता को कम करने के महत्वपूर्ण समय बचाने वाले अभ्यास की ओर ले जाता है। मॉडल जितना बड़ा होगा, उसका रखरखाव करना उतना ही कठिन होगा। ओवरफिटिंग और अंडरफिटिंग के अलावा, आपका मॉडल गायब होने या विस्फोट करने वाले ग्रेडिएंट्स, मोड पतन, हानि स्पाइक्स, भयावह भूल और हार्डवेयर बाधाओं जैसे मुद्दों से गुजर सकता है।
हम पहले ही विनाशकारी विस्मृति पर चर्चा कर चुके हैं, जो तब होती है जब कोई मॉडल नए प्रकार के कार्य को शुरू करने के बाद पिछले कार्य पर खराब प्रदर्शन करता है। गहरे तंत्रिका नेटवर्क के प्रशिक्षण में ग्रेडिएंट्स का गायब होना या विस्फोट होना आम समस्या है, जहां ग्रेडिएंट्स बहुत छोटे या बहुत बड़े हो जाते हैं, जिसके परिणामस्वरूप सीखने की प्रक्रिया धीमी या अस्थिर हो जाती है। मोड पतन जेनरेटिव मॉडल में होता है और तब होता है जब मॉडल अलग-अलग इनपुट होने के बावजूद समान आउटपुट उत्पन्न करता है। घाटे में बढ़ोतरी का तात्पर्य मॉडल से लगातार खराब भविष्यवाणियों से है। और अंत में, एलएलएम के साथ काम करना हार्डवेयर के लिए चुनौतीपूर्ण हो सकता है और इसके परिणामस्वरूप विफलताएं हो सकती हैं।
ऐसे कई तरीके हैं जिनसे आप तैयारी कर सकते हैं या कम से कम अस्थिरता को कम कर सकते हैं। ये अभूतपूर्व नहीं हैं, लेकिन ये मानक प्रथाएं हैं जिन्हें आप विभिन्न गहन शिक्षण अनुप्रयोगों में भी देख सकते हैं:
बैच आकार - आमतौर पर सबसे बड़े बैच आकार का उपयोग करने की सलाह दी जाती है जो आपकी जीपीयू मेमोरी में फिट हो सके। बड़े बैच आकार कम्प्यूटेशनल दक्षता, मेमोरी उपयोग और संभावित रूप से अधिक सटीक ग्रेडिएंट अनुमान के संदर्भ में लाभ प्रदान करते हैं। वे जीपीयू की समानांतर प्रसंस्करण क्षमताओं का बेहतर उपयोग कर सकते हैं, जिसके परिणामस्वरूप प्रशिक्षण समय तेज हो जाता है।
नियमितीकरण तकनीकों का उपयोग करें - ड्रॉपआउट और वजन में कमी जैसी नियमितीकरण तकनीकें ओवरफिटिंग या मॉडल अस्थिरता को रोकने में मदद कर सकती हैं।
बैच सामान्यीकरण - बैच सामान्यीकरण आंतरिक सहसंयोजक बदलाव को कम करने में मदद कर सकता है, जिससे प्रशिक्षण के दौरान तेज और अधिक स्थिर अभिसरण की अनुमति मिलती है। यह यह सुनिश्चित करके लुप्त हो रही ग्रेडिएंट समस्या को कम करने में भी मदद करता है कि ग्रेडिएंट नेटवर्क के माध्यम से अधिक सुचारू रूप से प्रवाहित हो।
सही वेट इनिशियलाइज़ेशन चुनना - वेट इनिशियलाइज़ेशन प्रशिक्षण अस्थिरता को कम करने और प्रभावी शिक्षण सुनिश्चित करने में महत्वपूर्ण भूमिका निभाता है। वज़न प्रारंभ करने का एक सामान्य तरीका छोटे गाऊसी शोर का उपयोग करना है। इसमें शून्य के माध्य और एक छोटे मानक विचलन के साथ गॉसियन वितरण से वजन को यादृच्छिक रूप से प्रारंभ करना शामिल है। यादृच्छिक शोर जोड़कर, वज़न को प्रारंभिक विविधता दी जाती है, जिससे मॉडल प्रशिक्षण के दौरान विभिन्न समाधानों का पता लगाने में सक्षम हो जाता है।
डेटा संवर्द्धन - यदि आपका मॉडल सामान्यीकरण के लिए संघर्ष कर रहा है और ओवरफिटिंग की संभावना है, तो डेटा संवर्द्धन प्रशिक्षण डेटा में विविधताएं पेश करके और मॉडल की मजबूती में सुधार करके इसे कम करने में मदद कर सकता है।
सीखने की दर का निर्धारण - अपने नुकसान को कम करने और यथासंभव मॉडल स्थिरता बनाए रखने के लिए समय के साथ अपनी सीखने की दर को धीरे-धीरे कम करें। आप चरण क्षय या घातीय क्षय का उपयोग कर सकते हैं। चरण क्षय तब होता है जब आप नियमित अंतराल पर एक कारक द्वारा सीखने की दर को कम कर देते हैं, जबकि घातीय क्षय सीखने की दर को तेजी से कम कर देता है।
जैसे-जैसे व्यवसायों को एलएलएम के प्रभाव का एहसास होता जा रहा है, यह केवल समझ में आता है कि कंपनियां पूछना शुरू कर देती हैं कि इस मूल्यवान उपकरण का उपयोग करने का सबसे अच्छा तरीका क्या है। सही एलएलएम चुनना और इसे अपनी कंपनी की आवश्यकताओं के अनुरूप तैयार करना आसान विकल्प हो सकता है। हालाँकि, इसमें अभी भी मॉडल को प्रभावी ढंग से और सबसे कुशल तरीके से बेहतर बनाने के लिए कई तरह के विचार शामिल होंगे।
सबसे पहले, आपकी टीम को सर्वोत्तम शुरुआती बिंदु चुनने के लिए विभिन्न एलएलएम का सही ढंग से मूल्यांकन करने में सक्षम होना चाहिए। उन्हें मॉडल के साथ प्रयोग करने में सहज होना चाहिए। कुशल होने के लिए, उन्हें उच्च-गुणवत्ता वाले डेटा और सर्वोत्तम प्रथाओं को ध्यान में रखना होगा क्योंकि वे एलएलएम के निर्माण या उसे बेहतर बनाने के लिए एक रणनीति बनाते हैं।
आप चाहें तो यह एक जटिल और महत्वाकांक्षी परियोजना है, लेकिन जैसा कि हमने पहले ही देखा है, एलएलएम में मूल्य लाने की प्रभावशाली क्षमता है।
[4] सी. ली, डिमिस्टिफ़ाइंग जीपीटी-3 (2023), लैम्ब्डा लैब्स ब्लॉग