paint-brush
बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभारद्वारा@textmodels
157 रीडिंग

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार

द्वारा Writings, Papers and Blogs on Text Models4m2024/06/02
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।
featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;

(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

5. चर्चा

इस पेपर में प्रस्तुत शब्दावली अनुक्रमण निर्देशित पीढ़ी में एक निषेधात्मक रन-टाइम स्केलिंग बाधा को हटाता है। स्वाभाविक रूप से, यह प्रसंस्करण और मेमोरी के बीच एक समझौता करता है, लेकिन हमारा मानना है कि मेमोरी लागत औसतन अपेक्षाकृत कम है और - जब नहीं - पारंपरिक तरीकों से कम किया जा सकता है।


पायथन व्याकरण के थोड़े संवर्धित संस्करण का उपयोग करके हमारे परीक्षणों में, हम पाते हैं कि सरलता से निर्मित सूचकांक (यानी अप्रयुक्त और अनावश्यक पार्सर और FSM स्थिति कॉन्फ़िगरेशन वाले) अभी भी केवल 50 एमबी के आसपास हैं। इसके अलावा, इन सूचकांकों का निर्माण बिना कम किए गए DFA के साथ किया गया था, जिसका अर्थ है कि कई अनावश्यक स्थितियाँ हैं जो अनावश्यक रूप से सूचकांकों के आकार को बढ़ा रही हैं। इसी तरह, यदि स्टेट मशीनों का सटीक प्रतिनिधित्व कभी कोई समस्या है, तो यह संभव है कि कम मेमोरी आवश्यकताओं वाले अन्य स्टेट मशीन फॉर्मूलेशन पर्याप्त हो सकते हैं (जैसे NFA)।


इस कार्य के निहितार्थ तंत्रिका पाठ निर्माण तक सीमित नहीं हैं। उदाहरण के लिए, संरचित आउटपुट की आवश्यकता होने पर LLM के प्रशिक्षण या फ़ाइन-ट्यूनिंग में सहायता के लिए यहाँ वर्णित अनुक्रमण दृष्टिकोण का उपयोग किया जा सकता है। हम यह भी अनुमान लगा सकते हैं कि प्रशिक्षण के दौरान सहायक निर्माण से मॉडल को वाक्यविन्यास संबंधी विवरण सीखने की आवश्यकता कम हो सकती है।


इसके अलावा, यह विधि मौजूदा मॉडलों का मूल्यांकन करने का एक वैकल्पिक तरीका प्रदान करती है। उदाहरण के लिए, कोई हमारी विधि द्वारा उत्पन्न मास्क्ड लॉगिट और मॉडल द्वारा उत्पन्न रॉ लॉगिट के बीच विसंगति को मापने का प्रयास कर सकता है। जो बदले में मॉडल के प्रशिक्षण उद्देश्य को सूचित कर सकता है।


इस दृष्टिकोण द्वारा गणना किए गए मास्क को भाषा मॉडल में ही "उठाना" भी संभव हो सकता है। मूल रूप से, मास्क अप्रत्यक्ष रूप से यह निर्धारित करते हैं कि किन संगणनाओं को निष्पादित करने की आवश्यकता नहीं है। हमारा वर्तमान सूत्रीकरण केवल सबसे निचले स्तर पर मास्क लागू करता है, लेकिन, मॉडल की वास्तुकला में मास्क को और ऊपर उठाकर, हम अनावश्यक रूप से उन पर संचालन करने से पहले मॉडल मापदंडों के किन स्लाइस की आवश्यकता है, इसे मॉड्यूलेट करने में सक्षम हो सकते हैं। इससे कम्प्यूटेशनल लागत को और कम करने की क्षमता है।

संदर्भ

लुका ब्यूरर-केल्नर, मार्क फिशर और मार्टिन वेचेव। प्रॉम्प्टिंग प्रोग्रामिंग है: बड़े भाषा मॉडल के लिए एक क्वेरी भाषा। प्रोग्रामिंग भाषाओं पर ACM की कार्यवाही, 7 (PLDI): 1946–1969, 2023।


यिहोंग डोंग, जी ली, और ज़ी जिन। CODEP: सामान्य प्रयोजन कोड जेनरेशन के लिए व्याकरणिक Seq2Seq मॉडल। सॉफ़्टवेयर परीक्षण और विश्लेषण पर 32वें ACM SIGSOFT अंतर्राष्ट्रीय संगोष्ठी की कार्यवाही में, ISSTA 2023, पृष्ठ 188-198, न्यूयॉर्क, NY, USA, जुलाई 2023। कंप्यूटिंग मशीनरी के लिए एसोसिएशन। आईएसबीएन 9798400702211. doi: 10.1145/3597926. 3598048.


साइबो गेंग, मार्टिन जोसिफोस्की, मैक्सिम पेयर्ड और रॉबर्ट वेस्ट। भाषा मॉडल के लिए लचीला व्याकरण-आधारित विवश डिकोडिंग, मई 2023।


माइकल कुचनिक, वर्जीनिया स्मिथ और जॉर्ज एम्व्रोसियाडिस। बड़े भाषा मॉडल को रीलम के साथ मान्य करना। मशीन लर्निंग और सिस्टम की कार्यवाही, 5, 2023।


अलेक्जेंडर के. लेव, टैन ज़ी-ज़ुआन, गेब्रियल ग्रैंड, और विकाश के. मानसिंहका। संभाव्य कार्यक्रमों का उपयोग करके बड़े भाषा मॉडल का अनुक्रमिक मोंटे कार्लो संचालन। arXiv प्रीप्रिंट arXiv:2306.03081, 2023।


रेमी लौफ और ब्रैंडन टी. विलार्ड। रूपरेखा: जनरेटिव मॉडल प्रोग्रामिंग। URL https://github.com/normal-computing/outlines.


Microsoft. मार्गदर्शन. Microsoft, जुलाई 2023. URL https://github.com/ microsoft/guidance.


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन। arXiv प्रीप्रिंट arXiv:2201.11227, 2022a।


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन, जनवरी 2022बी।


मैक्सिम राबिनोविच, मिशेल स्टर्न, और डैन क्लेन। कोड जनरेशन और सिमेंटिक पार्सिंग के लिए एब्सट्रैक्ट सिंटैक्स नेटवर्क। arXiv प्रीप्रिंट arXiv:1704.07535, 2017।


एलेक रेडफ़ोर्ड, जेफ़री वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी और इल्या सुत्सकेवर। भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं। ओपनएआई ब्लॉग, 1(8):9, 2019।


मैट रिकार्ड. parserLLM, जुलाई 2023a. URL https://github.com/r2d4/ parserllm.


मैट रिकार्ड. R2d4/rellm: किसी भी भाषा मॉडल पूर्णता से सटीक संरचना., 2023b. URL https://github.com/r2d4/rellm.


टॉर्स्टन स्कोलक, नाथन शूचर, और डिज़मिट्री बहदानौ। PICARD: भाषा मॉडल से विवश ऑटो-रिग्रैसिव डिकोडिंग के लिए वृद्धिशील रूप से पार्स करना। arXiv प्रीप्रिंट arXiv:2109.05093, 2021।


रिको सेनरिच, बैरी हैडो, और एलेक्जेंड्रा बिर्च। सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1508.07909, 2015।


माइकल सिप्सर। कम्प्यूटेशन के सिद्धांत का परिचय। इंटरनेशनल थॉमसन पब्लिशिंग, 1996।


आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन. गोमेज़, \लुकाज़ कैसर, और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 30, 2017।


बैलिन वांग, ज़ी वांग, ज़ुएज़ी वांग, युआन काओ, रिफ़ ए. सोरस, और यूं किम। बड़े भाषा मॉडल के साथ डोमेन-विशिष्ट भाषा निर्माण के लिए व्याकरण संकेत, मई 2023।


लिलियन वेंग. नियंत्रणीय तंत्रिका पाठ पीढ़ी, जनवरी 2021. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/.

स्वीकृतियाँ

हम डैन गेर्लांक और डैन सिम्पसन को उनके समर्थन और रचनात्मक प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।