लेखक:
(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;
(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।
इस लेख में हम दिखाते हैं कि कैसे तंत्रिका पाठ निर्माण की समस्या को परिमित-अवस्था मशीन की अवस्थाओं के बीच संक्रमण के संदर्भ में रचनात्मक रूप से सुधारा जा सकता है। यह ढांचा भाषा मॉडल की शब्दावली पर एक सूचकांक के निर्माण की अनुमति देकर नियमित अभिव्यक्तियों और संदर्भ-मुक्त व्याकरण के साथ पाठ निर्माण को निर्देशित करने के लिए एक कुशल दृष्टिकोण की ओर ले जाता है। यह दृष्टिकोण मॉडल अज्ञेयवादी है, किसी को डोमेन-विशिष्ट ज्ञान और बाधाओं को लागू करने की अनुमति देता है, और उत्पन्न पाठ की संरचना की गारंटी देकर विश्वसनीय इंटरफेस के निर्माण को सक्षम बनाता है। यह टोकन अनुक्रम निर्माण प्रक्रिया में थोड़ा ओवरहेड जोड़ता है और मौजूदा समाधानों से काफी बेहतर प्रदर्शन करता है। ओपन सोर्स पायथन लाइब्रेरी आउटलाइन्स [लौफ और विलार्ड] में एक कार्यान्वयन प्रदान किया गया है।
हम एक बड़े भाषा मॉडल (LLM) [वासवानी एट अल., 2017, रैडफ़ोर्ड एट अल., 2019] से टोकन के अनुक्रम उत्पन्न करने की समस्या से चिंतित हैं जो नियमित अभिव्यक्तियों या संदर्भ-मुक्त व्याकरण (CFG) के अनुरूप हैं। इस तरह के निर्देशित LLM जेनरेशन का उपयोग LLM मॉडल आउटपुट को कठोर फ़ॉर्मेटिंग आवश्यकताओं के तहत उपयोग करने योग्य बनाने के लिए किया जाता है, जिन्हें केवल फ़ाइन-ट्यूनिंग के माध्यम से कैप्चर करना कठिन या महंगा होता है [ब्यूरर-केलनर एट अल., 2023, स्कोलक एट अल., 2021, पोएसिया एट अल., 2022a, राबिनोविच एट अल., 2017, वेंग, 2021, डोंग एट अल., 2023, पोएसिया एट अल., 2022b, गेंग एट अल., 2023, वांग एट अल., 2023]। इस तरह की सुविधाओं को हाल ही में प्रॉम्प्टिंग लाइब्रेरीज़ और इंटरफेस में सामान्यीकृत किया गया है [माइक्रोसॉफ्ट, 2023, ब्यूरर-केल्नर एट अल., 2023, रिकार्ड, 2023ए, बी], लेकिन उनकी प्रयोज्यता उनकी स्केलिंग लागतों द्वारा सीमित हो सकती है।
निर्देशित पीढ़ी के अधिकांश कार्यान्वयन एलएलएम की शब्दावली में टोकन की संभावनाओं को निर्धारित करने के लिए उपयोग किए जाने वाले स्कोर मूल्यों को पूर्वाग्रहित करते हैं। एक सामान्य और पर्याप्त दृष्टिकोण में संपूर्ण शब्दावली पर बार-बार मूल्यांकन करना शामिल है ताकि यह निर्धारित किया जा सके कि कौन से टोकन वैध हैं - बाधाओं और पहले से सैंपल किए गए टोकन के अनुसार - और अमान्य टोकन की संभावनाओं को शून्य पर सेट करना। इस दृष्टिकोण में प्रत्येक उत्पन्न टोकन के लिए एक निश्चित O(N) लागत शामिल है, जहाँ N एलएलएम की शब्दावली का आकार है।
हम एक ऐसा दृष्टिकोण प्रस्तावित करते हैं जो मनमाने ढंग से निर्देशित पीढ़ी को शुरू करने और रोकने के लिए नियमित अभिव्यक्तियों के परिमित राज्य मशीन (FSM) सूत्रीकरण का उपयोग करता है और एक सूचकांक के निर्माण की अनुमति देता है जिसके साथ गैर-शून्य-संभावना टोकन का सेट प्रत्येक चरण में कुशलतापूर्वक प्राप्त किया जा सकता है। परिणाम एक एल्गोरिथ्म है जिसकी औसत लागत O(1) है।
नियमित अभिव्यक्ति मामले के लिए, हमारा दृष्टिकोण कुचनिक एट अल. [2023] के साथ सबसे अधिक समानता साझा करता है, जो भाषा मॉडल की शब्दावली पर परिभाषित FSM प्राप्त करने के लिए एक ट्रांसड्यूसर फॉर्मूलेशन का उपयोग करता है, और इन FSM में यहाँ वर्णित सूचकांकों के समान ही बहुत सी जानकारी और स्केलिंग लाभ होते हैं। हमारे दृष्टिकोण को पूर्ण ट्रांसड्यूसर अमूर्तता की आवश्यकता नहीं है और इसका उपयोग अंतर्निहित ऑटोमेटन और उनके कार्यान्वयन को संशोधित किए बिना मौजूदा, कुशल नियमित अभिव्यक्ति पुस्तकालयों को अधिक आसानी से विस्तारित करने के लिए किया जा सकता है।
इससे भी महत्वपूर्ण बात यह है कि हमारे इंडेक्सिंग दृष्टिकोण को CFG और LALR(1) पार्सर तक भी बढ़ाया जा सकता है ताकि लोकप्रिय डेटा प्रारूपों और प्रोग्रामिंग भाषाओं (जैसे JSON, पायथन, SQL, आदि) के अनुसार कुशल निर्देशित पीढ़ी की अनुमति मिल सके। पार्सिंग में बदलाव पारंपरिक LALR(1) पार्सर घटकों और संचालन में वृद्धि के माध्यम से किया जाता है, जिससे यह फिर से एक ऐसा दृष्टिकोण बन जाता है जिसका उपयोग मौजूदा पार्सर कार्यान्वयन को विस्तारित करने के लिए किया जा सकता है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।