1,610 रीडिंग

क्या हम सच में चैटजीपीटी और अन्य एलएलएम से एआई-जेनरेटेड टेक्स्ट का पता लगा सकते हैं?

द्वारा The Tech Panda4m2023/05/15

बहुत लंबा; पढ़ने के लिए

जीपीटी-3 जैसे बड़े भाषा मॉडल (एलएलएम) तेजी से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सबसे महत्वपूर्ण तकनीकी प्रगति में से एक बन गए हैं। या गलत सूचना फैलाना, जिसके समाज पर गंभीर परिणाम हो सकते हैं।

featured image - क्या हम सच में चैटजीपीटी और अन्य एलएलएम से एआई-जेनरेटेड टेक्स्ट का पता लगा सकते हैं?

GPT-3 जैसे बड़े भाषा मॉडल (एलएलएम) तेजी से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सबसे महत्वपूर्ण तकनीकी प्रगति में से एक बन गए हैं।

एलएलएम ने विभिन्न प्रकार के कार्यों में सहायता करने के लिए महत्वपूर्ण क्षमता का प्रदर्शन किया है, जिसमें भाषा अनुवाद, पाठ सारांश, प्रश्न उत्तर, सूचना पुनर्प्राप्ति, अनुशंसा इंजन, भाषा आधारित रोबोटिक्स और कई अन्य शामिल हैं।

जबकि चैटजीपीटी जैसे बड़े भाषा मॉडल (एलएलएम) ने विभिन्न प्राकृतिक भाषा प्रसंस्करण कार्यों में असाधारण प्रदर्शन दिखाया है, उनके संभावित दुरुपयोग से नैतिक चिंताएं पैदा होती हैं जिन्हें संबोधित किया जाना चाहिए । सुसंगत और प्रासंगिक रूप से प्रासंगिक पाठ उत्पन्न करने की क्षमता के साथ, एलएलएम का उपयोग नकली समाचार बनाने या गलत सूचना फैलाने के लिए किया जा सकता है, जिसके समाज पर गंभीर परिणाम हो सकते हैं।

इस तरह के दुरुपयोग से समाचार माध्यमों में विश्वास का क्षरण हो सकता है और वास्तविकता की विकृत धारणा बन सकती है। इसके अतिरिक्त, एलएलएम का उपयोग साहित्यिक चोरी, बौद्धिक संपदा की चोरी, या नकली उत्पाद समीक्षा पीढ़ियों के लिए किया जा सकता है, जो उपभोक्ताओं को भ्रमित कर सकता है और व्यवसायों को नकारात्मक रूप से प्रभावित कर सकता है। इसके अलावा, एलएलएम की दुर्भावनापूर्ण उद्देश्यों के लिए वेब सामग्री में हेरफेर करने की क्षमता, जैसे कि नकली सोशल मीडिया अकाउंट बनाना या ऑनलाइन चर्चाओं को प्रभावित करना, जनमत और राजनीतिक प्रवचन पर विनाशकारी प्रभाव डाल सकता है।

बढ़ती चिंता के साथ, शायद सवाल पूछने का समय आ गया है:

क्या हम एआई-जनित ग्रंथों को मानव-जनित ग्रंथों से अलग कर सकते हैं ?

विगत अनुसंधान और पहचान

एक ओर, स्टैनफोर्ड से DetectGPT संभावना की तुलना करता है कि एक मॉडल पाठ के संशोधन के लिए लिखित पाठ को निर्दिष्ट करता है, पता लगाने के लिए।

दूसरी ओर, टॉम गोल्डस्टीन के समूह द्वारा विकसित वॉटरमार्क-आधारित दृष्टिकोण प्रभावी ढंग से पहचान क्षमता बढ़ाने के लिए प्रस्तावित हैं।

हालांकि, वॉटरमार्क (जो मजबूत रूप से प्रशिक्षित नहीं हैं) को सदासिवन द्वारा पैराफ्रेज और स्पूफिंग हमलों के प्रति संवेदनशील दिखाया गया है। और अन्य। और कृष्णा एट अल।

समुदाय में नवीनतम बहस

समुदाय में हाल ही में इस बात पर गरमागरम बहस चल रही है कि क्या एआई-जनित पाठों को मानव-जनित ग्रंथों से अलग किया जा सकता है, साथ ही इस बात पर भी चर्चा की गई है कि क्या हम 'एआई को बनाए रखने' में विफल रहेंगे और एक एजीआई सर्वनाश होगा क्योंकि हम एआई का पता नहीं लगा सकते हैं- उत्पन्न सामग्री। तकनीकी नेताओं ने बड़े भाषा मॉडल (एलएलएम) प्रशिक्षण के 6 महीने के निलंबन का भी आह्वान किया।

यान लेकन और एंड्रयू एनजी जैसे अकादमिक नेता एआई पर इस प्रतिबंध के खिलाफ हैं।

मेटा में वीपी और मुख्य एआई वैज्ञानिक, यान लेकन उद्धरण,

"ज्ञान की प्रगति को धीमा क्यों करें?"

पता लगाने की संभावना

इस महत्वपूर्ण समय के बीच, हम सूचना सिद्धांत लेंस के माध्यम से एआई-जनित टेक्स्ट की पहचान क्षमता का अध्ययन करते हैं। हम आशावाद के लिए प्रमाण प्रदान करते हैं: इसका पता लगाना लगभग हमेशा संभव होना चाहिए जब तक कि मानव और मशीन पाठ वितरण पूरे समर्थन पर बिल्कुल समान न हों।

पता लगाना संभव है

पता लगाने की क्षमता चेरनॉफ़ सूचना और अधिक टिप्पणियों के साथ एक सटीक व्यापार-बंद पर निर्भर करती है। हम कई नमूनों का उपयोग करके संभावना-अनुपात-आधारित डिटेक्टर के माध्यम से AUROC की प्राप्य ऊपरी सीमा (जो 0 और 1 के बीच है, उच्च का मतलब अधिक पता लगाने योग्य है) साबित करते हैं। जैसे ही नमूना # बढ़ता है, AUROC घातीय रूप से बढ़कर 1 हो जाता है।

एक सूचना निर्देशित लेंस

यह जानकारी सैद्धांतिक परिणाम एक महत्वपूर्ण मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। प्रयोगात्मक रूप से, हमने सत्यापित किया है कि शब्द-स्तर की खोज की अनभिज्ञता तब पता लगाने योग्य हो जाती है जब अनुच्छेद-स्तर की पहचान पर स्विच किया जाता है।

सैद्धांतिक परिणाम

यह जानकारी सैद्धांतिक परिणाम एक प्रमुख मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। हमने एआई-जनित टेक्स्ट डिटेक्शन की संभावना का मार्गदर्शन करने के लिए नमूना जटिलता सीमाएँ निकाली हैं।

अनुभवजन्य प्रदर्शन

कई डेटासेट पर पैराग्राफ-लेवल डिटेक्शन पर स्विच करने पर शब्द स्तर पर अनडिटेक्टेबिलिटी डिटेक्टेबल हो जाती है। जैसे-जैसे हम पता लगाने की लंबाई बढ़ाते हैं, जीरोशॉट पहचान की सटीकता में काफी वृद्धि होती है।

अंत में, हम मानते हैं कि #एलएलएम के दुरुपयोग से निपटने का सही तरीका उन पर प्रतिबंध लगाने के बजाय उन्हें ठीक करना है।

हालांकि, एक युवा के रूप में, मैं खुद को यह विश्वास दिलाने में सक्षम नहीं था कि यदि ज्ञान खतरे को प्रस्तुत करता है, तो इसका समाधान अज्ञानता है। मेरे लिए, यह हमेशा लगता था कि समाधान को ज्ञान ही होना चाहिए। आपने खतरे को देखने से इंकार नहीं किया, बल्कि आपने इससे सुरक्षित तरीके से निपटना सीखा।
इसहाक असिमोव

नोट: यह पहला कदम है और हमारा अध्ययन ऐसे ढांचों और दिशानिर्देशों को विकसित करने के लिए निरंतर शोध की मांग करता है जो नवाचार को बढ़ावा देते हैं और इन शक्तिशाली उपकरणों के नैतिक उपयोग को सुनिश्चित करते हैं।

अतिथि योगदानकर्ता:

सौरदीप चक्रवर्ती , पीएच.डी. मैरीलैंड विश्वविद्यालय के स्नातक छात्र, अमृत सिंह बेदी , अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा , और फुरोंग हुआंग एक सूचना सिद्धांत लेंस के माध्यम से एआई-जनित ग्रंथों की पहचान करने की क्षमता पर शोध कर रहे हैं। इस लेख में व्यक्त की गई कोई भी राय पूरी तरह से लेखकों की है।

यह लेख मूल रूप से सौरदीप चक्रवर्ती, पीएच.डी. द्वारा प्रकाशित किया गया था। मैरीलैंड विश्वविद्यालय में स्नातक छात्र, अमृत सिंह बेदी, अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा, और द टेक पांडा पर फुरोंग हुआंग।