paint-brush
क्या हम सच में चैटजीपीटी और अन्य एलएलएम से एआई-जेनरेटेड टेक्स्ट का पता लगा सकते हैं?द्वारा@thetechpanda
1,601 रीडिंग
1,601 रीडिंग

क्या हम सच में चैटजीपीटी और अन्य एलएलएम से एआई-जेनरेटेड टेक्स्ट का पता लगा सकते हैं?

द्वारा The Tech Panda4m2023/05/15
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

जीपीटी-3 जैसे बड़े भाषा मॉडल (एलएलएम) तेजी से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सबसे महत्वपूर्ण तकनीकी प्रगति में से एक बन गए हैं। या गलत सूचना फैलाना, जिसके समाज पर गंभीर परिणाम हो सकते हैं।
featured image - क्या हम सच में चैटजीपीटी और अन्य एलएलएम से एआई-जेनरेटेड टेक्स्ट का पता लगा सकते हैं?
The Tech Panda HackerNoon profile picture
0-item
1-item

GPT-3 जैसे बड़े भाषा मॉडल (एलएलएम) तेजी से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सबसे महत्वपूर्ण तकनीकी प्रगति में से एक बन गए हैं।


एलएलएम ने विभिन्न प्रकार के कार्यों में सहायता करने के लिए महत्वपूर्ण क्षमता का प्रदर्शन किया है, जिसमें भाषा अनुवाद, पाठ सारांश, प्रश्न उत्तर, सूचना पुनर्प्राप्ति, अनुशंसा इंजन, भाषा आधारित रोबोटिक्स और कई अन्य शामिल हैं।


एलएलएम की सफलता (छवि स्रोत: रेफरी)


जबकि चैटजीपीटी जैसे बड़े भाषा मॉडल (एलएलएम) ने विभिन्न प्राकृतिक भाषा प्रसंस्करण कार्यों में असाधारण प्रदर्शन दिखाया है, उनके संभावित दुरुपयोग से नैतिक चिंताएं पैदा होती हैं जिन्हें संबोधित किया जाना चाहिए । सुसंगत और प्रासंगिक रूप से प्रासंगिक पाठ उत्पन्न करने की क्षमता के साथ, एलएलएम का उपयोग नकली समाचार बनाने या गलत सूचना फैलाने के लिए किया जा सकता है, जिसके समाज पर गंभीर परिणाम हो सकते हैं।


इस तरह के दुरुपयोग से समाचार माध्यमों में विश्वास का क्षरण हो सकता है और वास्तविकता की विकृत धारणा बन सकती है। इसके अतिरिक्त, एलएलएम का उपयोग साहित्यिक चोरी, बौद्धिक संपदा की चोरी, या नकली उत्पाद समीक्षा पीढ़ियों के लिए किया जा सकता है, जो उपभोक्ताओं को भ्रमित कर सकता है और व्यवसायों को नकारात्मक रूप से प्रभावित कर सकता है। इसके अलावा, एलएलएम की दुर्भावनापूर्ण उद्देश्यों के लिए वेब सामग्री में हेरफेर करने की क्षमता, जैसे कि नकली सोशल मीडिया अकाउंट बनाना या ऑनलाइन चर्चाओं को प्रभावित करना, जनमत और राजनीतिक प्रवचन पर विनाशकारी प्रभाव डाल सकता है।


बढ़ती चिंता के साथ, शायद सवाल पूछने का समय आ गया है:


क्या हम एआई-जनित ग्रंथों को मानव-जनित ग्रंथों से अलग कर सकते हैं ?


विगत अनुसंधान और पहचान

एक ओर, स्टैनफोर्ड से DetectGPT संभावना की तुलना करता है कि एक मॉडल पाठ के संशोधन के लिए लिखित पाठ को निर्दिष्ट करता है, पता लगाने के लिए।




दूसरी ओर, टॉम गोल्डस्टीन के समूह द्वारा विकसित वॉटरमार्क-आधारित दृष्टिकोण प्रभावी ढंग से पहचान क्षमता बढ़ाने के लिए प्रस्तावित हैं।




हालांकि, वॉटरमार्क (जो मजबूत रूप से प्रशिक्षित नहीं हैं) को सदासिवन द्वारा पैराफ्रेज और स्पूफिंग हमलों के प्रति संवेदनशील दिखाया गया है। और अन्य। और कृष्णा एट अल।




समुदाय में नवीनतम बहस

समुदाय में हाल ही में इस बात पर गरमागरम बहस चल रही है कि क्या एआई-जनित पाठों को मानव-जनित ग्रंथों से अलग किया जा सकता है, साथ ही इस बात पर भी चर्चा की गई है कि क्या हम 'एआई को बनाए रखने' में विफल रहेंगे और एक एजीआई सर्वनाश होगा क्योंकि हम एआई का पता नहीं लगा सकते हैं- उत्पन्न सामग्री। तकनीकी नेताओं ने बड़े भाषा मॉडल (एलएलएम) प्रशिक्षण के 6 महीने के निलंबन का भी आह्वान किया।


यान लेकन और एंड्रयू एनजी जैसे अकादमिक नेता एआई पर इस प्रतिबंध के खिलाफ हैं।

मेटा में वीपी और मुख्य एआई वैज्ञानिक, यान लेकन उद्धरण,


"ज्ञान की प्रगति को धीमा क्यों करें?"


पता लगाने की संभावना

इस महत्वपूर्ण समय के बीच, हम सूचना सिद्धांत लेंस के माध्यम से एआई-जनित टेक्स्ट की पहचान क्षमता का अध्ययन करते हैं। हम आशावाद के लिए प्रमाण प्रदान करते हैं: इसका पता लगाना लगभग हमेशा संभव होना चाहिए जब तक कि मानव और मशीन पाठ वितरण पूरे समर्थन पर बिल्कुल समान न हों।

पता लगाना संभव है

पता लगाने की क्षमता चेरनॉफ़ सूचना और अधिक टिप्पणियों के साथ एक सटीक व्यापार-बंद पर निर्भर करती है। हम कई नमूनों का उपयोग करके संभावना-अनुपात-आधारित डिटेक्टर के माध्यम से AUROC की प्राप्य ऊपरी सीमा (जो 0 और 1 के बीच है, उच्च का मतलब अधिक पता लगाने योग्य है) साबित करते हैं। जैसे ही नमूना # बढ़ता है, AUROC घातीय रूप से बढ़कर 1 हो जाता है।



एक सूचना निर्देशित लेंस

यह जानकारी सैद्धांतिक परिणाम एक महत्वपूर्ण मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। प्रयोगात्मक रूप से, हमने सत्यापित किया है कि शब्द-स्तर की खोज की अनभिज्ञता तब पता लगाने योग्य हो जाती है जब अनुच्छेद-स्तर की पहचान पर स्विच किया जाता है।



हमारे परिणाम प्रदर्शित करते हैं कि AI जनित पाठ का पता लगाना लगभग हमेशा संभव होगा।



सैद्धांतिक परिणाम

यह जानकारी सैद्धांतिक परिणाम एक प्रमुख मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। हमने एआई-जनित टेक्स्ट डिटेक्शन की संभावना का मार्गदर्शन करने के लिए नमूना जटिलता सीमाएँ निकाली हैं।




अनुभवजन्य प्रदर्शन

कई डेटासेट पर पैराग्राफ-लेवल डिटेक्शन पर स्विच करने पर शब्द स्तर पर अनडिटेक्टेबिलिटी डिटेक्टेबल हो जाती है। जैसे-जैसे हम पता लगाने की लंबाई बढ़ाते हैं, जीरोशॉट पहचान की सटीकता में काफी वृद्धि होती है।




अंत में, हम मानते हैं कि #एलएलएम के दुरुपयोग से निपटने का सही तरीका उन पर प्रतिबंध लगाने के बजाय उन्हें ठीक करना है।



हालांकि, एक युवा के रूप में, मैं खुद को यह विश्वास दिलाने में सक्षम नहीं था कि यदि ज्ञान खतरे को प्रस्तुत करता है, तो इसका समाधान अज्ञानता है। मेरे लिए, यह हमेशा लगता था कि समाधान को ज्ञान ही होना चाहिए। आपने खतरे को देखने से इंकार नहीं किया, बल्कि आपने इससे सुरक्षित तरीके से निपटना सीखा।

इसहाक असिमोव



नोट: यह पहला कदम है और हमारा अध्ययन ऐसे ढांचों और दिशानिर्देशों को विकसित करने के लिए निरंतर शोध की मांग करता है जो नवाचार को बढ़ावा देते हैं और इन शक्तिशाली उपकरणों के नैतिक उपयोग को सुनिश्चित करते हैं।


अतिथि योगदानकर्ता:


सौरदीप चक्रवर्ती , पीएच.डी. मैरीलैंड विश्वविद्यालय के स्नातक छात्र, अमृत सिंह बेदी , अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा , और फुरोंग हुआंग एक सूचना सिद्धांत लेंस के माध्यम से एआई-जनित ग्रंथों की पहचान करने की क्षमता पर शोध कर रहे हैं। इस लेख में व्यक्त की गई कोई भी राय पूरी तरह से लेखकों की है।





यह लेख मूल रूप से सौरदीप चक्रवर्ती, पीएच.डी. द्वारा प्रकाशित किया गया था। मैरीलैंड विश्वविद्यालय में स्नातक छात्र, अमृत सिंह बेदी, अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा, और द टेक पांडा पर फुरोंग हुआंग।