लेखक:
(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;
(2) जैक गिन्डी, लिंक्डइन;
(3) शिवांश मुंद्रा, लिंक्डइन;
(4) जेम्स आर. वर्बस, लिंक्डइन;
(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।
हमारा आधारभूत प्रशिक्षण और मूल्यांकन प्रदर्शन तालिका 2 में दिखाया गया है। मूल्यांकन इस आधार पर विभाजित किया गया है कि मूल्यांकन छवियों में चेहरा है या नहीं (प्रशिक्षण छवियों में केवल चेहरे थे) और क्या छवियों को प्रशिक्षण में उपयोग किए गए समान (इंजन में) या अलग (इंजन से बाहर) संश्लेषण इंजनों के साथ उत्पन्न किया गया था (अनुभाग 2.6 देखें)। प्रशिक्षण और मूल्यांकन के लिए सच्ची सकारात्मक दर[8] (TPR) की सीधी तुलना प्रदान करने के लिए, हम अंतिम वर्गीकरण सीमा को 0.5% की झूठी सकारात्मक दर[9] (FPR) प्राप्त करने के लिए समायोजित करते हैं।
0.5% की निश्चित FPR के साथ, AI द्वारा उत्पन्न चेहरे 98% की दर से प्रशिक्षण और मूल्यांकन में सही ढंग से वर्गीकृत किए जाते हैं। प्रशिक्षण के लिए उपयोग किए जाने वाले विभिन्न संश्लेषण इंजनों (स्टाइलगैन 1,2,3, स्टेबल डिफ्यूजन 1,2, और DALL-E 2) में, TPR स्टेबल डिफ्यूजन 1 के लिए 93.3% के निम्न से लेकर स्टाइलगैन 2 के लिए 99.5% के उच्च स्तर तक, और स्टाइलगैन1 के लिए 98.9%, स्टाइलगैन3 के लिए 99.9%, स्टेबल डिफ्यूजन 2 के लिए 94.9% और DALL-E 2 के लिए 99.2% तक कुछ हद तक भिन्न था।
संश्लेषण इंजन द्वारा उत्पन्न चेहरों के लिए जिनका उपयोग नहीं किया जाता
प्रशिक्षण (इंजन से बाहर), उसी FPR पर TPR 84.5% तक गिर जाता है, जो डोमेन से बाहर सामान्यीकरण को अच्छा लेकिन पूर्ण नहीं दिखाता है। प्रशिक्षण में उपयोग नहीं किए गए विभिन्न संश्लेषण इंजनों में, TPR में व्यापक रूप से भिन्नता थी, जिसमें मिडजर्नी के लिए 19.4% से लेकर EG3D के लिए 99.5% और जेनरेटेड.फोटो के लिए 95.4% का न्यूनतम था। हमारा क्लासिफायर कुछ मामलों में अच्छी तरह से सामान्यीकरण करता है, और अन्य में विफल रहता है। हालाँकि, इस सीमा को प्रारंभिक प्रशिक्षण में इन आउट-ऑफ-इंजन छवियों को शामिल करके कम किया जा सकता है।
एक विशेष रूप से चौंकाने वाले परिणाम में, गैर-चेहरे - प्रशिक्षण में उपयोग किए जाने वाले समान संश्लेषण इंजनों द्वारा उत्पन्न - सभी गलत तरीके से वर्गीकृत किए गए हैं। यह सबसे अधिक संभावना है क्योंकि हमारी कुछ वास्तविक छवियों में गैर-चेहरे होते हैं (अनुभाग 2.1 देखें) जबकि सभी AI-जनरेटेड छवियों में चेहरे होते हैं। चूँकि हम केवल खाता बनाने के लिए उपयोग किए जाने वाले नकली चेहरों का पता लगाने में रुचि रखते हैं, इसलिए हम इसे एक बड़ी सीमा के रूप में नहीं देखते हैं। यह परिणाम यह भी बताता है कि हमारे क्लासिफायर ने AI-जनरेटेड चेहरे की एक विशिष्ट संपत्ति पर ध्यान दिया है, न कि अंतर्निहित संश्लेषण से कुछ निम्न-स्तरीय आर्टिफैक्ट (जैसे, एक शोर फिंगरप्रिंट [8])। अनुभाग 4.1 में, हम इस परिकल्पना का समर्थन करने के लिए अतिरिक्त सबूत प्रदान करते हैं।
उपरोक्त बेसलाइन परिणाम 512x512 पिक्सल के रिज़ॉल्यूशन पर छवियों के प्रशिक्षण और मूल्यांकन पर आधारित हैं। चित्र 3(ए) (ठोस नीला) में दिखाया गया TPR है जब प्रशिक्षण छवियों को कम रिज़ॉल्यूशन (256, 128, 64, और 32) पर स्केल किया जाता है और फिर वर्गीकरण के लिए 512 तक स्केल किया जाता है। 0.5% के समान FPR के साथ, AI द्वारा उत्पन्न चेहरे को वर्गीकृत करने के लिए TPR 98.0% की बेसलाइन से काफी तेज़ी से गिरता है।
हालाँकि, जब मॉडल को N × N (N = 32, 64, 128, या 256) के रिज़ॉल्यूशन पर छवियों पर प्रशिक्षित किया जाता है और फिर प्रशिक्षण में देखे गए समान TPR के विरुद्ध मूल्यांकन किया जाता है, तो वास्तविक सकारात्मक दर में काफी सुधार होता है, चित्र 3(a) (धराशायी लाल)। पहले की तरह, झूठी सकारात्मक दर 0.5% पर तय की गई है। यहाँ हम देखते हैं कि 128 × 128 के रिज़ॉल्यूशन पर TPR अपेक्षाकृत उच्च (91.9%) रहता है और केवल 32×32 (44.1%) के सबसे कम रिज़ॉल्यूशन पर ही कम होता है। अपेक्षाकृत कम रिज़ॉल्यूशन पर भी AI-जनरेटेड चेहरों का पता लगाने की क्षमता बताती है कि हमारा मॉडल किसी ऐसे निम्न-स्तरीय आर्टिफैक्ट पर नहीं टिका है जो डाउन-सैंपलिंग के इस स्तर पर टिक नहीं पाएगा।
चित्र 3(बी) में क्लासिफायर का टीपीआर दिखाया गया है, जिसे अलग-अलग गुणवत्ता की असम्पीडित PNG और JPEG छवियों पर प्रशिक्षित किया गया है, जिसका मूल्यांकन JPEG गुणवत्ता की एक श्रेणी (100 की उच्चतम गुणवत्ता से लेकर 20 की निम्नतम गुणवत्ता तक) में छवियों के विरुद्ध किया गया है। यहाँ हम देखते हैं कि AI द्वारा उत्पन्न चेहरे (FPR 0.5% है) की पहचान करने के लिए TPR धीरे-धीरे कम हो जाती है, जिसकी गुणवत्ता 80 पर 94.3% की TPR और 60 की गुणवत्ता पर 88.0% की TPR है। फिर से, JPEG संपीड़न कलाकृतियों की उपस्थिति में AI द्वारा उत्पन्न चेहरों का पता लगाने की क्षमता बताती है कि हमारा मॉडल निम्न-स्तरीय कलाकृति पर नहीं टिका है।
जैसा कि अनुभाग 4 में दिखाया गया है, हमारा क्लासिफायर विभिन्न संश्लेषण इंजनों की एक श्रृंखला से उत्पन्न एआई चेहरों को अलग करने में अत्यधिक सक्षम है। हालाँकि, यह क्लासिफायर केवल चेहरों तक ही सीमित है, तालिका 2। यानी, जब प्रशिक्षण में उपयोग किए जाने वाले समान संश्लेषण इंजनों से गैर-चेहरे की छवियाँ प्रस्तुत की जाती हैं, तो क्लासिफायर उन्हें एआई-जनरेटेड के रूप में वर्गीकृत करने में पूरी तरह विफल हो जाता है।
हम मानते हैं कि हमारे क्लासिफायर ने एक सिमेंटिक-लेवल आर्टिफैक्ट सीखा होगा। यह दावा आंशिक रूप से इस तथ्य से समर्थित है कि हमारा क्लासिफायर 128x128 पिक्सल जैसे कम रिज़ॉल्यूशन पर भी अत्यधिक सटीक रहता है, चित्र 3(ए), और काफी आक्रामक जेपीईजी संपीड़न के सामने भी यथोचित रूप से सटीक रहता है, चित्र 3(बी)। यहाँ हम इस दावे का समर्थन करने के लिए और सबूत देते हैं कि हमने एक संरचनात्मक- या सिमेंटिक-लेवल आर्टिफैक्ट सीखा है।
यह अच्छी तरह से स्थापित है कि जबकि मानव दृश्य प्रणाली में सामान्य-उद्देश्य वाली वस्तु पहचान वस्तु अभिविन्यास, मुद्रा और परिप्रेक्ष्य विरूपण के लिए अत्यधिक मजबूत है, चेहरा पहचान और प्रसंस्करण एक साधारण उलटा होने के लिए भी कम मजबूत है [27]। इस प्रभाव को क्लासिक मार्गरेट थैचर भ्रम [31] में शानदार ढंग से चित्रित किया गया है। चित्र 4 की शीर्ष पंक्ति में चेहरे नीचे की पंक्ति में उन लोगों के उल्टे संस्करण हैं। दाईं ओर के संस्करण में, आँखें और मुंह चेहरे के सापेक्ष उल्टे हैं। यह विचित्र विशेषता कॉकटेल सीधे चेहरे में स्पष्ट है लेकिन उल्टे चेहरे में नहीं।
हमें आश्चर्य हुआ कि क्या हमारा वर्गीकरणकर्ता वर्गीकरण करने में संघर्ष करेगा
ऊर्ध्वाधर रूप से उल्टे चेहरे। उन्हीं 10,000 सत्यापन छवियों (धारा 2.6) को उलट दिया गया और पुनः वर्गीकृत किया गया। 0.5% के समान निश्चित FPR के साथ, TPR 98.0% से 20 प्रतिशत अंक गिरकर 77.7% हो गया।
तुलना करके, सत्यापन छवियों को केवल ऊर्ध्वाधर अक्ष (यानी, बाएं-दाएं फ्लिप) के बारे में फ़्लिप करने से समान 0.5% FPR के साथ 98.0% के TPR में कोई बदलाव नहीं होता है। परिणामों की यह जोड़ी, रिज़ॉल्यूशन और संपीड़न गुणवत्ता की मजबूती के साथ मिलकर यह सुझाव देती है कि हमारा मॉडल किसी निम्न-स्तरीय आर्टिफ़ैक्ट पर नहीं टिका है, और इसके बजाय एक संरचनात्मक या अर्थपूर्ण गुण की खोज कर सकता है जो AI-जनरेटेड चेहरों को वास्तविक चेहरों से अलग करता है।
हम एकीकृत ग्रेडिएंट की विधि [28] का उपयोग करके अपने क्लासिफायर की प्रकृति का और पता लगाते हैं। यह विधि एक गहरे नेटवर्क द्वारा की गई भविष्यवाणियों को उसके इनपुट फीचर्स के लिए जिम्मेदार ठहराती है। क्योंकि इस विधि को प्रशिक्षित मॉडल में किसी भी बदलाव के बिना लागू किया जा सकता है, यह हमें मॉडल के निर्णय के संबंध में प्रत्येक इनपुट छवि पिक्सेल की प्रासंगिकता की गणना करने की अनुमति देता है।
चित्र 5(a) में 100 स्टाइलगैन 2 छवियों पर औसत किए गए सामान्यीकृत ([0, 1] की सीमा में) एकीकृत ग्रेडिएंट का अहस्ताक्षरित परिमाण दिखाया गया है (क्योंकि स्टाइलगैन द्वारा उत्पन्न सभी चेहरे संरेखित हैं, औसत ग्रेडिएंट सभी छवियों में चेहरे की विशेषताओं के अनुरूप है)। चित्र 5(b)-(e) में DALL-2, मिडजर्नी, स्टेबल डिफ्यूजन 1 और स्टेबल डिफ्यूजन 2 द्वारा उत्पन्न छवि के लिए प्रतिनिधि छवियां और उनके सामान्यीकृत एकीकृत ग्रेडिएंट दिखाए गए हैं। सभी मामलों में, हम देखते हैं कि बड़े ग्रेडिएंट के अनुरूप सबसे प्रासंगिक पिक्सेल मुख्य रूप से चेहरे के क्षेत्र और त्वचा के अन्य क्षेत्रों के आसपास केंद्रित होते हैं।
क्योंकि यह विशेष रूप से GAN-जनरेटेड चेहरों का पता लगाने पर केंद्रित था, इसलिए [23] का काम हमारे काम से सबसे सीधे जुड़ा हुआ है। इस काम में, लेखक दिखाते हैं कि एक कम-आयामी रैखिक मॉडल स्टाइलगैन-जनरेटेड चेहरों के सामान्य चेहरे के संरेखण को पकड़ता है। 3,000 स्टाइलगैन चेहरों के खिलाफ मूल्यांकन किया गया, उनका मॉडल 99.5% GAN चेहरों को सही ढंग से वर्गीकृत करता है, जबकि 1% वास्तविक चेहरों को गलत तरीके से AI के रूप में वर्गीकृत किया जाता है। तुलना करके, हम एक समान TPR प्राप्त करते हैं, लेकिन कम 0.5% FPR के साथ।
हालाँकि, हमारे दृष्टिकोण के विपरीत, जो अन्य GAN चेहरों जैसे कि generated.photos के लिए सामान्यीकृत है, इस पहले के काम के लिए TPR 86.0% (उसी 1% FPR के साथ) तक गिर जाता है। इसके अलावा, यह पहले का काम प्रसार-आधारित चेहरों का पता लगाने में विफल रहता है क्योंकि इन चेहरों में स्टाइलगैन चेहरों के समान संरेखण आर्टिफैक्ट नहीं होता है। तुलना करके, हमारी तकनीक GAN- और प्रसार-जनित चेहरों और प्रशिक्षण में नहीं देखे गए संश्लेषण इंजनों में सामान्यीकृत होती है।
हमने हाल ही में एक अत्याधुनिक मॉडल का भी मूल्यांकन किया जो AI द्वारा उत्पन्न छवियों में फूरियर कलाकृतियों की उपस्थिति का फायदा उठाता है [8]। वास्तविक और इन-इंजन AI द्वारा उत्पन्न चेहरों के हमारे मूल्यांकन डेटासेट पर यह मॉडल 0.5% के समान FPR पर AI द्वारा उत्पन्न चेहरों में से केवल 23.8% को सही ढंग से वर्गीकृत करता है। यह TPR हमारे मॉडल के 98.0% के TPR से काफी कम है और [8] में बताए गए 90% TPR से भी कम है। हमारा अनुमान है कि यह विसंगति हमारे डेटासेट की अधिक विविधतापूर्ण और चुनौतीपूर्ण इन-द-वाइल्ड वास्तविक छवियों के कारण है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[8] ट्रू पॉज़िटिव रेट (टीपीआर) एआई-जनरेटेड फ़ोटो का वह अंश है जिसे सही ढंग से वर्गीकृत किया गया है।
[9] झूठी सकारात्मक दर (एफपीआर) वास्तविक तस्वीरों का वह अंश है जिसे गलत तरीके से वर्गीकृत किया गया है।