paint-brush
जंगल में एआई-जनरेटेड चेहरे खोजना: डेटा सेटद्वारा@botbeat
188 रीडिंग

जंगल में एआई-जनरेटेड चेहरे खोजना: डेटा सेट

बहुत लंबा; पढ़ने के लिए

AI ऑनलाइन घोटालों के लिए यथार्थवादी नकली चेहरे बना सकता है। यह कार्य छवियों में AI-जनित चेहरों का पता लगाने की विधि प्रस्तावित करता है।
featured image - जंगल में एआई-जनरेटेड चेहरे खोजना: डेटा सेट
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

लेखक:

(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;

(2) जैक गिन्डी, लिंक्डइन;

(3) शिवांश मुंद्रा, लिंक्डइन;

(4) जेम्स आर. वर्बस, लिंक्डइन;

(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।

लिंक की तालिका

2. डेटा सेट

हमारा प्रशिक्षण और मूल्यांकन 18 डेटा सेट का लाभ उठाता है जिसमें 120,000 वास्तविक लिंक्डइन प्रोफ़ाइल फ़ोटो और 105,900 AI-जनरेटेड चेहरे शामिल हैं जो पाँच अलग-अलग GAN और पाँच अलग-अलग प्रसार संश्लेषण इंजनों में फैले हुए हैं। AI-जनरेटेड छवियों में दो मुख्य श्रेणियाँ शामिल हैं, एक चेहरा वाली और दूसरी बिना चेहरे वाली। वास्तविक और संश्लेषित रंग (RGB) छवियों को उनके मूल रिज़ॉल्यूशन से 512 × 512 पिक्सेल तक आकार दिया गया है। तालिका 1 में इन छवियों का लेखा-जोखा दिखाया गया है, और चित्र 2 में AI-जनरेटेड श्रेणियों में से प्रत्येक के प्रतिनिधि उदाहरण दिखाए गए हैं जैसा कि आगे वर्णित है।

2.1. वास्तविक चेहरे

120,000 असली फ़ोटो लिंक्डइन उपयोगकर्ताओं से लिए गए थे, जिनके प्रोफ़ाइल फ़ोटो 1 जनवरी, 2019 और 1 दिसंबर, 2022 के बीच अपलोड किए गए थे। इन खातों ने प्लेटफ़ॉर्म पर कम से कम 30 दिनों तक गतिविधि दिखाई (जैसे, साइन इन, पोस्ट, मैसेज, सर्च) बिना किसी नकली-खाता डिटेक्टर को ट्रिगर किए। खातों पर उम्र और गतिविधि को देखते हुए, हम आश्वस्त हो सकते हैं कि ये तस्वीरें असली हैं। ये तस्वीरें व्यापक रूप से अलग-अलग रिज़ॉल्यूशन और गुणवत्ता की थीं। हालाँकि इनमें से ज़्यादातर तस्वीरें एक ही व्यक्ति की मानक प्रोफ़ाइल फ़ोटो हैं, लेकिन कुछ में चेहरा नहीं है। इसके विपरीत, सभी AI-जनरेटेड इमेज (आगे वर्णित) में एक चेहरा होता है। हम सेक्शन 4 में असली और नकली तस्वीरों के बीच इस अंतर पर फिर से विचार करेंगे।

२.२. GAN चेहरे


चित्र 2. हमारे प्रशिक्षण और मूल्यांकन में उपयोग की गई AI-जनरेटेड छवियों के प्रतिनिधि उदाहरण (तालिका 1 भी देखें)। कुछ संश्लेषण इंजनों का उपयोग केवल चेहरे बनाने के लिए किया गया था और अन्य का उपयोग चेहरे और गैर-चेहरे दोनों को संश्लेषित करने के लिए किया गया था। उपयोगकर्ता की गोपनीयता का सम्मान करने के लिए, हम वास्तविक फ़ोटो के उदाहरण नहीं दिखाते हैं।



2, और 3, रंगीन छवियों को 1024 × 1024 पिक्सेल के रिज़ॉल्यूशन और ψ = 0.5 के साथ संश्लेषित किया गया था। [1] EG3D (कुशल ज्यामिति-जागरूक 3D जेनरेटिव एडवरसैरियल नेटवर्क) के लिए, स्टाइलजीएएन के तथाकथित 3 डी संस्करण, हमने 512 × 512 के रिज़ॉल्यूशन पर ψ = 0.5 और यादृच्छिक हेड पोज़ के साथ 10,000 छवियों को संश्लेषित किया।


1024 × 1024 पिक्सल के रिज़ॉल्यूशन पर कुल 10,000 छवियाँ generated.photos[2] से डाउनलोड की गईं। ये GAN-संश्लेषित छवियाँ आम तौर पर अधिक पेशेवर दिखने वाले हेड शॉट्स का उत्पादन करती हैं क्योंकि नेटवर्क को फ़ोटोग्राफ़िक स्टूडियो में रिकॉर्ड की गई उच्च-गुणवत्ता वाली छवियों के डेटासेट पर प्रशिक्षित किया जाता है।

2.3. GAN गैर-चेहरे

कुल 5,000 स्टाइलगैन 1 छवियाँ डाउनलोड की गईं[3] तीन गैर-चेहरे श्रेणियों में से प्रत्येक के लिए: बेडरूम, कार और बिल्लियाँ (अन्य स्टाइलगैन संस्करणों के लिए रिपॉजिटरी चेहरों के अलावा अन्य श्रेणियों के लिए छवियाँ प्रदान नहीं करती हैं)। इन छवियों का आकार 512 × 384 (कार) से लेकर 256 × 256 (बेडरूम और बिल्लियाँ) तक था।

2.4. प्रसार चेहरे

हमने प्रत्येक स्थिर प्रसार [26] संस्करण (1, 2) [4] से 9,000 छवियाँ तैयार कीं। ऊपर वर्णित GAN चेहरों के विपरीत, टेक्स्ट-टू-इमेज प्रसार संश्लेषण चेहरों की उपस्थिति पर अधिक नियंत्रण प्रदान करता है। विविधता सुनिश्चित करने के लिए, 30 जनसांख्यिकी में से प्रत्येक के लिए 300 चेहरे "एक {युवा, मध्यम आयु वर्ग, वृद्ध} {काले, पूर्व-एशियाई, हिस्पैनिक, दक्षिण-एशियाई, श्वेत} {महिला, पुरुष} की एक तस्वीर" के साथ। इन छवियों को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था। इस डेटासेट को स्पष्ट संश्लेषण विफलताओं को हटाने के लिए क्यूरेट किया गया था, जिसमें, उदाहरण के लिए, चेहरा दिखाई नहीं दे रहा था।


स्टेबल डिफ्यूज़न (xl) के सबसे हाल के संस्करण से अतिरिक्त 900 छवियाँ संश्लेषित की गईं। पहले की तरह ही समान जनसांख्यिकीय श्रेणियों का उपयोग करते हुए, 30 श्रेणियों में से प्रत्येक के लिए 30 छवियाँ तैयार की गईं, जिनमें से प्रत्येक का रिज़ॉल्यूशन 768 × 768 था।


हमने DALL-E 2 [5] से 9,000 छवियाँ तैयार कीं, जिनमें 30 जनसांख्यिकीय समूहों में से प्रत्येक के लिए 300 छवियाँ शामिल थीं। इन छवियों को 512×512 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था।


कुल 1,000 मिडजर्नी[6] छवियों को 512 × 512 के रिज़ॉल्यूशन पर डाउनलोड किया गया था। इन छवियों को केवल एक ही चेहरे को शामिल करने के लिए मैन्युअल रूप से क्यूरेट किया गया था।

2.5. प्रसार गैर-चेहरे

हमने स्टेबल डिफ्यूजन (1, 2) के दो संस्करणों में से प्रत्येक से 1,000 गैर-चेहरे वाली छवियों को संश्लेषित किया। ये छवियां यादृच्छिक कैप्शन (चैटजीपीटी द्वारा उत्पन्न) का उपयोग करके बनाई गई थीं और किसी व्यक्ति या चेहरे वाली किसी भी छवि को हटाने के लिए मैन्युअल रूप से समीक्षा की गई थी। इन छवियों को 600 × 600 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था। 1,000 DALL-E 2 और 1,000 मिडजर्नी छवियों के एक समान सेट को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था।

2.6. प्रशिक्षण और मूल्यांकन डेटा

ऊपर सूचीबद्ध छवियों के सेट को प्रशिक्षण और मूल्यांकन में इस प्रकार विभाजित किया गया है। हमारा मॉडल (अनुभाग 3 में वर्णित) 30,000 वास्तविक चेहरों और 30,000 AI-जनरेटेड चेहरों के एक यादृच्छिक उपसमूह पर प्रशिक्षित है। AI-जनरेटेड चेहरे 5,250 स्टाइलगैन 1, 5,250 स्टाइलगैन 2, 4,500 स्टाइलगैन 3, 3,750 स्टेबल डिफ्यूजन 1, 3,750 स्टेबल डिफ्यूजन 2 और 7,500 DALL-E 2 छवियों के एक यादृच्छिक उपसमूह से बने हैं।


हम अपने मॉडल का मूल्यांकन निम्नलिखित के आधार पर करते हैं:


• प्रशिक्षण में उपयोग किए गए समान संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (स्टाइलगैन 1, स्टाइलगैन 2, स्टाइलगैन 3, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और डीएएलएल-ई 2)।


• प्रशिक्षण में उपयोग नहीं किए गए संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (जेनरेटेड.फोटोस, ईजी3डी, स्टेबल डिफ्यूजन एक्सएल, और मिडजर्नी)।


• पांच संश्लेषण इंजनों (स्टाइलगैन 1, डैल-ई 2, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और मिडजर्नी) में से प्रत्येक से 3,750 गैर-चेहरे छवियों का एक सेट।


• 13,750 वास्तविक चेहरों का एक सेट।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] स्टाइलगैन पैरामीटर ψ (आमतौर पर [0, 1] की सीमा में) एक छवि बनाने के लिए उपयोग किए जाने वाले अव्यक्त स्थान प्रतिनिधित्व में बीज मानों के कटाव को नियंत्रित करता है। ψ के छोटे मान बेहतर छवि गुणवत्ता प्रदान करते हैं लेकिन चेहरे की विविधता को कम करते हैं। ψ = 0.5 का एक मध्य-श्रेणी मान अपेक्षाकृत आर्टिफैक्ट-मुक्त चेहरे बनाता है, जबकि संश्लेषित चेहरे में लिंग, आयु और जातीयता में भिन्नता की अनुमति देता है।


[2] https://generated.photos/faces


[3] https://github.com/NVlabs/stylegan)


[4] https://github.com/स्थिरता - एआई/स्टेबलडिफ्यूजन


[5] https://openai.com/dall-e-2


[6] https://www.midjourney.com