मैकओएस के लिए यह वास्तविक समय, ऑन-डिवाइस एंटी-फिशिंग समाधान संदर्भ-आधारित पहचान को एक नए स्तर पर ले जाता है, जो मैक उपयोगकर्ताओं को तुरंत चेतावनी देता है कि वे एक फ़िशिंग वेबसाइट पर हैं।
2023 में कितनी अनोखी फ़िशिंग वेबसाइट प्रकाशित की गईं? एंटीफ़िशिंग वर्किंग ग्रुप
नीचे वर्णित समाधान एक अवधारणा-प्रमाण प्रयोग के रूप में शुरू हुआ
वर्तमान एंटीफ़िशिंग ऐप मुख्य रूप से तीन पहचान विधियों का उपयोग करते हैं: ब्लैकलिस्टिंग, वर्गीकरण-आधारित दृष्टिकोण और संदर्भ-आधारित दृष्टिकोण। प्रत्येक विधि के अपने फायदे हैं, लेकिन सभी में और सुधार की आवश्यकता है। आइए उनमें से प्रत्येक का पता लगाएं।
ब्लैकलिस्ट दृष्टिकोण व्यावहारिक और सटीक है, लेकिन यह फ़िशिंग वेबसाइटों के तेज़ी से फैलने को रोक नहीं सकता। यह हमेशा प्रभावी नहीं होता है क्योंकि नई फ़िशिंग वेबसाइटों को अभी भी सूची में जोड़ने की आवश्यकता हो सकती है, जबकि हमलावर अक्सर पता लगाने से बचने के लिए URL बदल देते हैं।
उदाहरण के लिए, Google सुरक्षित ब्राउज़िंग ज्ञात फ़िशिंग साइटों की सूची का उपयोग करता है। जब आप किसी वेबसाइट पर जाने का प्रयास करते हैं, तो यह इस सूची के विरुद्ध पता जाँचता है। यदि कोई मेल खाता है, तो यह पहुँच को अवरुद्ध करता है और आपको खतरे के बारे में चेतावनी देता है। लेकिन क्या होगा यदि वेबसाइट कुछ ही मिनट पहले प्रकाशित हुई हो? यह सूची में नहीं होगी, और उपयोगकर्ता फंस जाएगा।
इस एंटीफिशिंग विधि में, मशीन लर्निंग URL संरचना, HTML सामग्री और मेटाडेटा जैसी वेबपेज सुविधाओं का विश्लेषण करती है ताकि यह निर्धारित किया जा सके कि वेबसाइट नकली है या वैध। ब्राउज़र एक्सटेंशन के लिए वर्गीकरण बहुत बढ़िया है क्योंकि यह नए फ़िशिंग साइटों को पहचानने के लिए उपयोगकर्ता डेटा से सीखता है।
यहाँ नुकसान यह है कि मशीन लर्निंग के लिए जटिल एल्गोरिदम और बहुत सारे प्रशिक्षण डेटा की आवश्यकता होती है, जबकि साइबर अपराधी पहचान से बचने के लिए तेज़ी से नई अस्पष्टता रणनीति का आविष्कार करते हैं। यह वर्गीकरण-आधारित दृष्टिकोणों को कम सटीक बनाता है और स्टैंडअलोन सुरक्षा उत्पादों के लिए आदर्श नहीं है।
कुछ संदर्भ-आधारित समाधान अत्याधुनिक माने जाते हैं। वे वेबपेज की दिखावट का विश्लेषण करने और फ़िशिंग वेबसाइटों का प्रभावी ढंग से पता लगाने के लिए कंप्यूटर विज़न का उपयोग करते हैं। हालाँकि, हम यह भी देखते हैं कि संदर्भ-आधारित समाधान तेज़ हो सकते हैं यदि वे क्लाउड में फ़िशिंग मामलों को संसाधित नहीं कर रहे होते।
फ़िशिंग वेबसाइट के लाइव होने और संदर्भ-आधारित पहचान प्रणालियों द्वारा उसे सूची में शामिल करने के बीच एक महत्वपूर्ण समय अंतराल होता है। हम इस अंतराल को कम करना चाहते थे ताकि त्वरित पहचान और प्रतिक्रिया सुनिश्चित हो सके।
हमारा लक्ष्य मैक उपयोगकर्ताओं को फ़िशिंग वेबसाइट के लाइव होते ही उनके बारे में चेतावनी देना था। इसे प्राप्त करने के लिए, हमने संदर्भ-आधारित दृष्टिकोण अपनाया और इसमें सुधार किया। हमने क्लाउड प्रोसेसिंग को समाप्त कर दिया और सभी गणनाएँ स्थानीय रूप से करने का सुझाव दिया, जिसका उद्देश्य पता लगाने के समय को कम करना था। एक बोनस के रूप में, हमारा समाधान गोपनीयता को बढ़ाता है क्योंकि सभी उपयोगकर्ता डेटा डिवाइस पर संसाधित होते हैं और कहीं और नहीं जाते हैं।
हमने स्विफ्ट का उपयोग करके एक मूल macOS ऐप बनाया, जिसमें फ्रेमवर्क शामिल हैं
संक्षेप में यह इस प्रकार काम करता है।
वेबसाइट पर होने पर, हमारा ऐप पेज लेआउट को समझने की कोशिश करता है। यह लोगो, इनपुट फ़ील्ड और बटन जैसे मुख्य पेज तत्वों की पहचान करता है। इस कार्य के लिए, हमने चुना
इस चरण में, वेबसाइट पर तत्वों के स्थान को पहचानना महत्वपूर्ण है, विशेष रूप से ब्रांड लोगो और क्रेडेंशियल दर्ज करने के लिए फॉर्म वाले क्षेत्र को।
इसके बाद, प्रोटोटाइप जाँचता है कि वेबसाइट पर पाया गया लोगो किसी प्रसिद्ध ब्रांड से मेल खाता है या नहीं। इसके अलावा, यह वेबपेज URL की तुलना वैध वेबसाइटों की संदर्भ सूची से करता है। अगर वेबसाइट आधिकारिक है, तो हम आगे के चरणों को छोड़ देते हैं।
दूसरी ओर, हम यह देखकर निराश हुए कि ब्रांड मार्केटिंग के लिए कितने आधिकारिक डोमेन का उपयोग करते हैं। यह कोई आश्चर्य की बात नहीं है कि फ़िशिंग वेबसाइट अपने पीड़ितों को धोखा देने में इतनी प्रभावी हैं। उदाहरण के लिए, DHL के पास dhl.com, express.dhl, mydhli.com, dhlsameday.com और dhlexpresscommerce.com जैसे कई आधिकारिक डोमेन हैं।
हम वेबपेज को दो श्रेणियों में वर्गीकृत करते हैं: क्या इसके लिए क्रेडेंशियल की आवश्यकता है या नहीं। यह चरण सत्यापित करता है कि क्या कोई फ़िशिंग वेबसाइट व्यक्तिगत उपयोगकर्ता की जानकारी चुराने की कोशिश कर रही है।
स्क्रीनशॉट में, हमारे प्रोटोटाइप ने क्रेडेंशियल इनपुट फ़ील्ड पाए, पृष्ठ को DHL को जिम्मेदार ठहराया, और आधिकारिक DHL डोमेन की सूची के विरुद्ध URL की जाँच की। उपयोगकर्ता को फ़िशिंग चेतावनी मिली क्योंकि पृष्ठ DHL से संबंधित नहीं था।
हमारा सिस्टम बेसलाइन सटीकता को बनाए रखता है या उससे आगे निकल जाता है और निश्चित रूप से प्रसंस्करण समय तेज़ होता है। हमने लोगो पहचान में 90.8% और क्रेडेंशियल इनपुट का पता लगाने में 98.1% सटीकता हासिल की।
नीचे दिया गया ग्राफ़ अन्य एंटीफ़िशिंग समाधानों के मुक़ाबले हमारे प्रदर्शन को दर्शाता है, और सटीकता, रिकॉल और झूठी सकारात्मक दर में हमारी तुलना को दर्शाता है। हमने गर्व से 87.7% फ़िशिंग प्रयासों का पता लगाया, जबकि झूठी सकारात्मक दर को 3.4% पर कम रखा।
अंतिम मीट्रिक्स दर्शाते हैं कि हमारा समाधान प्रदर्शन में उल्लेखनीय कमी के बिना पृष्ठभूमि में सुचारू रूप से चलता है। CPU का उपयोग न्यूनतम है: Apple M1 Mac में आठ कोर के साथ, हमारा प्रोटोटाइप उपलब्ध 800% क्षमता का केवल 16% उपयोग करता है। यह खपत स्तर तीन सक्रिय सफ़ारी टैब या एक ज़ूम कॉल के समान है।
बाजार में बहुत सारे एंटीफिशिंग ऐप हैं, लेकिन उनमें से ज़्यादातर बाहरी सर्वर पर डेटा प्रोसेस करते हैं। हमारा प्रोटोटाइप दिखाता है कि आधुनिक कंप्यूटर पर हार्डवेयर हमें मशीन लर्निंग मॉडल को स्थानीय रूप से डिवाइस पर लाने की अनुमति देता है। हम उनका उपयोग फ़िशिंग से निपटने के लिए कर सकते हैं और प्रोसेसिंग स्पीड और सिस्टम संसाधनों के उपयोग के बारे में चिंता नहीं कर सकते। सौभाग्य से, Apple पारिस्थितिकी तंत्र अनुकूलन के लिए फ्रेमवर्क और उपकरण प्रदान करता है।
लेखक: इवान पेट्रुखा, मैकपॉ टेक्नोलॉजिकल आरएंडडी में वरिष्ठ अनुसंधान इंजीनियर, पूर्व मूनलॉक।