4,330 रीडिंग
4,330 रीडिंग

मशीन लर्निंग में मॉडल अंशांकन: एक महत्वपूर्ण लेकिन अगोचर अवधारणा

द्वारा Sanjay Kumar6m2023/01/28
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

मशीन लर्निंग में अंशांकन सबसे महत्वपूर्ण अवधारणाओं में से एक है। यह हमें बताता है कि हम मॉडल भविष्यवाणी पर कितना भरोसा कर सकते हैं, खासकर वर्गीकरण मॉडल में। मशीन लर्निंग क्लासिफायर के संख्यात्मक आउटपुट की सार्थक व्याख्या के लिए अंशांकन की अच्छी समझ होना आवश्यक है। इस लेख में, हम मशीन लर्निंग मॉडल कैलिब्रेशन के पीछे के सिद्धांत और कुछ सरल वास्तविक जीवन के उदाहरणों के माध्यम से इसके महत्व पर चर्चा करेंगे।
featured image - मशीन लर्निंग में मॉडल अंशांकन: एक महत्वपूर्ण लेकिन अगोचर अवधारणा
Sanjay Kumar HackerNoon profile picture

विषयसूची

  • परिचय
  • मॉडल अंशांकन के पीछे की अवधारणा
  • मॉडल अंशांकन के कुछ वास्तविक समय के अनुप्रयोग
  • निष्कर्ष
  • संदर्भ

परिचय

कैलिब्रेशन- हालांकि मशीन लर्निंग में सबसे महत्वपूर्ण अवधारणाओं में से एक है, एआई/एमएल स्पेस में शुरुआती उत्साही लोगों के बीच इसके बारे में पर्याप्त बात नहीं की जाती है। अंशांकन हमें बताता है कि हम मॉडल भविष्यवाणी पर कितना भरोसा कर सकते हैं, खासकर वर्गीकरण मॉडल में। मशीन लर्निंग क्लासिफायर के संख्यात्मक आउटपुट की सार्थक व्याख्या के लिए अंशांकन की अच्छी समझ होना आवश्यक है। इस लेख में, हम मशीन लर्निंग मॉडल कैलिब्रेशन के पीछे के सिद्धांत और कुछ सरल वास्तविक जीवन के उदाहरणों के माध्यम से इसके महत्व पर चर्चा करेंगे।

मॉडल अंशांकन के पीछे की अवधारणा

एक मशीन लर्निंग मॉडल को कैलिब्रेट किया जाता है यदि यह कैलिब्रेटेड संभावनाएं पैदा करता है। अधिक विशेष रूप से, संभावनाओं को कैलिब्रेट किया जाता है जहां आत्मविश्वास पी वाले वर्ग की भविष्यवाणी समय का 100*p प्रतिशत सही है


जटिल लग रहा है?


आइए एक सरल उदाहरण के माध्यम से समझते हैं:


आइए हम इस बात पर विचार करें कि किसी विशेष दिन बारिश होगी या नहीं, इसका अनुमान लगाने के लिए हमें एक मशीन-लर्निंग मॉडल बनाने की आवश्यकता है। चूंकि केवल 2 संभावित परिणाम हैं - "वर्षा" और "कोई वर्षा नहीं", हम इसे एक द्विआधारी वर्गीकरण मॉडल के रूप में मान सकते हैं।


Unsplash पर उस्मान राणा द्वारा फोटो


यहाँ, "वर्षा" एक सकारात्मक वर्ग है जिसे 1 के रूप में दर्शाया गया है और "कोई वर्षा नहीं" एक नकारात्मक वर्ग है जिसे 0 के रूप में दर्शाया गया है।


यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 1 है तो हम मान सकते हैं कि यह उम्मीद की जा रही है कि उस दिन बारिश होने वाली है।


इसी तरह, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0 है तो हम मान सकते हैं कि यह उम्मीद कर रहा है कि उस दिन बारिश नहीं होने वाली है।


रीयल-टाइम में, मशीन लर्निंग मॉडल अक्सर कुछ संभाव्यता मूल्यों का प्रतिनिधित्व करने वाले संख्यात्मक वेक्टर के रूप में भविष्यवाणी का प्रतिनिधित्व करते हैं।


इसलिए, यह आवश्यक नहीं है कि हमें हमेशा 0 या 1 का मान प्राप्त होगा। आमतौर पर, यदि अनुमानित मान 0.5 से अधिक या उसके बराबर है, तो इसे 1 माना जाता है और यदि अनुमानित मान 0.5 से कम है, तो इसे 0 माना जाता है। .


उदाहरण के लिए, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0.66 है तो हम इसे 1 मान सकते हैं। इसी प्रकार, यदि किसी विशेष दिन के लिए मॉडल की भविष्यवाणी 0.24 है तो हम इसे 0 मान सकते हैं।


मान लेते हैं कि हमारे मॉडल ने आने वाले 10 दिनों के नतीजों की भविष्यवाणी इस तरह की:

छवि स्रोत: लेखक द्वारा सचित्र


हम देख सकते हैं कि यदि संभाव्यता मान 0.5 से अधिक या उसके बराबर है तो भविष्यवाणी "वर्षा" है।

इसी प्रकार, हम देख सकते हैं कि यदि प्रायिकता मान 0.5 से कम है तो पूर्वानुमान "वर्षा नहीं" है।


अब, सांख्यिकीय प्रश्न है -


"क्या प्रायिकता मान परिणाम के लिए वास्तविक संभावना मान हैं?"


दूसरे शब्दों में, अगर मेरे पास 0.8 का प्रायिकता मान है तो क्या इसका मतलब यह है कि उस दिन बारिश होने की 80% संभावना है?


अगर मेरे पास 0.2 का प्रायिकता मान है तो क्या इसका मतलब यह है कि 20% संभावना है कि दिन बारिश होगी?


सांख्यिकीय रूप से, यदि मैं दावा कर रहा हूं कि मेरा मॉडल अंशांकित है तो उत्तर "हां" होना चाहिए।


आउटपुट की श्रेणी तय करने के लिए संभाव्यता मान केवल थ्रेशोल्ड मान नहीं होना चाहिए। इसके बजाय, इसे परिणाम की वास्तविक संभावना का प्रतिनिधित्व करना चाहिए।


यहां, दिन 1 का प्रायिकता मान 0.81 है, लेकिन दिन 10 का प्रायिकता मान केवल 0.76 है। इसका मतलब यह है कि हालांकि दोनों दिन बारिश की संभावना है, पहले दिन बारिश होने के 10 दिन की तुलना में 5% अधिक संभावना है। यह परिणाम के संभावित पूर्वानुमान की ताकत को दर्शाता है। एक अच्छा सांख्यिकीविद् इस तरह के परिणामों की एक बड़ी संख्या से बहुत सारे पैटर्न का अनुमान लगाएगा यदि उसके पास इस तरह का मॉडल है।


आइए देखें कि कैसे सांख्यिकीविद् मॉडल अंशांकन की ग्राफिकल तरीके से व्याख्या कर रहे हैं।

इस तरह के एक ग्राफ पर विचार करें जिसमें 0 से 1 तक के मान X-अक्ष पर समान रूप से विभाजित हों-

छवि स्रोत: लेखक द्वारा सचित्र


अब, प्रत्येक बकेट में, परिणामों को उनके प्रायिकता मानों के अनुसार प्लॉट करें।

उदाहरण के लिए,


बकेट 0.6-0.8 में, हमारे पास 4 डेटा बिंदु हैं - दिन 4, दिन 8, दिन 9 और दिन 10।

छवि स्रोत: लेखक द्वारा सचित्र


इसी प्रकार, हम अन्य सभी बाल्टियों के लिए समान प्रक्रिया का पालन कर सकते हैं-

छवि स्रोत: लेखक द्वारा सचित्र अब तक, हमने केवल अनुमानित मान प्लॉट किए हैं।


चूंकि, हमारा सकारात्मक वर्ग "वर्षा" है, आइए हम प्रत्येक बकेट में मूल्यों को अलग करें जिसका वास्तविक मूल्य "वर्षा" है।
छवि स्रोत: लेखक द्वारा सचित्र


अब, प्रत्येक बकेट में धनात्मक वर्ग का अंश ज्ञात करें:
छवि स्रोत: लेखक द्वारा सचित्र


एक बार जब यह चरण पूरा हो जाता है, तो बस इन भिन्नात्मक मानों को Y-अक्ष के साथ एक रेखा के रूप में प्लॉट करें-
छवि स्रोत: लेखक द्वारा सचित्र


लाइन उचित रैखिक संरचना में नहीं है। इसका मतलब है कि हमारा मॉडल अच्छी तरह से कैलिब्रेटेड नहीं है। एक अच्छी तरह से कैलिब्रेटेड मॉडल का चार्ट ऐसा दिखता होगा-

छवि स्रोत: लेखक द्वारा सचित्र


आदर्श रूप से, एक अच्छी तरह से कैलिब्रेटेड मॉडल तीसरी बाल्टी (0.4-0.6) में लगभग 40% -60% "बारिश" की संभावना की उम्मीद करता है। हालाँकि, हमारा मॉडल "वर्षा" होने के परिणाम की केवल 30% संभावना दे रहा है। यह एक महत्वपूर्ण विचलन है। इस प्रकार का विचलन अन्य बाल्टियों में भी देखा जा सकता है।


कुछ सांख्यिकीविद् मॉडल के प्रदर्शन का मूल्यांकन करने के लिए कैलिब्रेटेड वक्र और मॉडल की संभावना वक्र के बीच के क्षेत्र का उपयोग करते हैं। जब क्षेत्र छोटा हो जाता है, तो प्रदर्शन अधिक होगा क्योंकि मॉडल वक्र अंशांकित वक्र के निकट होगा।


छवि स्रोत: लेखक द्वारा सचित्र

मशीन लर्निंग में मॉडल अंशांकन के कुछ वास्तविक समय के अनुप्रयोग

बहुत सारे रीयल-टाइम परिदृश्य हैं जिनमें एमएल अनुप्रयोगों के अंतिम उपयोगकर्ता प्रभावी और व्यावहारिक निर्णय लेने के लिए मॉडल अंशांकन पर निर्भर करते हैं जैसे-


  1. आइए मान लें कि हम ई-कॉमर्स प्लेटफॉर्म के लिए रैंकिंग-आधारित मॉडल बना रहे हैं। यदि कोई मॉडल अच्छी तरह से कैलिब्रेटेड है तो सिफारिश के उद्देश्य के लिए इसकी संभावना मूल्यों पर भरोसा किया जा सकता है। उदाहरण के लिए, मॉडल कहता है कि इस बात की 80% संभावना है कि उपयोगकर्ता उत्पाद A को पसंद करता है और 65% संभावना है कि उपयोगकर्ता उत्पाद B को पसंद करता है। इसलिए, हम उपयोगकर्ता को उत्पाद A को पहली वरीयता और उत्पाद B के रूप में सुझा सकते हैं। दूसरी वरीयता के रूप में।


  2. नैदानिक परीक्षणों के मामले में, विचार करें कि कुछ डॉक्टर दवाओं का विकास कर रहे हैं। यदि मॉडल भविष्यवाणी कर रहा है कि उपचार के लिए 2 दवाएं बहुत प्रभावी हैं - ड्रग ए और ड्रग बी। अब, डॉक्टरों को सूची से सबसे अच्छा उपलब्ध विकल्प चुनना चाहिए क्योंकि वे जोखिम नहीं उठा सकते क्योंकि यह एक अत्यधिक जोखिम भरा परीक्षण है मानव जीवन। यदि मॉडल ड्रग ए के लिए 95% और ड्रग बी के लिए 90% का प्रायिकता मान दे रहा है तो डॉक्टर स्पष्ट रूप से ड्रग ए के साथ आगे बढ़ेंगे।

निष्कर्ष


इस लेख में, हमने मॉडल अंशांकन के सैद्धांतिक आधार के माध्यम से जाना है और यह समझने के महत्व पर चर्चा की है कि क्लासिफायर को कैलिब्रेट किया गया है या नहीं, कुछ सरल वास्तविक जीवन उदाहरणों के माध्यम से। मशीन लर्निंग मॉडल के लिए "विश्वसनीयता" का निर्माण अक्सर शोधकर्ताओं के लिए इसे विकसित करने या सर्वर पर तैनात करने से बड़ी चुनौती होती है। मॉडल अंशांकन उन मामलों में अत्यंत मूल्यवान है जहां अनुमानित संभाव्यता ब्याज की है। यह मॉडल की भविष्यवाणी में अनिश्चितता की अंतर्दृष्टि या समझ देता है और बदले में, मॉडल की विश्वसनीयता को अंतिम उपयोगकर्ता द्वारा समझा जा सकता है, विशेष रूप से महत्वपूर्ण अनुप्रयोगों में।


मुझे उम्मीद है, इस लेख ने आपको इस अवधारणा की प्रस्तावना प्राप्त करने और इसकी गंभीरता को समझने में मदद की है। आप इसकी गहन समझ प्राप्त करने के लिए संदर्भ अनुभाग में उल्लिखित सामग्रियों का उल्लेख कर सकते हैं।

संदर्भ

  1. अंशांकन - विकिपीडिया
  2. गेबेल, मार्टिन (2009)। संभाव्यता स्थान (पीडीएफ) (पीएचडी थीसिस) में क्लासिफायर स्कोर का बहुभिन्नरूपी अंशांकन । डॉर्टमुंड विश्वविद्यालय।
  3. UM Garczarek "2004-11-23 वेबैक मशीन पर संग्रहीत," मानकीकृत विभाजन रिक्त स्थान में वर्गीकरण नियम, निबंध, डॉर्टमुंड विश्वविद्यालय, 2002
  4. . हस्ती और आर. टिबशिरानी, "जोड़ीवार युग्मन द्वारा वर्गीकरण। इन: एमआई जॉर्डन, एमजे किर्न्स और एसए सोल्ला (एड्स।), न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स में एडवांस, वॉल्यूम 10, कैम्ब्रिज, एमआईटी प्रेस, 1998।


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks