1,919 रीडिंग

मेट्रिक्स पुनरुत्थान: कार्रवाई! कार्रवाई! कार्रवाई!

द्वारा Prithwish Mukherjee3m2024/06/11

बहुत लंबा; पढ़ने के लिए

उपयोगकर्ता रिपोर्ट किए गए मेट्रिक्स, उपयोगकर्ता धारणा का आकलन करने के लिए महत्वपूर्ण होते हुए भी, उनकी असंरचित प्रकृति के कारण परिचालन करना कठिन है। हालाँकि, LLM में हाल ही में हुई प्रगति असंरचित उपयोगकर्ता फ़ीडबैक को संरचित, कार्रवाई योग्य मेट्रिक्स में बदलने की अनुमति देती है। यह टीमों को सिस्टम-स्तरीय मेट्रिक्स के साथ-साथ उपयोगकर्ता धारणा पर उनके प्रभाव का आकलन करके प्रदर्शन सुधार परियोजनाओं को बेहतर ढंग से प्राथमिकता देने में सक्षम बनाता है। हालांकि यह मूर्खतापूर्ण नहीं है, लेकिन यह संयुक्त दृष्टिकोण संवादी AI एजेंटों में किए गए परिवर्तनों की प्रभावशीलता की अधिक व्यापक समझ प्रदान करता है। यह याद रखना महत्वपूर्ण है कि दोनों प्रकार के मेट्रिक्स उपयोगकर्ता की धारणा का सटीक आकलन करने और उसे बेहतर बनाने के लिए मूल्यवान हैं।

featured image - मेट्रिक्स पुनरुत्थान: कार्रवाई! कार्रवाई! कार्रवाई!

पृष्ठभूमि

इस श्रृंखला के पहले तीन लेखों को मिली अद्भुत प्रतिक्रिया को देखते हुए, मुझे चौथा भाग भी निकालना पड़ा।

पिछले 3 लेखों में, हमने बातचीत AI एजेंटों के लिए प्रदर्शन मीट्रिक परिभाषाओं, इंस्ट्रूमेंटेशन और स्केलेबिलिटी पर चर्चा की है। यदि आपने पिछले लेखों को नहीं पढ़ा है, तो यहां लिंक दिए गए हैं:

इस लेख में, हम चर्चा करेंगे कि इन मेट्रिक्स को और अधिक क्रियाशील कैसे बनाया जाए (नवीनतम एलएलएम प्रगति का उपयोग करके) ताकि निरंतर आधार पर प्रदर्शन में सुधार हो सके। इसका उद्देश्य इस डोमेन में काम करने वाले सभी लोगों के लिए चर्चा को सरल और काफी उच्च स्तर पर रखना होगा।

समस्या

उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक और उपयोगकर्ता द्वारा रिपोर्ट किए गए मीट्रिक 2 उच्च-स्तरीय वर्ग हैं जिन पर हमने चर्चा की है। परंपरागत रूप से, पूर्व को सिस्टम-स्तरीय मीट्रिक के रूप में माना जाता है - इन मीट्रिक को सीधे लॉग से मापा जाता है। नतीजतन, उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक स्वभाव से कार्रवाई योग्य हैं और इसलिए परिचालन योग्य हैं।

परिचालन मेट्रिक्स को उत्पादन लॉग से नियमित आधार पर ट्रैक किया जाता है और इसका उपयोग टीम-व्यापी OKRs के संबंध में लक्ष्य निर्धारण के लिए किया जा सकता है।

हालाँकि, भले ही उपयोगकर्ता द्वारा अनुभव किए गए मेट्रिक्स को संचालित करना आसान है, लेकिन यह ध्यान दिया जाना चाहिए कि ये “अनुभूत” हैं और “वास्तविक” उपयोगकर्ता मेट्रिक्स नहीं हैं। नतीजतन, इन मेट्रिक्स पर चढ़ाई करने से आपके संवादी AI एजेंट की उपयोगकर्ता धारणा में कोई महत्वपूर्ण सुधार नहीं हो सकता है। यदि ये परियोजनाएँ कई तिमाहियों में फैली हुई हैं, तो इससे संसाधनों का अकुशल प्रबंधन हो सकता है।

सभी प्रदर्शन सुधारों के अपेक्षित प्रभाव को सीधे उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के संदर्भ में मापने का एक तरीका होना चाहिए। इसे "उत्तर सितारा" प्रभाव के रूप में माना जाना चाहिए। तो, समस्या क्या है?

प्रत्यक्ष उपयोगकर्ता फीडबैक असंरचित होने की अपेक्षा की जाती है, जो कार्यान्वयन योग्य नहीं होता तथा जिसे कार्यान्वित करना कठिन होता है।

विस्तृत उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया स्वभाव से असंरचित होनी चाहिए। यदि उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया संरचित बनाई जाती है, तो यह उन क्षेत्रों पर ध्यान केंद्रित कर सकती है जिनके बारे में आंतरिक टीम पहले से ही जानती है। इनके अलावा, उपयोगकर्ता रिपोर्ट किए गए मीट्रिक मौसमी और कंपनी की धारणा जैसे कारकों से भी प्रभावित होते हैं।

उपयोगकर्ता द्वारा अनुभव किये गये मेट्रिक्स पर प्रभाव का अनुमान अधिक सटीक रूप से लगाया जा सकता है, लेकिन उपयोगकर्ता द्वारा रिपोर्ट किये गये मेट्रिक्स में कई अनियंत्रित कारक होते हैं।

समाधान

असंरचित उपयोगकर्ता रिपोर्ट की गई प्रतिक्रिया को एक संरचित प्रारूप में परिवर्तित किया जाना चाहिए जिसे कार्रवाई योग्य बनाया जा सके। असंरचित प्रतिक्रिया को मौजूदा सिस्टम-स्तरीय मीट्रिक में परिवर्तित करने के उद्देश्य से प्रशिक्षित विशिष्ट एमएल मॉडल हो सकते हैं।

यह ध्यान दिया जाना चाहिए कि इन मीट्रिक्स में अंतर्निहित विषमता से बचाने के लिए "हाल ही में" उपयोगकर्ता मीट्रिक प्रतिगमन के लिए उपयोगकर्ता रिपोर्ट किए गए मीट्रिक्स के प्राथमिक लक्ष्य का उपयोग करना अधिक व्यावहारिक हो सकता है। अधिक क्षैतिज दीर्घकालिक परियोजनाओं के लिए, इन मीट्रिक्स का उपयोग सिस्टम-स्तरीय मीट्रिक्स के साथ उपयोगकर्ता धारणा पर प्रभाव को मापने के लिए किया जाना चाहिए।

एलएलएम खेल को बदलने वाले हैं

अब सवाल यह है कि हम जिस विशिष्ट मीट्रिक की तलाश कर रहे हैं, उसके लिए एमएल मॉडल को प्रशिक्षित करने के लिए क्या प्रयास करने की आवश्यकता है? हाल ही में एलएलएम की लोकप्रियता और उपलब्धता में वृद्धि के साथ, असंरचित फीडबैक को किसी ऐसी चीज़ में बदलने के लिए आउट-ऑफ-द-बॉक्स एपीआई का उपयोग करना संभव हो सकता है जिसे सिस्टम-स्तरीय मीट्रिक के समान ट्रैक और मापा जा सकता है।

यह ध्यान रखना महत्वपूर्ण है कि LLM द्वारा संसाधित किए जा सकने वाले टोकन की संख्या में वृद्धि के साथ, उत्पाद-विशिष्ट जानकारी का एक बहुत कुछ “प्रॉम्प्ट” के भाग के रूप में प्रदान किया जा सकता है। परिणामस्वरूप, कुछ प्रॉम्प्ट इंजीनियरिंग के साथ-साथ ऑफ-द-शेल्फ LLM API कार्रवाई योग्य उपयोगकर्ता रिपोर्ट किए गए मीट्रिक प्रदान कर सकते हैं।

यह उपयोगकर्ता की धारणा पर सिस्टम-स्तरीय मीट्रिक सुधार परियोजनाओं के प्रभाव का आकलन करने का एक बहुत तेज़ तरीका प्रदान करता है जो प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने में उपयोगी हो सकता है।

संरचित उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के इस दृष्टिकोण के साथ भी, अप्रत्याशित परिवर्तनों के लिए अभी भी जगह है। हालांकि, यह कुछ हद तक विश्वास के साथ माना जा सकता है कि यदि कोई विशिष्ट परियोजना (सिस्टम-स्तरीय मीट्रिक को बेहतर बनाने के उद्देश्य से) रिपोर्ट किए गए मीट्रिक को सकारात्मक रूप से प्रभावित करती है, तो परियोजना वास्तव में उपयोगकर्ता धारणा में सुधार कर रही है।

हालाँकि, इस बात की कोई गारंटी नहीं है कि सभी वास्तव में "अच्छे" परिवर्तन हमेशा उपयोगकर्ता रिपोर्ट किए गए मीट्रिक को प्रभावी ढंग से सुधारेंगे। नतीजतन, प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने और उनका मूल्यांकन करने के लिए दोनों का मिश्रण उपयोग करना महत्वपूर्ण है।