डेटा साइंस ने नॉलेज डिस्कवरी इन डेटाबेस (KDD) और वेरी लार्ज डेटा बेस (VLDB) सम्मेलनों के शुरुआती दिनों से एक लंबा सफर तय किया है। 1980-90 के दशक में डेटाबेस को संभालने वाले सॉफ्टवेयर इंजीनियर 2000 के दशक में विशेष डेटाबेस इंजीनियरों के रूप में विकसित हुए। इस बीच कंप्यूटर वैज्ञानिकों की जेबें छोटे अनुसंधान प्रयोगशालाओं में मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस पर प्रयोग करती हैं। बिग डेटा 2010 के कैम्ब्रियन विस्फोट में टकराए गए स्मार्ट एल्गोरिदम से मिलता है, जिससे " डेटा साइंटिस्ट: द सेक्सिएस्ट जॉब ऑफ द 21 सेंचुरी " बन जाता है। यह हमें एक दशक बाद, महामारी के बाद 2022 में लाता है, यह सवाल पूछता है, " क्या डेटा साइंटिस्ट अभी भी 21 वीं सदी का सबसे कामुक काम है? "
आप यह लेख क्यों लिख रहे हैं?
शॉर्ट कट-अवे को क्षमा करें, लेकिन यह लेख 2022 के नूनीज़ अवार्ड के संयोजन में लिखा गया है। हैकरनून के 2002 के नूनी अवार्ड्स तकनीकी लेखकों को तकनीक की सभी चीजों में अपनी सर्वश्रेष्ठ और उज्ज्वल अंतर्दृष्टि साझा करने का जश्न मनाते हैं।
एक औपचारिक परिचय:
हाय, मैं लिलिंग कर रहा हूँ। दिन में, मैं अमेज़ॅन में एक अनुप्रयुक्त वैज्ञानिक हूं और काम के बाद, मैं खुले स्रोत को कोड करता हूं और प्राकृतिक भाषा प्रक्रिया पर तकनीकी लेख लिखता हूं और कभी-कभी गेमिंग पॉप-संस्कृति पर लेख लिखता हूं।
हैकरनून कंट्रीब्यूटर ऑफ द ईयर फॉर नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) श्रेणी में नामांकित होना एक खुशी और सम्मान की बात है और यदि आपने एनएलपी या मशीन अनुवाद सामग्री का आनंद लिया है जिसे मैं साझा कर रहा हूं, तो https पर वोट बटन को तोड़ने में मदद करें: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing
नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं।
एक तकनीकी लेखक के रूप में, मुझे मशीन लर्निंग में उभरती हुई तकनीकों को साझा करना पसंद है और मेरे पास भाषा और अनुवाद संबंधी तकनीकों का एक विशेष सॉफ्ट-स्पॉट है। नामांकन का जश्न मनाने के लिए, मैं इस लेख को "मुझसे कुछ भी पूछें" प्रश्न और उत्तर प्रारूप में लिख रहा हूं। “ मैं किस तरह का वैज्ञानिक हूँ” के बारे में मेरे विचारों और विचारों के बारे में और जानें? "तकनीक उद्योग में निम्नलिखित अनुभागों में।
"21वीं सदी में सबसे कामुक नौकरी" पर वापस
आजकल, " डेटा वैज्ञानिकों " के लिए नौकरी का विवरण विभिन्न रूपों में आता है और यह मोटे तौर पर इन श्रेणियों के अंतर्गत आता है:
- डेटा वैज्ञानिक
- अनुसंधान वैज्ञानिक
- अनुप्रयुक्त वैज्ञानिक
- डाटा इंजीनियर
- अनुसंधान इंजीनियर
- मशीन लर्निंग (एमएल) इंजीनियर
यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है।
यदि आप किसी से अलग-अलग नौकरी के शीर्षक की भूमिका और जिम्मेदारियों के बीच अंतर के बारे में पूछते हैं, तो आप शायद एक अस्पष्ट रेखा के साथ समाप्त हो जाएंगे जो उनमें से प्रत्येक को चित्रित करती है। वास्तव में, यह आमतौर पर काम का एक अस्पष्ट अतिव्यापी दायरा होता है जो कंपनी और टीम की भूमिका परिभाषाओं के आधार पर भिन्न होता है। मुख्य अंतर आमतौर पर "वैज्ञानिक" और "इंजीनियर" भूमिकाओं के बीच आता है, जहां वैज्ञानिक से आमतौर पर डेटा और मॉडल गुणवत्ता पक्ष पर अधिक ध्यान केंद्रित करने की अपेक्षा की जाती है, जबकि इंजीनियर मॉडल अखंडता और सेवा विश्वसनीयता पर अधिक ध्यान केंद्रित करता है।
प्रश्न: क्या डेटा या मॉडल गुणवत्ता?
यह आमतौर पर " वैज्ञानिकों " की जिम्मेदारी है। उद्योग में, यह अलग-अलग कार्य और अनुप्रयोगों के लिए विशिष्ट है जो टीम समर्थन करती है और/या विकसित करती है। यह मशीन लर्निंग मॉडल बनाने वाले अकादमिक शोधकर्ताओं के समान है, लेकिन अंतिम मॉडल प्रयोग करने योग्य है या नहीं, इसकी व्यावहारिकता आमतौर पर उद्योग में अत्याधुनिक परिणामों को मात देने की आवश्यकता को कम करती है।
- डेटा गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं:
- मॉडल को प्रशिक्षित/सुधार करने के लिए आप किस ओपन सोर्स डेटा का उपयोग कर सकते हैं?
- आंतरिक डेटा स्रोतों का मालिक कौन है जिसका उपयोग आप मॉडल को प्रशिक्षित/सुधार करने के लिए कर सकते हैं?
- मॉडल को फिट करने के लिए डेटा को कैसे निकालें, रूपांतरित करें, स्टोर करें और लोड करें?
- डेटा की गुणवत्ता और आकार में सुधार कैसे करें?
- मॉडल गुणवत्ता कार्यों में आमतौर पर शामिल होते हैं:
- कार्य को हल करने के लिए उपयोग करने के लिए सही एल्गोरिदम या नेटवर्क आर्किटेक्चर ढूँढना
- कार्य/आवेदन का मूल्यांकन करने के लिए मूल्यांकन ढांचे के उपयोग को परिभाषित/परिष्कृत करना
- परिभाषित मूल्यांकन मीट्रिक/ढांचे के आधार पर मॉडल के प्रदर्शन में सुधार
- मॉडल को उत्पादन में प्रयोग करने योग्य बनाने के लिए एल्गोरिथम के लिए गति और प्रदर्शन ट्रेडऑफ़ का अनुकूलन
प्रश्न: मॉडल अखंडता और सेवा विश्वसनीयता क्या है?
यह आमतौर पर " इंजीनियरों " की जिम्मेदारी है। विश्वसनीयता आज किसी भी आधुनिक मशीन लर्निंग एप्लिकेशन के लिए महत्वपूर्ण है। यह सुनिश्चित करना महत्वपूर्ण है कि ग्राहकों/उपयोगकर्ताओं के लिए सर्वोत्तम मॉडल तैयार करने के वैज्ञानिकों के कार्बन-उत्सर्जित प्रयास उत्पादन में अपेक्षित प्रदर्शन उत्पन्न करते हैं।
एक वैज्ञानिक का " यह मेरे लैपटॉप पर काम करता है " कथन उद्योग में अस्वीकार्य है और इंजीनियरों ने " यह कहीं भी काम करता है " एक सपने को सच करने में मदद करता है।
- मॉडल अखंडता कार्यों में आमतौर पर शामिल होते हैं:
मॉडल प्रशिक्षण और परिनियोजन को स्वचालित करने के लिए ढांचे का निर्माण और रखरखाव
यह सुनिश्चित करना कि प्रायोगिक परियोजनाओं में किए गए फीचर/सुधार उत्पादन मॉडल में उपलब्ध हैं
वैज्ञानिकों के मॉडल को उत्पादन में लाने के लिए मैनुअल चरणों को कम/समाप्त करने के लिए प्रयोगात्मक सेटअप को स्वचालित करने के लिए वृद्धिशील सुधार।
- सेवा विश्वसनीयता कार्यों में आमतौर पर शामिल होते हैं:
- अलर्ट सेट करना और उपयोगकर्ताओं के एप्लिकेशन उपयोग की निगरानी करना और यदि / जब यह मशीन लर्निंग मॉडल विफल / टूट जाता है
- आंतरिक/राष्ट्रीय/क्षेत्रीय नियमों का पालन करने के लिए मॉडल तक उपयोगकर्ताओं की पहुंच को निर्दिष्ट और सीमित करना
- बढ़ते उपयोगकर्ताओं और लोड के लिए सेवा को सुलभ बनाना
आधुनिक दिनों में, कभी-कभी इन इंजीनियरिंग जिम्मेदारियों को मशीन लर्निंग ऑपरेशंस (MLOps) के रूप में जाना जाता है, Chip Huyen के पास एक अच्छा ब्लॉगपोस्ट है जो इच्छुक ML/Data/Research इंजीनियरों के लिए MLOps पर एक सिंहावलोकन देता है ।
मशीन लर्निंग, डेटा, एप्लाइड, रिसर्च साइंटिस्ट/इंजीनियर क्या करते हैं, इसकी कई अन्य परिभाषाएँ हैं लेकिन उपरोक्त मेरे व्यक्तिगत उद्योग के अनुभव से है।
प्रश्न: क्या मुझे साइंटिस्ट या इंजीनियर के लिए जाना चाहिए?
निर्भर करता है! और जैसा कि पहले चर्चा की गई है, यह कंपनी से टीम में भिन्न होता है और नौकरी आवेदन प्रक्रिया के दौरान हर किसी को हमेशा भर्ती प्रबंधक से अपेक्षित जिम्मेदारियों के बारे में पूछना चाहिए।
एक अच्छा वैज्ञानिक कुछ इंजीनियरिंग कार्य करने में सक्षम होना चाहिए। इसके विपरीत, एक अच्छा इंजीनियर कुछ मशीन लर्निंग मॉडल बनाने में सक्षम होना चाहिए।
व्यक्तिगत रूप से, एक वैज्ञानिक के रूप में, ये मेरी सलाह है जो मैं महत्वाकांक्षी/नए वैज्ञानिकों को देता हूं:
- कुछ बैकएंड/फ्रंटएंड इंजीनियरिंग जानने से मदद मिलती है
- जानिए क्या संभव है, क्या आसान है, इंजीनियरों के लिए क्या कठिन है
- इंजीनियरों से सीखें (डॉकर, डेटाबेस, क्लाउड, ऐप्स डिज़ाइन/देव)
- और इंजीनियरों को सीखने दें कि आप क्या करते हैं
और एक अंतिम नोट जो मैं हमेशा खुद को याद दिलाने की कोशिश करता हूं,
पी/एस: एक इंजीनियर एक वैज्ञानिक से बेहतर मॉडल को प्रशिक्षित कर सकता है।
प्रश्न: प्रैक्टिकल की बात करें, क्या डेटा, रिसर्च या एप्लाइड साइंटिस्ट में कोई अंतर है?
भूमिकाएं और जिम्मेदारी के अनुसार, वे समान हैं लेकिन व्यावहारिक रूप से कुछ कंपनियों के पास विभिन्न वैज्ञानिकों के पदों के बीच स्पष्ट सीमांकन हो सकता है, इसलिए हमेशा मानव संसाधन (एचआर) कर्मियों या भर्ती प्रबंधक के रूप में यदि " भूमिका दिशानिर्देश " को साझा करना संभव है जिस पद पर आप आवेदन कर रहे हैं और कंपनी और टीम में शामिल होने के बाद अपनी भूमिका की अपेक्षाओं को समझने के लिए विशेष रूप से महत्वपूर्ण है ।
प्रश्न: हाँ, तकनीक, करियर के बारे में यह सब अच्छा और अच्छा है, मुझे डेटा, शोध या अनुप्रयुक्त वैज्ञानिक के लिए आटा (व्यावहारिक रूप से $$$ अंतर) के बारे में और बताएं!
मैं ज्यादातर मामलों में व्यक्तिगत रूप से एक " व्यावहारिक " हूं, लेकिन जब "आटा" की बात आती है, तो https://www.levels.fyi/ और कंपनी के बारे में अधिक जानने के लिए कंपनियों में दोस्तों/वरिष्ठों से पूछना आपकी सबसे अच्छी शर्त है। और उनका मुआवजा।
मेरी व्यक्तिगत राय:
"इसे पैसे के लिए मत करो" ओवर-रेटेड है। इसे करने के प्यार के लिए करो। मुझे संख्याओं और भाषा डेटा को देखने में मज़ा आता है, इस प्रकार एनएलपी। लेकिन इसे करने के लिए पर्याप्त भुगतान प्राप्त करना याद रखें =)
करियर की चर्चा से आगे, अब तकनीकी हिस्सा!
मैंने मशीन लर्निंग के क्षेत्र में वैज्ञानिकों और इंजीनियरों के बीच के अंतरों पर चर्चा की है और अब मैं एक ऐसे महत्वपूर्ण प्रश्न का उत्तर देने का प्रयास करूँगा जो लगभग सभी वैज्ञानिक पूछेंगे:
प्रश्न: मुझे X समस्या है, इसे हल करने के लिए कौन सा टूल/विधि Y है?
यह आमतौर पर " एक अच्छा प्रश्न कैसे पूछें " गाइड के अनुसार स्टैक ओवरफ्लो प्रश्नों का सबसे खराब रूप है, लेकिन मुझे लगता है कि यह ऐसा कुछ है जिसे समुदाय को जब भी हम कर सकते हैं उत्तर देने का प्रयास करना चाहिए।
मेरी व्यक्तिगत राय:
इन व्यावहारिक प्रश्नों पर कोई "बुरा" प्रश्न या "अधिक ध्यान देने की आवश्यकता नहीं है"। लेकिन यह अनिवार्य रूप से कभी-कभी दुर्भावनापूर्ण उत्पाद/तकनीकी विज्ञापन को आकर्षित करता है।
एक्स समस्या, वाई दृष्टिकोण, " वैज्ञानिक " के रूप में उत्तर देने के लिए मेरा 10-चरणीय दृष्टिकोण यहां दिया गया है, ...
साहित्य की समीक्षा
- जितना अधिक आप पढ़ेंगे, आपके पास उतने ही अधिक उपकरण होंगे
- लेकिन खरगोश के छेद से बचने के लिए अपना समय सीमित करें, शायद " पेपर-ब्लिट्जिंग " का प्रयास करें =)
जानें कि कौन से डेटासेट उपलब्ध हैं और उनमें क्या है (शोर, विचित्रता, आदि)
पता लगाएं कि कौन सा मूल्यांकन मीट्रिक कार्य X है जिसका आमतौर पर मूल्यांकन किया जाता है
कार्य के सबसे पुराने प्रासंगिक उद्धरण को ट्रैक करें , उस पेपर को पढ़ें
कार्य के लिए उच्चतम उद्धृत पेपर खोजें , इसे अपनी आधार रेखा के रूप में उपयोग करें
- जब भी संभव हो, उस उच्चतम उद्धृत पेपर और नवीनतम चमकदार पेपर में डेटासेट का शिकार करें
कार्य के लिए अपने सफलता मानदंड को औद्योगिक रूप से परिभाषित करें (यह कार्य के लिए मानक eval मीट्रिक नहीं हो सकता है)
आधार रेखा को दोहराने या फिर से लागू करने का प्रयास करें
इंजीनियरों को अपने मॉडल/पुस्तकालयों के बारे में बताएं । क्या आपका इंजीनियर इसका उत्पादन कर सकता है?
क्या बेसलाइन सफलता के मानदंडों को पूरा करती थी? व्यवसाय/परियोजना हितधारक से पूछें कि क्या यह पर्याप्त है
इसे बनाएं, इसका परीक्षण करें, इसे तोड़ें, दोहराएं!
प्रश्न: एक मिनट रुकिए, क्या इसका मतलब यह है कि कोई "एक सच्चा एल्गोरिथ्म / टूल Y" नहीं है जिसे मैं टास्क X को हल करना सीख सकता हूं?
हाँ, वहाँ नहीं है।
व्यक्तिगत अनुभव से, उपकरण/मॉडल जो इसे आपके ग्राहकों के हाथ में बनाता है, आमतौर पर ऊपर वर्णित दृष्टिकोण के चरण 6 से 9 पर बहुत अधिक निर्भर करता है।
प्रश्न: मशीन लर्निंग और एनएलपी में आगे क्या है (जिसके बारे में आप व्यक्तिगत रूप से उत्साहित हैं)?
इस समय, मैं अपना खाली समय हगिंगफेस के बारे में सीखने में बिता रहा हूं - और न केवल पुस्तकालय के विभिन्न घटकों का उपयोग करने के बारे में, बल्कि यह समझने में कि कौन सी विशेषताएं इसे सफल बनाती हैं और एक्स-फैक्टर क्या है जिसने इसे कर्षण प्राप्त किया मशीन लर्निंग कम्युनिटी में।
और अगली चीज जिसमें मैं अपना समय निवेश करूंगा वह है क्वांटम एमएल, अगर मेरे पास और भी समय है =)
- https://developer.nvidia.com/cuquantum-sdk
- https://www.nature.com/articles/s41467-022-32550-3
- https://github.com/XanaduAI/pennylane
- https://medium.com/xanaduai/training-quantum-neural-networks-with-pennylane-pytorch-and-tensorflow-c669108118cc
इतना लंबा और मछली के लिए धन्यवाद!
मुझे उम्मीद है कि उपरोक्त प्रश्न और जैसा कि आपको " मैं किस तरह का वैज्ञानिक हूं " के बारे में कुछ जानकारी देता हूं। और अगर और भी ज्वलंत प्रश्न हैं जो आप पूछना चाहते हैं, तो बेझिझक टिप्पणी को पोस्ट के नीचे छोड़ दें।
अंत में, मैं Noonie पुरस्कार नामांकन के लिए HackerNoon समुदाय, कर्मचारियों और प्रायोजकों को बहुत-बहुत धन्यवाद देना चाहता हूं और यदि आप इस लेख का आनंद लेते हैं, तो https://www.noonies.tech/2022/programming/2022- पर वोट बटन को तोड़ने में मदद करें। हैकरनून-योगदानकर्ता-ऑफ-द-ईयर-प्राकृतिक-भाषा-प्रसंस्करण