नमस्ते 👋
आज, आइए 7 एमएल रिपोज़ के बारे में जानें जिनका उपयोग शीर्ष 1% डेवलपर्स करते हैं (और जिनके बारे में आपने संभवतः कभी नहीं सुना होगा)!
डेवलपर्स को रैंकिंग देना एक कठिन समस्या है और हर कार्यप्रणाली में कुछ समस्याएं होती हैं।
उदाहरण के लिए, यदि आप डेवलपर्स को उनके द्वारा पायथन में लिखे गए कोड की पंक्तियों की संख्या के आधार पर रैंक करते हैं, तो आपको संभवतः शीर्ष पर कुछ बहुत अच्छे पायथन डेवलपर्स मिलेंगे।
हालाँकि, आपको ऐसे लोग मिल सकते हैं जिन्होंने अपने रिपॉजिटरी में बहुत सारे पायथन कोड कॉपी-पेस्ट किए हैं और वे उतने अच्छे नहीं हैं। 🙁
क्विन में, हमने एक ऐसी कार्यप्रणाली विकसित की है जो हमें लगता है कि ज्यादातर मामलों में मजबूत है , लेकिन फिर भी 100% सही नहीं है!
इसे डेवरैंक कहा जाता है (हम इसकी गणना कैसे करते हैं, इसके बारे में आप यहां अधिक पढ़ सकते हैं)।
इस आलेख में मेरे द्वारा उपयोग की गई शीर्ष 1% की धारणा DevRank पर आधारित है।
और हाँ, हम इसे हर दिन बेहतर बनाने के लिए इस पर काम करना जारी रखते हैं!
हम रिपोज़ को देखते हैं कि 99वें प्रतिशतक ने तारांकित किया है।
फिर हम रेपो को स्टार करने के लिए शीर्ष 1% डेवलपर्स बनाम निचले 50% डेवलपर्स की प्रवृत्ति की तुलना करते हैं, और स्वचालित रूप से सूची तैयार करते हैं।
दूसरे शब्दों में, ये रिपॉजिटरी शीर्ष 1% डेवलपर्स द्वारा उपयोग किए जाने वाले छिपे हुए रत्न हैं और व्यापक डेवलपर समुदाय द्वारा अभी तक खोजे नहीं गए हैं।
मैं आपके अव्यवस्थित सीएसवी को संभालता हूं
सीएसवी फ़ाइलों को लोड करने की सामान्य समस्याओं से निपटने के लिए हमारे कुछ दोस्तों द्वारा एक पैकेज विकसित किया गया है। कई एमएल पाइपलाइनों की शुरुआत में एक छोटी लेकिन आम समस्या, अच्छी तरह से हल हो गई। 🔮
क्लेवरसीएसवी अपने तर्कों में कुछ भी बताए बिना, विभिन्न सीएसवी बोलियों का पता लगाने और लोड करने में सक्षम है। सीएसवी फ़ाइलें इसे मूल रूप से निष्पादित करने के लिए आवश्यक जानकारी प्रदान नहीं करती हैं, इसलिए लाइब्रेरी को कुछ चतुर अनुमान की आवश्यकता होती है।
क्लीवरसीएसवी उन गन्दी सीएसवी फाइलों को भी संभाल सकता है, जिनकी फॉर्मेटिंग में गलतियाँ होती हैं।
पायथन लाइब्रेरी के अलावा, क्लीवरसीएसवी में कोड निर्माण, अन्वेषण और मानकीकरण के लिए एक कमांड लाइन इंटरफ़ेस भी शामिल है।
https://github.com/alan-turing-institute/CleverCSV
सीएलआई के माध्यम से स्किकिट-लर्न के साथ एमएल वर्कफ़्लो को सुव्यवस्थित करें
क्या आप एकाधिक एल्गोरिदम के साथ क्रॉस-मान्य परिणाम प्राप्त करने के लिए स्केलेरन में अंतहीन बॉयलरप्लेट लिख रहे हैं ? अधिक स्वच्छ कोडिंग अनुभव के लिए इसके बजाय skll
का इंटरफ़ेस आज़माएँ। ⚡️
Skll को व्यापक कोडिंग की आवश्यकता को कम करते हुए, स्किकिट-लर्न के साथ मशीन लर्निंग प्रयोगों को अधिक कुशलता से चलाने में सक्षम बनाने के लिए डिज़ाइन किया गया है।
प्रदान की गई प्रमुख उपयोगिता को run_experiment
कहा जाता है, और यह कॉन्फ़िगरेशन फ़ाइल में निर्दिष्ट डेटासेट पर शिक्षार्थियों की एक श्रृंखला चलाता है।
यह मौजूदा कोड के साथ सीधे एकीकरण के लिए एक पायथन एपीआई भी प्रदान करता है, जिसमें प्रारूप रूपांतरण और फीचर फ़ाइल संचालन के लिए उपकरण शामिल हैं।
https://github.com/EducationalTestingService/skll
लगभग रैखिक-समय में के-मेडोइड्स क्लस्टरिंग
यहां मौलिक एल्गोस पर वापस जाएं - बैंडिटपीएएम एक नया के-मेडोइड्स (एक मजबूत "के-मीन्स") एल्गोरिदम है जो लगभग रैखिक समय में चल सकता है। 🎉
पिछले एल्गोरिदम के अनुसार, O(n^2) समय के बजाय O(nlogn) समय में चलता है।
क्लस्टर केंद्र डेटा बिंदु हैं, और इसलिए सार्थक टिप्पणियों के अनुरूप हैं। के-मीन्स क्लस्टर का केंद्र अमान्य डेटा के अनुरूप हो सकता है; के-मेडोइड्स के साथ यह संभव नहीं है।
मनमानी दूरी मेट्रिक्स का उपयोग किया जा सकता है (उदाहरण के लिए एल 1, या हैमिंग दूरी के बारे में सोचें), कुशल के-मीन्स एल्गो आमतौर पर एल 2 दूरी तक सीमित होते हैं।
इसपेपर से कार्यान्वित, BanditPAM उन डेटा वैज्ञानिकों के लिए आदर्श है जो समूह कार्य के लिए एक शक्तिशाली, स्केलेबल समाधान की तलाश में हैं, विशेष रूप से बड़े या जटिल डेटा से निपटने वाले लोगों के लिए।
https://github.com/motivari/BanditPAM
रिकॉर्ड मिलानकर्ता और डुप्लिकेट डिटेक्टर की हर किसी को आवश्यकता होती है
क्या आपने कभी अलग-अलग डेटासेट में उन उपयोगकर्ताओं का मिलान करने में संघर्ष किया है जिन्होंने अपना नाम गलत लिखा है , या जिनके गुण थोड़े अलग हैं? फ्रीली एक्स्टेंसिबल बायोमेडिकल रिकॉर्ड लिंकेज (एफईबीआरएल) से प्रेरित इस महान लाइब्रेरी का उपयोग करें, जिसे आधुनिक पायथन टूलींग के लिए फिर से बनाया गया है। 🛠️
numpy और पांडा का उपयोग करते हुए, शक्तिशाली FEBRL लाइब्रेरी का पायथन मूल कार्यान्वयन प्रदान करता है।
इसमें पर्यवेक्षित और पर्यवेक्षित दोनों दृष्टिकोण शामिल हैं।
पर्यवेक्षित एमएल दृष्टिकोण को सक्षम करने के लिए मिलान जोड़े उत्पन्न करने के लिए उपकरण शामिल हैं।
रिकॉर्ड लिंकेज उन डेटा वैज्ञानिकों के लिए आदर्श है जो रिकॉर्ड लिंकेज और डेटा डिडुप्लीकेशन कार्यों को करने के लिए लचीले, पायथन-आधारित समाधान की तलाश में हैं।
https://github.com/J535D165/recordlinkage
वेब पेज सामग्री निष्कर्षण पर एकमात्र ध्यान
वेबपेजों से सामग्री निकालना . ड्रग्नेट एक पृष्ठ पर सामग्री और उपयोगकर्ता टिप्पणियों पर ध्यान केंद्रित करता है, और बाकी को अनदेखा कर देता है। यह हमारे खुरचनी-मित्रों के लिए उपयोगी है। 🕷️
ड्रगनेट का लक्ष्य विज्ञापन या नेविगेशन उपकरण जैसी अवांछित सामग्री को हटाकर वेब पेजों से कीवर्ड और वाक्यांश निकालना है।
HTML स्ट्रिंग्स से सामग्री निकालने के लिए टिप्पणियों को शामिल करने या बाहर करने के विकल्प के साथ सरल पायथन फ़ंक्शंस ( extract_content
और extract_content_and_comments
) प्रदान करता है।
अधिक उन्नत उपयोग के लिए एक sklearn-style
एक्सट्रैक्टर वर्ग मौजूद है, जो एक्सट्रैक्टर्स के अनुकूलन और प्रशिक्षण की अनुमति देता है।
https://github.com/dragnet-org/dragnet
नवीनतम स्टैनफोर्डएनएलपी अनुसंधान मॉडल सीधे स्पासी में
मानक एनएलपी कार्यों जैसे कि पार्ट-ऑफ-स्पीच टैगिंग, निर्भरता पार्सिंग और नामित इकाई पहचान में रुचि रखते हैं? 🤔
SpaCy-Stanza, SpaCy पाइपलाइनों में उपयोग किए जाने वाले Stanza (पूर्व में स्टैनफोर्डएनएलपी) लाइब्रेरी को लपेटता है।
https://github.com/explosion/spacy-stanza
"ग्राफ नमूनाकरण कार्यों के लिए स्विस सेना चाकू"
क्या आपने कभी इतने बड़े डेटासेट के साथ काम किया है कि आपको उसका एक नमूना लेने की आवश्यकता पड़ी हो? सरल डेटा के लिए, यादृच्छिक नमूनाकरण एक छोटे नमूने में वितरण बनाए रखता है। हालाँकि, जटिल नेटवर्क में, स्नोबॉल नमूनाकरण - जहाँ आप प्रारंभिक उपयोगकर्ताओं का चयन करते हैं और उनके कनेक्शन शामिल करते हैं - नेटवर्क संरचना को बेहतर ढंग से पकड़ते हैं।
इससे विश्लेषण में पूर्वाग्रह से बचने में मदद मिलती है. 🔦
अब, क्या आपके पास ग्राफ़-संरचित डेटा है और इसके नमूनों पर काम करने की ज़रूरत है (या तो एल्गोरिथम या कम्प्यूटेशनल कारणों से)? 👩💻
लिटिलबॉलोफ़र ग्राफ़ और नेटवर्क से नमूना लेने के लिए कई तरीकों की पेशकश करता है, जिसमें नोड-, एज- और अन्वेषण-नमूना शामिल है।
एकीकृत एप्लिकेशन सार्वजनिक इंटरफ़ेस के साथ डिज़ाइन किया गया है, जिससे उपयोगकर्ताओं के लिए गहन तकनीकी जानकारी के बिना जटिल नमूना एल्गोरिदम लागू करना आसान हो जाता है।
https://github.com/benedecrozemberczki/littleballoffur
मुझे आशा है कि ये खोजें आपके लिए मूल्यवान होंगी और अधिक मजबूत एमएल टूलकिट बनाने में मदद करेंगी! ⚒️
यदि आप ओपन सोर्स में प्रभावशाली प्रोजेक्ट बनाने के लिए इन उपकरणों का लाभ उठाने में रुचि रखते हैं, तो आपको पहले यह पता लगाना चाहिए कि क्वीन पर आपका वर्तमान देवरैंक क्या है और देखें कि यह आने वाले महीनों में कैसे विकसित होता है!
अंत में, कृपया इन परियोजनाओं को अभिनीत करके उनका समर्थन करने पर विचार करें। ⭐️
पुनश्च: हम उनसे संबद्ध नहीं हैं। हम बस यही सोचते हैं कि महान परियोजनाएँ महान मान्यता की हकदार हैं।
आपसे अगले हफ्ते मिलते हैं,
आपका हैकरनून दोस्त 💚
बपतिस्मा
यदि आप ओपन सोर्स में स्व-घोषित "सबसे अच्छे" सर्वर से जुड़ना चाहते हैं, तो आपको हमारे डिसॉर्डर सर्वर से जुड़ना चाहिए। हम ओपन सोर्स में आपकी यात्रा में आपकी सहायता के लिए यहां हैं। 🫶
यहाँ भी प्रकाशित किया गया है.