paint-brush
7 मशीन लर्निंग रिपोज़ जिनका शीर्ष 1% उपयोग करते हैं और नहीं चाहते कि आप उनके बारे में जानेंद्वारा@bap
1,008 रीडिंग
1,008 रीडिंग

7 मशीन लर्निंग रिपोज़ जिनका शीर्ष 1% उपयोग करते हैं और नहीं चाहते कि आप उनके बारे में जानें

द्वारा Baptiste Fernandez5m2023/11/30
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

ये रिपॉजिटरी शीर्ष 1% डेवलपर्स द्वारा उपयोग किए जाने वाले छिपे हुए रत्न हैं और व्यापक डेवलपर समुदाय द्वारा अभी तक खोजे नहीं गए हैं।
featured image - 7 मशीन लर्निंग रिपोज़ जिनका शीर्ष 1% उपयोग करते हैं और नहीं चाहते कि आप उनके बारे में जानें
Baptiste Fernandez HackerNoon profile picture
0-item

नमस्ते 👋


आज, आइए 7 एमएल रिपोज़ के बारे में जानें जिनका उपयोग शीर्ष 1% डेवलपर्स करते हैं (और जिनके बारे में आपने संभवतः कभी नहीं सुना होगा)!


बोस्टन रोबोटिक्स


शीर्ष 1% को क्या परिभाषित करता है?

डेवलपर्स को रैंकिंग देना एक कठिन समस्या है और हर कार्यप्रणाली में कुछ समस्याएं होती हैं।


उदाहरण के लिए, यदि आप डेवलपर्स को उनके द्वारा पायथन में लिखे गए कोड की पंक्तियों की संख्या के आधार पर रैंक करते हैं, तो आपको संभवतः शीर्ष पर कुछ बहुत अच्छे पायथन डेवलपर्स मिलेंगे।


हालाँकि, आपको ऐसे लोग मिल सकते हैं जिन्होंने अपने रिपॉजिटरी में बहुत सारे पायथन कोड कॉपी-पेस्ट किए हैं और वे उतने अच्छे नहीं हैं। 🙁


क्विन में, हमने एक ऐसी कार्यप्रणाली विकसित की है जो हमें लगता है कि ज्यादातर मामलों में मजबूत है , लेकिन फिर भी 100% सही नहीं है!


इसे डेवरैंक कहा जाता है (हम इसकी गणना कैसे करते हैं, इसके बारे में आप यहां अधिक पढ़ सकते हैं)।


इस आलेख में मेरे द्वारा उपयोग की गई शीर्ष 1% की धारणा DevRank पर आधारित है।


और हाँ, हम इसे हर दिन बेहतर बनाने के लिए इस पर काम करना जारी रखते हैं!

हमें कैसे पता चलेगा कि शीर्ष 1% किस रेपो का उपयोग करते हैं?

हम रिपोज़ को देखते हैं कि 99वें प्रतिशतक ने तारांकित किया है।


फिर हम रेपो को स्टार करने के लिए शीर्ष 1% डेवलपर्स बनाम निचले 50% डेवलपर्स की प्रवृत्ति की तुलना करते हैं, और स्वचालित रूप से सूची तैयार करते हैं।


दूसरे शब्दों में, ये रिपॉजिटरी शीर्ष 1% डेवलपर्स द्वारा उपयोग किए जाने वाले छिपे हुए रत्न हैं और व्यापक डेवलपर समुदाय द्वारा अभी तक खोजे नहीं गए हैं।


चतुरCSV

मैं आपके अव्यवस्थित सीएसवी को संभालता हूं

चतुरCSV

सीएसवी फ़ाइलों को लोड करने की सामान्य समस्याओं से निपटने के लिए हमारे कुछ दोस्तों द्वारा एक पैकेज विकसित किया गया है। कई एमएल पाइपलाइनों की शुरुआत में एक छोटी लेकिन आम समस्या, अच्छी तरह से हल हो गई। 🔮


  • क्लेवरसीएसवी अपने तर्कों में कुछ भी बताए बिना, विभिन्न सीएसवी बोलियों का पता लगाने और लोड करने में सक्षम है। सीएसवी फ़ाइलें इसे मूल रूप से निष्पादित करने के लिए आवश्यक जानकारी प्रदान नहीं करती हैं, इसलिए लाइब्रेरी को कुछ चतुर अनुमान की आवश्यकता होती है।

  • क्लीवरसीएसवी उन गन्दी सीएसवी फाइलों को भी संभाल सकता है, जिनकी फॉर्मेटिंग में गलतियाँ होती हैं।

  • पायथन लाइब्रेरी के अलावा, क्लीवरसीएसवी में कोड निर्माण, अन्वेषण और मानकीकरण के लिए एक कमांड लाइन इंटरफ़ेस भी शामिल है।


https://github.com/alan-turing-institute/CleverCSV


skll

सीएलआई के माध्यम से स्किकिट-लर्न के साथ एमएल वर्कफ़्लो को सुव्यवस्थित करें

स्केल

क्या आप एकाधिक एल्गोरिदम के साथ क्रॉस-मान्य परिणाम प्राप्त करने के लिए स्केलेरन में अंतहीन बॉयलरप्लेट लिख रहे हैं ? अधिक स्वच्छ कोडिंग अनुभव के लिए इसके बजाय skll का इंटरफ़ेस आज़माएँ। ⚡️


  • Skll को व्यापक कोडिंग की आवश्यकता को कम करते हुए, स्किकिट-लर्न के साथ मशीन लर्निंग प्रयोगों को अधिक कुशलता से चलाने में सक्षम बनाने के लिए डिज़ाइन किया गया है।

  • प्रदान की गई प्रमुख उपयोगिता को run_experiment कहा जाता है, और यह कॉन्फ़िगरेशन फ़ाइल में निर्दिष्ट डेटासेट पर शिक्षार्थियों की एक श्रृंखला चलाता है।

  • यह मौजूदा कोड के साथ सीधे एकीकरण के लिए एक पायथन एपीआई भी प्रदान करता है, जिसमें प्रारूप रूपांतरण और फीचर फ़ाइल संचालन के लिए उपकरण शामिल हैं।


https://github.com/EducationalTestingService/skll


बैंडिटपीएएम

लगभग रैखिक-समय में के-मेडोइड्स क्लस्टरिंग

बैंडिटपीएएम

यहां मौलिक एल्गोस पर वापस जाएं - बैंडिटपीएएम एक नया के-मेडोइड्स (एक मजबूत "के-मीन्स") एल्गोरिदम है जो लगभग रैखिक समय में चल सकता है। 🎉


  • पिछले एल्गोरिदम के अनुसार, O(n^2) समय के बजाय O(nlogn) समय में चलता है।

  • क्लस्टर केंद्र डेटा बिंदु हैं, और इसलिए सार्थक टिप्पणियों के अनुरूप हैं। के-मीन्स क्लस्टर का केंद्र अमान्य डेटा के अनुरूप हो सकता है; के-मेडोइड्स के साथ यह संभव नहीं है।

  • मनमानी दूरी मेट्रिक्स का उपयोग किया जा सकता है (उदाहरण के लिए एल 1, या हैमिंग दूरी के बारे में सोचें), कुशल के-मीन्स एल्गो आमतौर पर एल 2 दूरी तक सीमित होते हैं।

  • इसपेपर से कार्यान्वित, BanditPAM उन डेटा वैज्ञानिकों के लिए आदर्श है जो समूह कार्य के लिए एक शक्तिशाली, स्केलेबल समाधान की तलाश में हैं, विशेष रूप से बड़े या जटिल डेटा से निपटने वाले लोगों के लिए।


https://github.com/motivari/BanditPAM


रिकॉर्डलिंकेज

रिकॉर्ड मिलानकर्ता और डुप्लिकेट डिटेक्टर की हर किसी को आवश्यकता होती है

रिकार्डलिंकेज

क्या आपने कभी अलग-अलग डेटासेट में उन उपयोगकर्ताओं का मिलान करने में संघर्ष किया है जिन्होंने अपना नाम गलत लिखा है , या जिनके गुण थोड़े अलग हैं? फ्रीली एक्स्टेंसिबल बायोमेडिकल रिकॉर्ड लिंकेज (एफईबीआरएल) से प्रेरित इस महान लाइब्रेरी का उपयोग करें, जिसे आधुनिक पायथन टूलींग के लिए फिर से बनाया गया है। 🛠️


  • numpy और पांडा का उपयोग करते हुए, शक्तिशाली FEBRL लाइब्रेरी का पायथन मूल कार्यान्वयन प्रदान करता है।

  • इसमें पर्यवेक्षित और पर्यवेक्षित दोनों दृष्टिकोण शामिल हैं।

  • पर्यवेक्षित एमएल दृष्टिकोण को सक्षम करने के लिए मिलान जोड़े उत्पन्न करने के लिए उपकरण शामिल हैं।

  • रिकॉर्ड लिंकेज उन डेटा वैज्ञानिकों के लिए आदर्श है जो रिकॉर्ड लिंकेज और डेटा डिडुप्लीकेशन कार्यों को करने के लिए लचीले, पायथन-आधारित समाधान की तलाश में हैं।


https://github.com/J535D165/recordlinkage


महाजाल

वेब पेज सामग्री निष्कर्षण पर एकमात्र ध्यान

महाजाल

वेबपेजों से सामग्री निकालना . ड्रग्नेट एक पृष्ठ पर सामग्री और उपयोगकर्ता टिप्पणियों पर ध्यान केंद्रित करता है, और बाकी को अनदेखा कर देता है। यह हमारे खुरचनी-मित्रों के लिए उपयोगी है। 🕷️


  • ड्रगनेट का लक्ष्य विज्ञापन या नेविगेशन उपकरण जैसी अवांछित सामग्री को हटाकर वेब पेजों से कीवर्ड और वाक्यांश निकालना है।

  • HTML स्ट्रिंग्स से सामग्री निकालने के लिए टिप्पणियों को शामिल करने या बाहर करने के विकल्प के साथ सरल पायथन फ़ंक्शंस ( extract_content और extract_content_and_comments ) प्रदान करता है।

  • अधिक उन्नत उपयोग के लिए एक sklearn-style एक्सट्रैक्टर वर्ग मौजूद है, जो एक्सट्रैक्टर्स के अनुकूलन और प्रशिक्षण की अनुमति देता है।


https://github.com/dragnet-org/dragnet


रिक्त-छंद

नवीनतम स्टैनफोर्डएनएलपी अनुसंधान मॉडल सीधे स्पासी में

स्पेसी-स्टैंज़ा

मानक एनएलपी कार्यों जैसे कि पार्ट-ऑफ-स्पीच टैगिंग, निर्भरता पार्सिंग और नामित इकाई पहचान में रुचि रखते हैं? 🤔


SpaCy-Stanza, SpaCy पाइपलाइनों में उपयोग किए जाने वाले Stanza (पूर्व में स्टैनफोर्डएनएलपी) लाइब्रेरी को लपेटता है।


  • पैकेज में चयनित भाषाओं के लिए नामित इकाई पहचान क्षमताएं शामिल हैं, जो प्राकृतिक भाषा प्रसंस्करण कार्यों में इसकी उपयोगिता का विस्तार करती हैं।
  • यह 68 भाषाओं का समर्थन करता है, जो इसे विभिन्न भाषाई अनुप्रयोगों के लिए बहुमुखी बनाता है।
  • पैकेज आपकी पाइपलाइन को अतिरिक्त स्पासी घटकों के साथ अनुकूलित करने की अनुमति देता है।


https://github.com/explosion/spacy-stanza



फर की छोटी गेंद

"ग्राफ नमूनाकरण कार्यों के लिए स्विस सेना चाकू"

फर की छोटी गेंद

क्या आपने कभी इतने बड़े डेटासेट के साथ काम किया है कि आपको उसका एक नमूना लेने की आवश्यकता पड़ी हो? सरल डेटा के लिए, यादृच्छिक नमूनाकरण एक छोटे नमूने में वितरण बनाए रखता है। हालाँकि, जटिल नेटवर्क में, स्नोबॉल नमूनाकरण - जहाँ आप प्रारंभिक उपयोगकर्ताओं का चयन करते हैं और उनके कनेक्शन शामिल करते हैं - नेटवर्क संरचना को बेहतर ढंग से पकड़ते हैं।


इससे विश्लेषण में पूर्वाग्रह से बचने में मदद मिलती है. 🔦


अब, क्या आपके पास ग्राफ़-संरचित डेटा है और इसके नमूनों पर काम करने की ज़रूरत है (या तो एल्गोरिथम या कम्प्यूटेशनल कारणों से)? 👩‍💻


  • लिटिलबॉलोफ़र ग्राफ़ और नेटवर्क से नमूना लेने के लिए कई तरीकों की पेशकश करता है, जिसमें नोड-, एज- और अन्वेषण-नमूना शामिल है।

  • एकीकृत एप्लिकेशन सार्वजनिक इंटरफ़ेस के साथ डिज़ाइन किया गया है, जिससे उपयोगकर्ताओं के लिए गहन तकनीकी जानकारी के बिना जटिल नमूना एल्गोरिदम लागू करना आसान हो जाता है।


https://github.com/benedecrozemberczki/littleballoffur




मुझे आशा है कि ये खोजें आपके लिए मूल्यवान होंगी और अधिक मजबूत एमएल टूलकिट बनाने में मदद करेंगी! ⚒️


यदि आप ओपन सोर्स में प्रभावशाली प्रोजेक्ट बनाने के लिए इन उपकरणों का लाभ उठाने में रुचि रखते हैं, तो आपको पहले यह पता लगाना चाहिए कि क्वीन पर आपका वर्तमान देवरैंक क्या है और देखें कि यह आने वाले महीनों में कैसे विकसित होता है!


अंत में, कृपया इन परियोजनाओं को अभिनीत करके उनका समर्थन करने पर विचार करें। ⭐️


पुनश्च: हम उनसे संबद्ध नहीं हैं। हम बस यही सोचते हैं कि महान परियोजनाएँ महान मान्यता की हकदार हैं।


बूम

आपसे अगले हफ्ते मिलते हैं,

आपका हैकरनून दोस्त 💚

बपतिस्मा



यदि आप ओपन सोर्स में स्व-घोषित "सबसे अच्छे" सर्वर से जुड़ना चाहते हैं, तो आपको हमारे डिसॉर्डर सर्वर से जुड़ना चाहिए। हम ओपन सोर्स में आपकी यात्रा में आपकी सहायता के लिए यहां हैं। 🫶


यहाँ भी प्रकाशित किया गया है.