1,021 পড়া

7টি মেশিন লার্নিং রেপো যা শীর্ষ 1% ব্যবহার করে এবং সেগুলি সম্পর্কে আপনি জানতে চান না৷

দ্বারা Baptiste Fernandez5m2023/11/30

অতিদীর্ঘ; পড়তে

এই সংগ্রহস্থলগুলি হল লুকানো রত্ন যা শীর্ষ 1% বিকাশকারীদের দ্বারা ব্যবহৃত হয় এবং এখনও বিস্তৃত বিকাশকারী সম্প্রদায়ের দ্বারা আবিষ্কৃত হয়নি৷

featured image - 7টি মেশিন লার্নিং রেপো যা শীর্ষ 1% ব্যবহার করে এবং সেগুলি সম্পর্কে আপনি জানতে চান না৷

হাই 👋

আজ, আসুন 7 ML রেপোতে ডুব দেওয়া যাক যা শীর্ষ 1% বিকাশকারীরা ব্যবহার করে (এবং যাদের সম্পর্কে আপনি সম্ভবত কখনও শুনেননি)!

শীর্ষ 1% কি সংজ্ঞায়িত করে?

বিকাশকারীদের র‌্যাঙ্কিং একটি কঠিন সমস্যা, এবং প্রতিটি পদ্ধতির নিজস্ব সমস্যা রয়েছে।

উদাহরণস্বরূপ, আপনি যদি ডেভেলপারদের পাইথনে লেখা কোডের লাইনের সংখ্যা অনুসারে র‌্যাঙ্ক করেন তাহলে আপনি সম্ভবত শীর্ষে কিছু সুন্দর পাইথন বিকাশকারী পাবেন।

যাইহোক, আপনি এমন লোকদের পেতে পারেন যারা তাদের রেপোতে প্রচুর পাইথন কোড কপি-পেস্ট করেছেন এবং তারা তেমন ভাল নয়। 🙁

কুইনে, আমরা একটি পদ্ধতি তৈরি করেছি যা আমরা মনে করি বেশিরভাগ ক্ষেত্রেই শক্তিশালী , কিন্তু আবার 100% নিখুঁত নয়!

এটিকে বলা হয় DevRank (আমরা কীভাবে এটি এখানে গণনা করি সে সম্পর্কে আপনি আরও পড়তে পারেন)।

শীর্ষ 1% এর ধারণা যা আমি এই নিবন্ধে ব্যবহার করি তা DevRank-এর উপর ভিত্তি করে।

এবং হ্যাঁ, আমরা প্রতিদিন এটিকে আরও ভাল করার জন্য এটিতে কাজ চালিয়ে যাচ্ছি!

আমরা কিভাবে জানি যে কোন রিপোজ শীর্ষ 1% ব্যবহার করে?

আমরা 99 তম পার্সেন্টাইল তারকাচিহ্নিত repos দেখুন.

তারপরে আমরা উপরের 1% devs বনাম নীচের 50% devs-এর প্রবণতা একটি রেপো স্টার করার জন্য তুলনা করি এবং স্বয়ংক্রিয়ভাবে তালিকা তৈরি করি।

অন্য কথায়, এই সংগ্রহস্থলগুলি হল শীর্ষ 1% ডেভেলপারদের দ্বারা ব্যবহৃত লুকানো রত্ন এবং বৃহত্তর বিকাশকারী সম্প্রদায়ের দ্বারা এখনও আবিষ্কার করা হয়নি৷

চতুরসিএসভি

আমি আপনার অগোছালো CSV পরিচালনা করি

CSV ফাইল লোড করার সাধারণ ব্যথার পয়েন্টগুলি পরিচালনা করার জন্য আমাদের কিছু বন্ধু দ্বারা তৈরি একটি প্যাকেজ৷ অনেক ML পাইপলাইনের শুরুতে একটি ছোট কিন্তু সাধারণ সমস্যা, ভালভাবে সমাধান করা হয়েছে। 🔮

CleverCSV এর আর্গুমেন্টে কিছু বলার প্রয়োজন ছাড়াই বিভিন্ন CSV উপভাষা সনাক্ত করতে এবং লোড করতে সক্ষম। CSV ফাইলগুলি নেটিভভাবে এটি সম্পাদন করার জন্য প্রয়োজনীয় তথ্য প্রদান করে না, তাই লাইব্রেরির দ্বারা কিছু চতুর অনুমান প্রয়োজন৷
CleverCSV এমনকি অগোছালো CSV ফাইলগুলি পরিচালনা করতে পারে, যেগুলির ফর্ম্যাটিংয়ে ভুল রয়েছে৷
পাইথন লাইব্রেরি ছাড়াও, CleverCSV-এ কোড জেনারেশন, এক্সপ্লোরেশন এবং স্ট্যান্ডার্ডাইজেশনের জন্য একটি কমান্ড লাইন ইন্টারফেসও রয়েছে।

https://github.com/alan-turing-institute/CleverCSV

skll

স্ট্রীমলাইন এমএল ওয়ার্কফ্লো সিকিট-লার্নের মাধ্যমে সিএলআই

আপনি কি একাধিক অ্যালগরিদম সহ ক্রস-ভ্যালিডেটেড ফলাফল পেতে স্কলারনে অন্তহীন বয়লারপ্লেট লিখছেন ? অনেক পরিষ্কার কোডিং অভিজ্ঞতার জন্য পরিবর্তে skll এর ইন্টারফেস ব্যবহার করে দেখুন। ⚡️

Skll কে ডিজাইন করা হয়েছে স্কিট-লার্নের সাথে মেশিন লার্নিং এক্সপেরিমেন্টগুলিকে আরও দক্ষতার সাথে চালানোর জন্য, বিস্তৃত কোডিংয়ের প্রয়োজনীয়তা হ্রাস করে।
প্রদত্ত নেতৃস্থানীয় ইউটিলিটি বলা হয় run_experiment , এবং এটি একটি কনফিগারেশন ফাইলে নির্দিষ্ট করা ডেটাসেটে শিক্ষার্থীদের একটি সিরিজ চালায়।
এটি বিদ্যমান কোডের সাথে সহজবোধ্য একীকরণের জন্য একটি পাইথন এপিআইও অফার করে, যার মধ্যে ফর্ম্যাট রূপান্তর এবং বৈশিষ্ট্য ফাইল অপারেশনের জন্য সরঞ্জাম রয়েছে।

https://github.com/EducationalTestingService/skll

দস্যুপিএএম

প্রায় লিনিয়ার-টাইমে k-Medoids ক্লাস্টারিং

এখানে মৌলিক অ্যালগোসে ফিরে যান — BanditPAM হল একটি নতুন k-medoids (একটি শক্তিশালী "k-means" মনে করুন) অ্যালগরিদম যা প্রায় লিনিয়ার সময়ে চলতে পারে। 🎉

আগের অ্যালগরিদম অনুযায়ী O(n^2) সময়ের পরিবর্তে O(nlogn) সময়ে চলে।
ক্লাস্টার কেন্দ্রগুলি ডেটা পয়েন্ট, এবং তাই অর্থপূর্ণ পর্যবেক্ষণের সাথে সঙ্গতিপূর্ণ। একটি k- মানে ক্লাস্টারের কেন্দ্রটি অবৈধ ডেটার সাথে মিলিত হতে পারে; এটি k-medoids দিয়ে সম্ভব নয়।
নির্বিচারে দূরত্বের মেট্রিক্স ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ L1, বা হ্যামিং দূরত্ব মনে করুন), দক্ষ k- মানে অ্যালগোগুলি সাধারণত L2 দূরত্বের মধ্যে সীমাবদ্ধ থাকে।
এইকাগজ থেকে বাস্তবায়িত, BanditPAM ডেটা বিজ্ঞানীদের জন্য আদর্শ যারা গ্রুপ কাজের জন্য একটি শক্তিশালী, মাপযোগ্য সমাধান খুঁজছেন, বিশেষ করে যারা বড় বা জটিল ডেটা নিয়ে কাজ করে।

https://github.com/motiwari/BanditPAM

রেকর্ড লিঙ্ক

রেকর্ড ম্যাচার এবং ডুপ্লিকেট ডিটেক্টর সবার প্রয়োজন

আপনি কি কখনও বিভিন্ন ডেটাসেটের মধ্যে ব্যবহারকারীদের সাথে মেলাতে লড়াই করেছেন যারা তাদের নামের বানান ভুল করেছেন , বা যাদের বৈশিষ্ট্যগুলি কিছুটা আলাদা? ফ্রিলি এক্সটেনসিবল বায়োমেডিকাল রেকর্ড লিঙ্কেজ (FEBRL) দ্বারা অনুপ্রাণিত এই দুর্দান্ত লাইব্রেরিটি ব্যবহার করুন, আধুনিক পাইথন টুলিংয়ের জন্য পুনর্নির্মিত। 🛠️

numpy এবং pandas ব্যবহার করে শক্তিশালী FEBRL লাইব্রেরির একটি পাইথন নেটিভ ইমপ্লিমেন্টেশন প্রদান করে।
তত্ত্বাবধান করা এবং তত্ত্বাবধানহীন উভয় পদ্ধতিই অন্তর্ভুক্ত।
তত্ত্বাবধানে থাকা ML পন্থাগুলিকে সক্ষম করতে মিলিত জোড়া তৈরি করার জন্য সরঞ্জামগুলি অন্তর্ভুক্ত করে৷
রেকর্ড লিঙ্কেজ এবং ডেটা ডিডপ্লিকেশন কাজগুলি সম্পাদন করার জন্য নমনীয়, পাইথন-ভিত্তিক সমাধান খুঁজছেন ডেটা বিজ্ঞানীদের জন্য রেকর্ডলিঙ্কেজ আদর্শ।

https://github.com/J535D165/recordlinkage

dragnet

ওয়েব পৃষ্ঠা বিষয়বস্তু নিষ্কাশন উপর একটি একমাত্র ফোকাস

ওয়েবপেজ থেকে বিষয়বস্তু নিষ্কাশন . Dragnet একটি পৃষ্ঠার বিষয়বস্তু এবং ব্যবহারকারীর মন্তব্যগুলিতে ফোকাস করে এবং বাকিগুলি উপেক্ষা করে৷ এটা আমাদের স্ক্র্যাপার-বন্ধুদের জন্য সুবিধাজনক। 🕷️

ড্রাগনেটের লক্ষ্য হল বিজ্ঞাপন বা নেভিগেশন সরঞ্জামের মতো অবাঞ্ছিত বিষয়বস্তু সরিয়ে ওয়েব পৃষ্ঠাগুলি থেকে কীওয়ার্ড এবং বাক্যাংশ বের করা।
HTML স্ট্রিং থেকে বিষয়বস্তু বের করার জন্য মন্তব্য অন্তর্ভুক্ত বা বাদ দেওয়ার বিকল্প সহ সাধারণ পাইথন ফাংশন ( extract_content এবং extract_content_and_comments ) প্রদান করে।
একটি sklearn-style এক্সট্র্যাক্টর ক্লাস রয়েছে আরও উন্নত ব্যবহারের জন্য, যা কাস্টমাইজেশন এবং এক্সট্রাক্টরদের প্রশিক্ষণের অনুমতি দেয়।

https://github.com/dragnet-org/dragnet

spacy-স্তবক

সর্বশেষ StanfordNLP গবেষণা মডেল সরাসরি spaCy

পার্ট-অফ-স্পীচ ট্যাগিং, নির্ভরতা পার্সিং এবং নামযুক্ত সত্তা স্বীকৃতির মতো স্ট্যান্ডার্ড NLP কাজগুলিতে আগ্রহী? 🤔

SpaCy-Stanza স্পেসাই পাইপলাইনে ব্যবহার করার জন্য স্তানজা (পূর্বে স্ট্যানফোর্ডএনএলপি) লাইব্রেরি মোড়ানো।

প্যাকেজটিতে নির্বাচিত ভাষার জন্য নামযুক্ত সত্তা শনাক্তকরণ ক্ষমতা রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজে এর উপযোগিতা প্রসারিত করা হয়েছে।
এটি 68টি ভাষা সমর্থন করে, এটি বিভিন্ন ভাষাগত অ্যাপ্লিকেশনের জন্য বহুমুখী করে তোলে।
প্যাকেজটি আপনার পাইপলাইনকে অতিরিক্ত spaCy উপাদানের সাথে কাস্টমাইজ করার অনুমতি দেয়।

https://github.com/explosion/spacy-stanza

লিটলবলফর

"গ্রাফ স্যাম্পলিং কাজের জন্য সুইস আর্মি ছুরি"

আপনি কি কখনও এত বড় ডেটাসেট নিয়ে কাজ করেছেন যে আপনাকে এটির একটি নমুনা নিতে হবে? সাধারণ ডেটার জন্য, এলোমেলো নমুনা একটি ছোট নমুনায় বিতরণ বজায় রাখে। যাইহোক, জটিল নেটওয়ার্কগুলিতে, স্নোবল স্যাম্পলিং - যেখানে আপনি প্রাথমিক ব্যবহারকারীদের নির্বাচন করেন এবং তাদের সংযোগগুলি অন্তর্ভুক্ত করেন - নেটওয়ার্ক গঠন আরও ভাল ক্যাপচার করে।

এটি বিশ্লেষণে পক্ষপাত এড়াতে সাহায্য করে। 🔦

এখন, আপনার কাছে কি গ্রাফ-গঠিত ডেটা আছে এবং এটির নমুনাগুলিতে কাজ করতে হবে (হয় অ্যালগরিদমিক বা গণনাগত কারণে)? 👩‍💻

Littleballoffur নোড-, এজ- এবং অন্বেষণ-নমুনা সহ গ্রাফ এবং নেটওয়ার্ক থেকে নমুনা নেওয়ার জন্য বিভিন্ন পদ্ধতির প্রস্তাব দেয়।
একটি ইউনিফাইড অ্যাপ্লিকেশান পাবলিক ইন্টারফেস দিয়ে ডিজাইন করা হয়েছে, ব্যবহারকারীদের জন্য গভীর প্রযুক্তিগত জ্ঞান ছাড়াই জটিল নমুনা অ্যালগরিদম প্রয়োগ করা সহজ করে তোলে৷

https://github.com/benedekrozemberczki/littleballoffur

আমি আশা করি এই আবিষ্কারগুলি আপনার কাছে মূল্যবান এবং আরও শক্তিশালী ML টুলকিট তৈরি করতে সাহায্য করবে! ⚒️

আপনি যদি ওপেন সোর্সে কার্যকরী প্রজেক্ট তৈরি করতে এই টুলগুলিকে কাজে লাগাতে আগ্রহী হন, তাহলে আপনাকে প্রথমে খুঁজে বের করতে হবে যে আপনার বর্তমান DevRank Quine- এ কী আছে এবং আগামী মাসগুলিতে এটি কীভাবে বিকশিত হয় তা দেখতে হবে!

সবশেষে, অনুগ্রহ করে এই প্রকল্পগুলিকে তারকাচিহ্নিত করে সমর্থন করার কথা বিবেচনা করুন৷ ⭐️

PS: আমরা তাদের সাথে যুক্ত নই। আমরা শুধু মনে করি যে মহান প্রকল্প মহান স্বীকৃতি প্রাপ্য.

পরের সপ্তাহে দেখা হবে,

আপনার হ্যাকারনুন বন্ধু 💚

বাপ

আপনি যদি ওপেন সোর্সে স্ব-ঘোষিত "কুলেস্ট" সার্ভারে যোগ দিতে চান 😝, তাহলে আপনাকে আমাদের ডিসকর্ড সার্ভারে যোগ দিতে হবে। ওপেন সোর্সে আপনার যাত্রায় আপনাকে সাহায্য করতে আমরা এখানে আছি। 🫶