হাই 👋
আজ, আসুন 7 ML রেপোতে ডুব দেওয়া যাক যা শীর্ষ 1% বিকাশকারীরা ব্যবহার করে (এবং যাদের সম্পর্কে আপনি সম্ভবত কখনও শুনেননি)!
শীর্ষ 1% কি সংজ্ঞায়িত করে?
বিকাশকারীদের র্যাঙ্কিং একটি কঠিন সমস্যা, এবং প্রতিটি পদ্ধতির নিজস্ব সমস্যা রয়েছে।
উদাহরণস্বরূপ, আপনি যদি ডেভেলপারদের পাইথনে লেখা কোডের লাইনের সংখ্যা অনুসারে র্যাঙ্ক করেন তাহলে আপনি সম্ভবত শীর্ষে কিছু সুন্দর পাইথন বিকাশকারী পাবেন।
যাইহোক, আপনি এমন লোকদের পেতে পারেন যারা তাদের রেপোতে প্রচুর পাইথন কোড কপি-পেস্ট করেছেন এবং তারা তেমন ভাল নয়। 🙁
কুইনে, আমরা একটি পদ্ধতি তৈরি করেছি যা আমরা মনে করি বেশিরভাগ ক্ষেত্রেই শক্তিশালী , কিন্তু আবার 100% নিখুঁত নয়!
এটিকে বলা হয় DevRank (আমরা কীভাবে এটি এখানে গণনা করি সে সম্পর্কে আপনি আরও পড়তে পারেন)।
শীর্ষ 1% এর ধারণা যা আমি এই নিবন্ধে ব্যবহার করি তা DevRank-এর উপর ভিত্তি করে।
এবং হ্যাঁ, আমরা প্রতিদিন এটিকে আরও ভাল করার জন্য এটিতে কাজ চালিয়ে যাচ্ছি!
আমরা কিভাবে জানি যে কোন রিপোজ শীর্ষ 1% ব্যবহার করে?
আমরা 99 তম পার্সেন্টাইল তারকাচিহ্নিত repos দেখুন.
তারপরে আমরা উপরের 1% devs বনাম নীচের 50% devs-এর প্রবণতা একটি রেপো স্টার করার জন্য তুলনা করি এবং স্বয়ংক্রিয়ভাবে তালিকা তৈরি করি।
অন্য কথায়, এই সংগ্রহস্থলগুলি হল শীর্ষ 1% ডেভেলপারদের দ্বারা ব্যবহৃত লুকানো রত্ন এবং বৃহত্তর বিকাশকারী সম্প্রদায়ের দ্বারা এখনও আবিষ্কার করা হয়নি৷
চতুরসিএসভি
আমি আপনার অগোছালো CSV পরিচালনা করি
CSV ফাইল লোড করার সাধারণ ব্যথার পয়েন্টগুলি পরিচালনা করার জন্য আমাদের কিছু বন্ধু দ্বারা তৈরি একটি প্যাকেজ৷ অনেক ML পাইপলাইনের শুরুতে একটি ছোট কিন্তু সাধারণ সমস্যা, ভালভাবে সমাধান করা হয়েছে। 🔮
CleverCSV এর আর্গুমেন্টে কিছু বলার প্রয়োজন ছাড়াই বিভিন্ন CSV উপভাষা সনাক্ত করতে এবং লোড করতে সক্ষম। CSV ফাইলগুলি নেটিভভাবে এটি সম্পাদন করার জন্য প্রয়োজনীয় তথ্য প্রদান করে না, তাই লাইব্রেরির দ্বারা কিছু চতুর অনুমান প্রয়োজন৷
CleverCSV এমনকি অগোছালো CSV ফাইলগুলি পরিচালনা করতে পারে, যেগুলির ফর্ম্যাটিংয়ে ভুল রয়েছে৷
পাইথন লাইব্রেরি ছাড়াও, CleverCSV-এ কোড জেনারেশন, এক্সপ্লোরেশন এবং স্ট্যান্ডার্ডাইজেশনের জন্য একটি কমান্ড লাইন ইন্টারফেসও রয়েছে।
https://github.com/alan-turing-institute/CleverCSV
skll
স্ট্রীমলাইন এমএল ওয়ার্কফ্লো সিকিট-লার্নের মাধ্যমে সিএলআই
আপনি কি একাধিক অ্যালগরিদম সহ ক্রস-ভ্যালিডেটেড ফলাফল পেতে স্কলারনে অন্তহীন বয়লারপ্লেট লিখছেন ? অনেক পরিষ্কার কোডিং অভিজ্ঞতার জন্য পরিবর্তে skll
এর ইন্টারফেস ব্যবহার করে দেখুন। ⚡️
Skll কে ডিজাইন করা হয়েছে স্কিট-লার্নের সাথে মেশিন লার্নিং এক্সপেরিমেন্টগুলিকে আরও দক্ষতার সাথে চালানোর জন্য, বিস্তৃত কোডিংয়ের প্রয়োজনীয়তা হ্রাস করে।
প্রদত্ত নেতৃস্থানীয় ইউটিলিটি বলা হয়
run_experiment
, এবং এটি একটি কনফিগারেশন ফাইলে নির্দিষ্ট করা ডেটাসেটে শিক্ষার্থীদের একটি সিরিজ চালায়।এটি বিদ্যমান কোডের সাথে সহজবোধ্য একীকরণের জন্য একটি পাইথন এপিআইও অফার করে, যার মধ্যে ফর্ম্যাট রূপান্তর এবং বৈশিষ্ট্য ফাইল অপারেশনের জন্য সরঞ্জাম রয়েছে।
https://github.com/EducationalTestingService/skll
দস্যুপিএএম
প্রায় লিনিয়ার-টাইমে k-Medoids ক্লাস্টারিং
এখানে মৌলিক অ্যালগোসে ফিরে যান — BanditPAM হল একটি নতুন k-medoids (একটি শক্তিশালী "k-means" মনে করুন) অ্যালগরিদম যা প্রায় লিনিয়ার সময়ে চলতে পারে। 🎉
আগের অ্যালগরিদম অনুযায়ী O(n^2) সময়ের পরিবর্তে O(nlogn) সময়ে চলে।
ক্লাস্টার কেন্দ্রগুলি ডেটা পয়েন্ট, এবং তাই অর্থপূর্ণ পর্যবেক্ষণের সাথে সঙ্গতিপূর্ণ। একটি k- মানে ক্লাস্টারের কেন্দ্রটি অবৈধ ডেটার সাথে মিলিত হতে পারে; এটি k-medoids দিয়ে সম্ভব নয়।
নির্বিচারে দূরত্বের মেট্রিক্স ব্যবহার করা যেতে পারে (উদাহরণস্বরূপ L1, বা হ্যামিং দূরত্ব মনে করুন), দক্ষ k- মানে অ্যালগোগুলি সাধারণত L2 দূরত্বের মধ্যে সীমাবদ্ধ থাকে।
এইকাগজ থেকে বাস্তবায়িত, BanditPAM ডেটা বিজ্ঞানীদের জন্য আদর্শ যারা গ্রুপ কাজের জন্য একটি শক্তিশালী, মাপযোগ্য সমাধান খুঁজছেন, বিশেষ করে যারা বড় বা জটিল ডেটা নিয়ে কাজ করে।
https://github.com/motiwari/BanditPAM
রেকর্ড লিঙ্ক
রেকর্ড ম্যাচার এবং ডুপ্লিকেট ডিটেক্টর সবার প্রয়োজন
আপনি কি কখনও বিভিন্ন ডেটাসেটের মধ্যে ব্যবহারকারীদের সাথে মেলাতে লড়াই করেছেন যারা তাদের নামের বানান ভুল করেছেন , বা যাদের বৈশিষ্ট্যগুলি কিছুটা আলাদা? ফ্রিলি এক্সটেনসিবল বায়োমেডিকাল রেকর্ড লিঙ্কেজ (FEBRL) দ্বারা অনুপ্রাণিত এই দুর্দান্ত লাইব্রেরিটি ব্যবহার করুন, আধুনিক পাইথন টুলিংয়ের জন্য পুনর্নির্মিত। 🛠️
numpy এবং pandas ব্যবহার করে শক্তিশালী FEBRL লাইব্রেরির একটি পাইথন নেটিভ ইমপ্লিমেন্টেশন প্রদান করে।
তত্ত্বাবধান করা এবং তত্ত্বাবধানহীন উভয় পদ্ধতিই অন্তর্ভুক্ত।
তত্ত্বাবধানে থাকা ML পন্থাগুলিকে সক্ষম করতে মিলিত জোড়া তৈরি করার জন্য সরঞ্জামগুলি অন্তর্ভুক্ত করে৷
রেকর্ড লিঙ্কেজ এবং ডেটা ডিডপ্লিকেশন কাজগুলি সম্পাদন করার জন্য নমনীয়, পাইথন-ভিত্তিক সমাধান খুঁজছেন ডেটা বিজ্ঞানীদের জন্য রেকর্ডলিঙ্কেজ আদর্শ।
https://github.com/J535D165/recordlinkage
dragnet
ওয়েব পৃষ্ঠা বিষয়বস্তু নিষ্কাশন উপর একটি একমাত্র ফোকাস
ওয়েবপেজ থেকে বিষয়বস্তু নিষ্কাশন . Dragnet একটি পৃষ্ঠার বিষয়বস্তু এবং ব্যবহারকারীর মন্তব্যগুলিতে ফোকাস করে এবং বাকিগুলি উপেক্ষা করে৷ এটা আমাদের স্ক্র্যাপার-বন্ধুদের জন্য সুবিধাজনক। 🕷️
ড্রাগনেটের লক্ষ্য হল বিজ্ঞাপন বা নেভিগেশন সরঞ্জামের মতো অবাঞ্ছিত বিষয়বস্তু সরিয়ে ওয়েব পৃষ্ঠাগুলি থেকে কীওয়ার্ড এবং বাক্যাংশ বের করা।
HTML স্ট্রিং থেকে বিষয়বস্তু বের করার জন্য মন্তব্য অন্তর্ভুক্ত বা বাদ দেওয়ার বিকল্প সহ সাধারণ পাইথন ফাংশন (
extract_content
এবংextract_content_and_comments
) প্রদান করে।একটি
sklearn-style
এক্সট্র্যাক্টর ক্লাস রয়েছে আরও উন্নত ব্যবহারের জন্য, যা কাস্টমাইজেশন এবং এক্সট্রাক্টরদের প্রশিক্ষণের অনুমতি দেয়।
https://github.com/dragnet-org/dragnet
spacy-স্তবক
সর্বশেষ StanfordNLP গবেষণা মডেল সরাসরি spaCy
পার্ট-অফ-স্পীচ ট্যাগিং, নির্ভরতা পার্সিং এবং নামযুক্ত সত্তা স্বীকৃতির মতো স্ট্যান্ডার্ড NLP কাজগুলিতে আগ্রহী? 🤔
SpaCy-Stanza স্পেসাই পাইপলাইনে ব্যবহার করার জন্য স্তানজা (পূর্বে স্ট্যানফোর্ডএনএলপি) লাইব্রেরি মোড়ানো।
- প্যাকেজটিতে নির্বাচিত ভাষার জন্য নামযুক্ত সত্তা শনাক্তকরণ ক্ষমতা রয়েছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজে এর উপযোগিতা প্রসারিত করা হয়েছে।
- এটি 68টি ভাষা সমর্থন করে, এটি বিভিন্ন ভাষাগত অ্যাপ্লিকেশনের জন্য বহুমুখী করে তোলে।
- প্যাকেজটি আপনার পাইপলাইনকে অতিরিক্ত spaCy উপাদানের সাথে কাস্টমাইজ করার অনুমতি দেয়।
https://github.com/explosion/spacy-stanza
লিটলবলফর
"গ্রাফ স্যাম্পলিং কাজের জন্য সুইস আর্মি ছুরি"
আপনি কি কখনও এত বড় ডেটাসেট নিয়ে কাজ করেছেন যে আপনাকে এটির একটি নমুনা নিতে হবে? সাধারণ ডেটার জন্য, এলোমেলো নমুনা একটি ছোট নমুনায় বিতরণ বজায় রাখে। যাইহোক, জটিল নেটওয়ার্কগুলিতে, স্নোবল স্যাম্পলিং - যেখানে আপনি প্রাথমিক ব্যবহারকারীদের নির্বাচন করেন এবং তাদের সংযোগগুলি অন্তর্ভুক্ত করেন - নেটওয়ার্ক গঠন আরও ভাল ক্যাপচার করে।
এটি বিশ্লেষণে পক্ষপাত এড়াতে সাহায্য করে। 🔦
এখন, আপনার কাছে কি গ্রাফ-গঠিত ডেটা আছে এবং এটির নমুনাগুলিতে কাজ করতে হবে (হয় অ্যালগরিদমিক বা গণনাগত কারণে)? 👩💻
Littleballoffur নোড-, এজ- এবং অন্বেষণ-নমুনা সহ গ্রাফ এবং নেটওয়ার্ক থেকে নমুনা নেওয়ার জন্য বিভিন্ন পদ্ধতির প্রস্তাব দেয়।
একটি ইউনিফাইড অ্যাপ্লিকেশান পাবলিক ইন্টারফেস দিয়ে ডিজাইন করা হয়েছে, ব্যবহারকারীদের জন্য গভীর প্রযুক্তিগত জ্ঞান ছাড়াই জটিল নমুনা অ্যালগরিদম প্রয়োগ করা সহজ করে তোলে৷
https://github.com/benedekrozemberczki/littleballoffur
আমি আশা করি এই আবিষ্কারগুলি আপনার কাছে মূল্যবান এবং আরও শক্তিশালী ML টুলকিট তৈরি করতে সাহায্য করবে! ⚒️
আপনি যদি ওপেন সোর্সে কার্যকরী প্রজেক্ট তৈরি করতে এই টুলগুলিকে কাজে লাগাতে আগ্রহী হন, তাহলে আপনাকে প্রথমে খুঁজে বের করতে হবে যে আপনার বর্তমান DevRank Quine- এ কী আছে এবং আগামী মাসগুলিতে এটি কীভাবে বিকশিত হয় তা দেখতে হবে!
সবশেষে, অনুগ্রহ করে এই প্রকল্পগুলিকে তারকাচিহ্নিত করে সমর্থন করার কথা বিবেচনা করুন৷ ⭐️
PS: আমরা তাদের সাথে যুক্ত নই। আমরা শুধু মনে করি যে মহান প্রকল্প মহান স্বীকৃতি প্রাপ্য.
পরের সপ্তাহে দেখা হবে,
আপনার হ্যাকারনুন বন্ধু 💚
বাপ
আপনি যদি ওপেন সোর্সে স্ব-ঘোষিত "কুলেস্ট" সার্ভারে যোগ দিতে চান 😝, তাহলে আপনাকে আমাদের ডিসকর্ড সার্ভারে যোগ দিতে হবে। ওপেন সোর্সে আপনার যাত্রায় আপনাকে সাহায্য করতে আমরা এখানে আছি। 🫶
এছাড়াও এখানে প্রকাশিত.