অ্যানথ্রপিক, ক্লড সিরিজের মডেলগুলির পিছনের কোম্পানি, ক্লড 3.5 সনেট প্রকাশ করেছে৷ এটি এমন একটি সময়ে আসে যখন আমরা সবাই যুক্তি, সংক্ষিপ্তকরণ, ইত্যাদির মতো বেশিরভাগ কাজের জন্য GPT-4o কে ডিফল্ট সেরা মডেল হিসাবে গ্রহণ করেছি৷ অ্যানথ্রোপিক সাহসী দাবি করে যে তাদের মডেল বুদ্ধিমত্তার জন্য নতুন "শিল্পের মান" সেট করে৷
অতিরিক্তভাবে, claude.ai-এ এটি বিনামূল্যে পাওয়া যায় যদি আপনি এটিকে স্পিন দিতে চান। সুতরাং, আমরা উত্তেজিত হয়েছিলাম এবং মডেলটি পরীক্ষা করতে এবং GPT-4o এর সাথে তুলনা করতে চেয়েছিলাম। এই নিবন্ধটি Claude 3.5 এর সাথে প্রকাশিত বৈশিষ্ট্যগুলির একটি ওভারভিউ দিয়ে শুরু হয় এবং কোড তৈরিতে GPT-4o এর সাথে পরীক্ষা করে, সেইসাথে যৌক্তিক এবং গাণিতিক যুক্তির কাজ করে।
মডেলটি তিনটি প্রধান বৈশিষ্ট্য বা নতুনত্ব নিয়ে আসে যা তাদের দাবি করে যে এটি বেশিরভাগ কাজে GPT-4o কে হারায়।
আসুন বৈশিষ্ট্যগুলির আরও গভীরে ডুব দেওয়া যাক এবং সেগুলিকে LLM-এর দীর্ঘ রাজত্বকারী রাজা, GPT-4o-এর সাথে তুলনা করি৷
শুরু করার জন্য আমাদের claude.ai ওয়েবসাইটে লগ ইন করতে হবে এবং আর্টিফ্যাক্ট বৈশিষ্ট্য সক্রিয় করতে হবে। যেহেতু এটি একটি পরীক্ষামূলক বৈশিষ্ট্য, আমাদের এটি সক্ষম করতে হবে। আমাদের ফিচার প্রিভিউ এর অধীনে যেতে হবে এবং সেখান থেকে আর্টিফ্যাক্ট সক্রিয় করতে হবে যেমনটি নিচে দেখানো হয়েছে।
একবার সক্ষম হয়ে গেলে, কোডিং বা অ্যানিমেশনের মতো কাজের জন্য মডেলটি পাশে একটি ডেডিকেটেড উইন্ডো দেখাবে৷
উন্নত চাক্ষুষ যুক্তি ক্ষমতা পরীক্ষা করার জন্য, আমরা নীচের দুটি প্লট ক্লদ সনেট মডেলে আপলোড করি এবং প্রশ্ন জিজ্ঞাসা করি, "আপনি এই ডেটা থেকে কী তৈরি করতে পারেন?"।
চাক্ষুষ যুক্তি পরীক্ষা করার জন্য চিত্র হিসাবে প্লট
ক্লদ সনেট থেকে প্রতিক্রিয়া বিস্ময়কর ছিল। এটি সুনির্দিষ্টভাবে গভীর শিক্ষার অগ্রগতির সংক্ষিপ্তসারে বলে, "এই ডেটা গভীর শিক্ষার আর্কিটেকচার এবং মডেল স্কেলিংয়ে দ্রুত অগ্রগতির চিত্র তুলে ধরে, বৃহত্তর, আরও শক্তিশালী মডেলের দিকে একটি প্রবণতা দেখায়"। আমরা GPT-4o থেকেও অনুরূপ প্রতিক্রিয়া পেয়েছি। সুতরাং, কোনটি ভাল তা আরও ভালভাবে বোঝার জন্য, আমরা চারটি কাজের মধ্যে পদ্ধতিগতভাবে উভয় মডেলের তুলনা করতে শুরু করেছি — কোডিং, UI এর সাথে কোডিং, লজিক্যাল রিজনিং এবং ম্যাথ রিজনিং।
এখন যেহেতু আমরা একটি ওভারভিউ দেখেছি আসুন গভীরভাবে ডুব দেই এবং একটি রাইডের জন্য মডেলটি নিয়ে যাই। আসুন কোড জেনারেশন, লজিক্যাল রিজনিং এবং গাণিতিক যুক্তি পরীক্ষা করি।
কোড জেনারেশনের জন্য, আমি উভয় মডেলকেই সুপরিচিত সুডোকু গেম খেলার জন্য কোড তৈরি করতে বলব। আমি সঠিক প্রম্পট সহ উভয় মডেলকে অনুরোধ করেছিলাম, "সুডোকু গেমটি খেলতে পাইথন কোড লিখুন।" এই প্রম্পটের মাধ্যমে, Claude 3.5 এবং GPT-4o উভয়ই কোড তৈরি করে যার সাথে আমরা শুধুমাত্র কমান্ড প্রম্পট থেকে ইন্টারঅ্যাক্ট করতে পারি। এটি প্রত্যাশিত কারণ আমরা কীভাবে UI কোড তৈরি করতে হয় তা উল্লেখ করিনি৷ কিছু প্রাথমিক পর্যবেক্ষণ:
যেহেতু কমান্ড প্রম্পটের সাথে ইন্টারঅ্যাক্ট করা সবার জন্য নয়, আমি চেয়েছিলাম মডেলগুলি UI এর সাথে কোড তৈরি করুক। এই জন্য, আমি প্রম্পটটি পরিবর্তন করেছি, "সুডোকু গেম খেলতে কোড লিখুন"। এইবার, আমি প্রম্পট থেকে "পাইথন" সরিয়ে দিয়েছি কারণ আমি অনুভব করেছি যে এটি এটিকে শুধুমাত্র ব্যাকএন্ড কোড তৈরি করতে প্রম্পট করবে। প্রত্যাশিত হিসাবে, Claude 3.5 এই সময় নীচের মত একটি কার্যকরী UI তৈরি করেছে। যদিও UI সম্পূর্ণরূপে শক্তিশালী এবং আকর্ষণীয় ছিল না, এটি কার্যকরী ছিল।
কিন্তু GPT-4o, দুর্ভাগ্যবশত, অনুরূপ UI তৈরি করেনি। এটি এখনও একটি ইন্টারেক্টিভ কমান্ড প্রম্পটের সাথে কোড তৈরি করেছে।
প্রথম ধাঁধার জন্য, আমি নীচের প্রশ্ন জিজ্ঞাসা করেছি:
জেন জিল দেখতে গিয়েছিল। জিল হল জেনের একমাত্র স্বামীর শাশুড়ির একমাত্র স্বামীর একমাত্র মেয়ের একমাত্র মেয়ে। জিলের সাথে জেনের কি সম্পর্ক?
উভয় মডেল যুক্তি পদক্ষেপের একটি ক্রম নিয়ে এসেছে এবং সঠিকভাবে প্রশ্নের উত্তর দিয়েছে। সুতরাং এই ক্ষেত্রে এটি Claude 3.5 এবং GPT-4o এর মধ্যে একটি টাই হতে হবে।
দ্বিতীয় ধাঁধার জন্য, আমি নীচের প্রশ্ন জিজ্ঞাসা করেছি:
কোনটি শব্দটি অন্যদের মতো সবচেয়ে কম। স্বরবর্ণ, ব্যঞ্জনবর্ণ বা সিলেবলের সাথে পার্থক্যের কোন সম্পর্ক নেই। আরও, জোড়া, ইচার্স, জিপপার\
এর জন্য, উভয় মডেলই ভিন্ন ভিন্ন উত্তর নিয়ে আসতে বিভিন্ন যৌক্তিক যুক্তির পদক্ষেপ নিয়ে এসেছে। ক্লড যুক্তি দিয়েছিলেন যে জিপার একমাত্র শব্দ যা একটি বিশেষ্য এবং ক্রিয়া উভয় হিসাবে কাজ করতে পারে। কিন্তু অন্যরা হয় শুধু বিশেষ্য বা বিশেষণ। সুতরাং, এটি জিপপারকে উত্তর হিসাবে চিহ্নিত করেছে। GPT-4o, অন্য দিকে, আরও যুক্তি চিহ্নিত করেছে যে এটি একটি কংক্রিট বস্তু বা একটি নির্দিষ্ট ধরনের ব্যক্তি নয়।
এই সমস্ত ইঙ্গিত দেয় যে আমাদের প্রম্পটটিকে আরও নির্দিষ্ট করতে হবে যার ফলে এই ক্ষেত্রে একটি টাই হবে।
আসুন একটি সুপরিচিত চাক্ষুষ যুক্তি ধাঁধার দিকে এগিয়ে যাই যা একটি সূত্র দ্বারা গণনা করা যেতে পারে। তাই আমি উভয় মডেলে ইনপুট হিসাবে নীচের প্রম্পটের সাথে নীচের চিত্রটি দিয়েছি।
নীচের 3টি বৃত্তের পরিধিতে নীল বিন্দু রয়েছে যা সরলরেখা দ্বারা সংযুক্ত। প্রথম বৃত্তে দুটি নীল বিন্দু রয়েছে যা একে দুটি অঞ্চলে বিভক্ত করে। একটি বৃত্তের পরিধির যে কোন স্থানে 7টি বিন্দু রয়েছে, বৃত্তটিকে সর্বাধিক কতটি অঞ্চলে ভাগ করা যায়?
এই ক্ষেত্রে, GPT-4o 57 এর সঠিক উত্তর নিয়ে এসেছে। কিন্তু Claude 3.5 64 এর উত্তর নিয়ে এসেছে যা পুরোপুরি সঠিক নয়। উভয় মডেল কেন তারা উত্তরে পৌঁছেছে তা নিয়ে যৌক্তিক যুক্তিযুক্ত পদক্ষেপ দিয়েছে। GPT-4o-তে গণিতের সূত্রের বিন্যাস ক্লাউড 3.5-এর চেয়ে পছন্দনীয়।
আমাদের পরীক্ষার উপর ভিত্তি করে, আমরা উপসংহারে পৌঁছেছি যে কোড তৈরির কাজগুলির সাথে বিজয়ী, তা বিশুদ্ধ-ব্যাকড কোড বা GUI কোডই হোক না কেন, ক্লাউড 3.5 সনেট। এটা যৌক্তিক যুক্তি কাজ সঙ্গে একটি ঘনিষ্ঠ বন্ধন. কিন্তু যখন গাণিতিক যুক্তির কাজ আসে, GPT-4o এখনও পথ দেখায় এবং ক্লড এখনও ধরতে পারেনি।
প্রজন্মের গতির পরিপ্রেক্ষিতে, ক্লড কোন সন্দেহ নেই যে বিজয়ী কারণ এটি GPT-4o থেকে অনেক দ্রুত পাঠ্য বা কোড মন্থন করে। আমাদের চেক আউট
আপনি যদি এই নিবন্ধটি পছন্দ করেন তবে কেন আমাকে অনুসরণ করবেন না
এছাড়াও আমার সাবস্ক্রাইব করুন