লেখক:
(১) বেন আথিওয়ারাতকুন, AWS AI ল্যাবস;
(২) সুজন কুমার গনগোন্ডলা, এডব্লিউএস এআই ল্যাবস;
(৩) সঞ্জয় কৃষ্ণ গৌড়া, AWS AI ল্যাবস;
(4) হাইফেং কিয়ান, AWS AI ল্যাবস;
(৫) সঞ্জয় কৃষ্ণ গৌড়া, এডব্লিউএস এআই ল্যাবস;
(6) হান্টিয়ান ডিং, AWS AI ল্যাবস;
(৭) কিং সান, এডব্লিউএস এআই ল্যাবস;
(৮) জুন ওয়াং, এডব্লিউএস এআই ল্যাবস;
(9) জিয়াচেং গুও, AWS AI ল্যাবস;
(10 লিয়াংফু চেন, AWS AI ল্যাবস;
(১১) পারমিন্দর ভাটিয়া, জিই হেলথকেয়ার (এডব্লিউএস-এ কাজ করেছেন);
(12) রমেশ নল্লাপতি, আমাজন AGI (AWS-এ কাজ করা হয়েছে);
(১৩) সুদীপ্ত সেনগুপ্ত, এডব্লিউএস এআই ল্যাবস;
(১৪) বিং জিয়াং, গোল্ডম্যান শ্যাক্স (এডব্লিউএস-এ কাজ করেছেন)।
লিঙ্কের তালিকা
৩.১. স্বরলিপি এবং ৩.২. ভাষা মডেল অনুমান
৩.৩. মাল্টি-কোয়েরি, মাল্টি-হেড এবং জেনারেলাইজড মাল্টি-কোয়েরি অ্যাটেনশন
৪. প্রসঙ্গ-সচেতন দ্বিখণ্ডিত মনোযোগ এবং ৪.১. প্রেরণা
৪.২. সূত্রায়ন এবং ৪.৩. মেমোরি আইও জটিলতা
৫.১. মাল্টি-হেড, মাল্টি-কোয়েরি এবং মাল্টি-গ্রুপ অ্যাটেনশনের ক্ষমতার তুলনা করা
৫.২। সক্ষমতার বিলম্ব-সমতুল্য মডেল
ক. প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
E. প্রসঙ্গ-সচেতন দ্বিখণ্ডিত মনোযোগ
ছ. অনুমানমূলক ডিকোডিং এবং দ্রুত ডিকোডিং কৌশলগুলির সাথে সামঞ্জস্য
সারাংশ
আমাদের গবেষণায়, আমরা দ্বিখণ্ডিত মনোযোগ উপস্থাপন করছি, যা একক-প্রসঙ্গ ব্যাচ নমুনা প্রসঙ্গে ভাষা মডেল অনুমানের জন্য তৈরি একটি পদ্ধতি। এই পদ্ধতির লক্ষ্য অপ্রয়োজনীয় মেমরি IO খরচ কমানো, যা উচ্চ ব্যাচ আকার এবং দীর্ঘ প্রসঙ্গ দৈর্ঘ্যের জন্য বিলম্বের একটি গুরুত্বপূর্ণ কারণ। দ্বিখণ্ডিত মনোযোগ ক্রমবর্ধমান ডিকোডিংয়ের সময় মনোযোগ প্রক্রিয়াটিকে দুটি স্বতন্ত্র GEMM অপারেশনে ভাগ করে, প্রিফিল থেকে KV ক্যাশে এবং ডিকোডিং প্রক্রিয়ার উপর ফোকাস করে এটি অর্জন করে। এই পদ্ধতিটি সুনির্দিষ্ট গণনা নিশ্চিত করে এবং স্ট্যান্ডার্ড মনোযোগ প্রক্রিয়ার স্বাভাবিক গণনামূলক লোড (FLOPs) বজায় রাখে, তবে হ্রাসকৃত মেমরি IO সহ। দ্বিখণ্ডিত মনোযোগ KV ক্যাশের জন্য হ্রাসকৃত মেমরি IO এর জন্য পরিচিত মাল্টি-ক্যোয়ারী মনোযোগ প্রক্রিয়ার সাথেও সামঞ্জস্যপূর্ণ, আরও উচ্চ ব্যাচ আকার এবং প্রসঙ্গ দৈর্ঘ্য সক্ষম করে। ফলস্বরূপ দক্ষতা কম বিলম্বিততার দিকে পরিচালিত করে, রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য উপযুক্ততা উন্নত করে, উদাহরণস্বরূপ, উল্লেখযোগ্যভাবে লেটেন্সি না বাড়িয়ে ব্যাপকভাবে সমান্তরাল উত্তর তৈরি করতে সক্ষম করে, পুনঃর্যাঙ্কিংয়ের মতো পোস্টপ্রসেসিং কৌশলগুলির সাথে একীভূত হলে কর্মক্ষমতা বৃদ্ধি করে।
1. ভূমিকা
বৃহৎ ভাষা মডেল (LLM) এর আবির্ভাব মেশিন লার্নিংয়ের এক নতুন যুগের সূচনা করেছে, যা বিভিন্ন ধরণের কাজে অসাধারণ কর্মক্ষমতা প্রদর্শন করেছে (ব্রাউন এট আল।, ২০২০; ওপেনএআই, ২০২৩; চৌধুরী এট আল।, ২০২২; টুভ্রন এট আল।, ২০২৩; চেন এট আল।, ২০২১; হফম্যান এট আল।, ২০২২; লি এট আল।, ২০২২; মাইক্রোসফ্ট; অ্যামাজন, ২০২২; নিজক্যাম্প এট আল।, ২০২৩)। তাদের চিত্তাকর্ষক ক্ষমতা থাকা সত্ত্বেও, ব্যবহারিক প্রয়োগে এই বৃহৎ আকারের মডেলগুলির স্থাপনা উল্লেখযোগ্য চ্যালেঞ্জ তৈরি করে, বিশেষ করে অনুমান বিলম্ব এবং দক্ষতার ক্ষেত্রে। এই দিকগুলিকে উন্নত করা অত্যন্ত গুরুত্বপূর্ণ, কারণ এগুলি ভবিষ্যদ্বাণী তৈরি করতে এবং বিভিন্ন শিল্পে এই উন্নত মডেলগুলির ব্যবহারিক বাস্তবায়ন সক্ষম করার জন্য প্রয়োজনীয় গণনামূলক সংস্থানগুলিকে সরাসরি প্রভাবিত করে।
একটি বিশেষভাবে কঠিন ইনফারেন্স সিনারিও হল সিঙ্গেল-কনটেক্সট ব্যাচ স্যাম্পলিং, যেখানে লক্ষ্য হল একটি সিঙ্গেল কনটেক্সট থেকে একাধিক সমাপ্তি তৈরি করা। এই কাজটি সাধারণত অসংখ্য অ্যাপ্লিকেশনে দেখা যায় যেমন কোড-এডিটিং IDE টুল যা একাধিক সুপারিশ প্রদান করে, অথবা যেখানে সর্বোত্তম কর্মক্ষমতার জন্য বহু প্রজন্মের মধ্যে র্যাঙ্কিং প্রয়োজন (গড় লগ সম্ভাব্যতা, সংখ্যাগরিষ্ঠ ভোটিং ইত্যাদির মতো র্যাঙ্কিং মেট্রিক্সের মাধ্যমে)। এই ধরনের স্যাম্পলিং সিনারিওর ক্রমবর্ধমান ডিকোডিং মেমোরি IO-নিবিড়, যা উচ্চ ব্যাচ এবং প্রসঙ্গ দৈর্ঘ্যের জন্য একটি ল্যাটেন্সি বাধা হয়ে দাঁড়ায়।
এই গবেষণায়, আমরা ট্রান্সফরমার ইনফারেন্সে মেমরি IO চ্যালেঞ্জ মোকাবেলার জন্য দুটি সামঞ্জস্যপূর্ণ কৌশল অনুসন্ধান করি: (1) মাল্টি-কোয়েরি এবং এর ট্রেড-অফের তদন্ত, এবং (2) প্রসঙ্গ-সচেতন দ্বিখণ্ডিত মনোযোগ নামক একটি অভিনব কৌশল।
আমাদের তদন্ত শুরু হয় সাধারণীকৃত মাল্টি-ক্যোয়ারী অ্যাটেনশন (Ainslie et al., 2023) বিশ্লেষণ দিয়ে, যার মধ্যে রয়েছে মাল্টি-ক্যোয়ারী (Shazeer, 2019), সেইসাথে কর্মক্ষমতা এবং ল্যাটেন্সি ট্রেড-অফের জন্য প্রতিষ্ঠিত মাল্টি-হেড অ্যাটেনশন মেকানিজম (Vaswani et al., 2017)। আমাদের অনুসন্ধানগুলি দেখায় যে সাধারণীকৃত মাল্টি-ক্যোয়ারী [1] এর জন্য গ্রুপ g এর সংখ্যার একটি নির্দিষ্ট মানের জন্য মডেল আকার বৃদ্ধির সাথে মসৃণ কর্মক্ষমতা স্কেলিং। g কমানোর ফলে মডেল আকার স্কেলিং কার্ভের তুলনায় বৈধতা ক্ষতির ঊর্ধ্বমুখী পরিবর্তন ঘটে। ক্যাশে কম্প্রেশন, মডেল আকার এবং বৈধতা ক্ষতির মধ্যে সামঞ্জস্যপূর্ণ সম্পর্ক আমাদের মডেল আকারের সাথে অনুমান দক্ষতার বিনিময় করতে দেয়, অর্থাৎ, উচ্চ দক্ষতার প্রয়োজন এমন ব্যবহারের ক্ষেত্রে উচ্চতর কম্প্রেশন নির্বাচন করতে সক্ষম করে, একই সাথে একটি বৃহত্তর মডেল আকারের সাথে ক্ষতিপূরণ দিয়ে মাল্টি-হেড অ্যাটেনশনের পারফরম্যান্সের সাথে মিলে যায়।
দ্বিতীয়ত, আমরা প্রসঙ্গ-সচেতন দ্বিখণ্ডিত মনোযোগ প্রবর্তন করি, এমন একটি কৌশল যা সাধারণীকৃত বহু-ক্যোয়ারী পরিবারের যেকোনো মনোযোগকে ক্রমবর্ধমান ডিকোডিংয়ের সময় প্রসঙ্গ এবং ডিকোডিং উপাদানগুলিতে বিভক্ত করে। এই ধরনের দ্বিখণ্ডনে একই সংখ্যক FLOP জড়িত থাকে এবং মূল মনোযোগের তুলনায় অভিন্ন ফলাফল দেয়, তবে মেমরি IO খরচ উল্লেখযোগ্যভাবে হ্রাস করতে পারে এবং এইভাবে উচ্চ ব্যাচ এবং প্রসঙ্গ দৈর্ঘ্যের পরিস্থিতিতে লেটেন্সি। এই পদ্ধতিটি অতিরিক্ত লেটেন্সি খরচ না করে একাধিক রিয়েল-টাইম সমাপ্তি তৈরি করতে দেয়, অথবা উন্নত র্যাঙ্কিং কর্মক্ষমতা অর্জনের জন্য অনেক বেশি ব্যাচ আকার সক্ষম করে। উদাহরণস্বরূপ, 2k প্রেক্ষাপট দৈর্ঘ্যের CodeGen 16B মাল্টি-হেড মডেলের (Nijkamp et al., 2022) জন্য, আমরা দ্বিখণ্ডিত মনোযোগ সহ ব্যাচের আকার 128 এ বৃদ্ধি করতে সক্ষম হয়েছি, যেখানে ব্যাচের আকার মাত্র 5 ছাড়া, যার ফলে pass@k (Chen et al., 2021) 59.0% থেকে 84.6% এ বৃদ্ধি পেয়েছে, অথবা pass@top3 গড় লগ-পি 55.2% থেকে 58.1% এ বৃদ্ধি পেয়েছে।
এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ পাওয়া যাচ্ছে ।
[1] মনোযোগ গোষ্ঠীর g এর কম মান কী-মান টেনসরগুলির উচ্চতর সংকোচনের দিকে পরিচালিত করে, যেমন মাল্টি-ক্যোয়ারি ক্ষেত্রে যেখানে g = 1, তাই মাল্টি-হেড ক্ষেত্রে যেখানে g = h, কোয়েরি মনোযোগ শিরোনামের সংখ্যার তুলনায় KV ক্যাশে হ্রাসের কারণে অনুমান দক্ষতা এবং বিলম্বিতা উন্নত হয়।