paint-brush
অ্যাঙ্কর-ভিত্তিক বড় ভাষার মডেলদ্বারা@anchoring
404 পড়া
404 পড়া

অ্যাঙ্কর-ভিত্তিক বড় ভাষার মডেল

দ্বারা Anchoring4m2024/10/10
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই গবেষণাটি অ্যাঙ্কর-ভিত্তিক বড় ভাষা মডেলগুলি (AnLLMs) উপস্থাপন করে, যা একটি অ্যাঙ্কর টোকেনে অনুক্রমের তথ্য সংকুচিত করার জন্য একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) নিয়োগ করে। এই পদ্ধতিটি উল্লেখযোগ্যভাবে কী/মান ক্যাশের আকার হ্রাস করে এবং ন্যূনতম নির্ভুলতা সমঝোতার সাথে 99% পর্যন্ত ক্যাশে হ্রাস এবং 3.5x দ্রুত প্রক্রিয়াকরণ অর্জন করে অনুমান কার্যক্ষমতা বাড়ায়। AnLLMs বৃহৎ-স্কেল ভাষার মডেলগুলির জন্য মেমরি অপ্টিমাইজেশানে একটি অগ্রগতি অফার করে।
featured image - অ্যাঙ্কর-ভিত্তিক বড় ভাষার মডেল
Anchoring HackerNoon profile picture
0-item

লেখক:

(1) জিয়ানহুই পাং, ম্যাকাও বিশ্ববিদ্যালয় থেকে, এবং কাজটি করা হয়েছিল যখন জিয়ানহুই পাং এবং ফাংহুয়া ইয়ে টেনসেন্ট এআই ল্যাবে ([email protected]);

(2) ফাংহুয়া ইয়ে, ইউনিভার্সিটি কলেজ লন্ডন, এবং কাজ করা হয়েছিল যখন জিয়ানহুই পাং এবং ফাংহুয়া ইয়ে টেনসেন্ট এআই ল্যাব ([email protected]);

(3) ডেরেক এফ. ওং, ম্যাকাও বিশ্ববিদ্যালয়;

(4) Longyue Wang, Tencent AI ল্যাব, এবং সংশ্লিষ্ট লেখক।

লিঙ্কের টেবিল

বিমূর্ত এবং 1 ভূমিকা

2 সম্পর্কিত কাজ

3 অ্যাঙ্কর-ভিত্তিক বড় ভাষার মডেল

3.1 পটভূমি

3.2 অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক

3.3 অ্যাঙ্কর-ভিত্তিক অনুমান

4 পরীক্ষা এবং 4.1 আমাদের বাস্তবায়ন

4.2 ডেটা এবং প্রশিক্ষণ পদ্ধতি

4.3 মূল্যায়ন

5 ফলাফল

6 বিশ্লেষণ

7 উপসংহার, সীমাবদ্ধতা, নীতিশাস্ত্রের বিবৃতি এবং উল্লেখ


আরও পরীক্ষামূলক ফলাফল

B ডেটা সেটিংস

বিমূর্ত

বড় ভাষা মডেল (LLMs) প্রধানত ডিকোডার-শুধু ট্রান্সফরমার আর্কিটেকচার নিযুক্ত করে, প্রাসঙ্গিক তথ্য প্রদান করতে এবং অপ্রয়োজনীয় গণনা এড়াতে ঐতিহাসিক টোকেনের জন্য কী/মান তথ্য ধারণ করার প্রয়োজন হয়। যাইহোক, এই LLMগুলির উল্লেখযোগ্য আকার এবং প্যারামিটার ভলিউমের জন্য বিশাল GPU মেমরির প্রয়োজন। এই মেমরির চাহিদা ইনপুট টেক্সটের দৈর্ঘ্যের সাথে বৃদ্ধি পায়, যার ফলে তথ্য সঞ্চয় এবং প্রক্রিয়াকরণের আরও দক্ষ পদ্ধতির জরুরী প্রয়োজন হয়। এই গবেষণাটি অ্যাঙ্কর-ভিত্তিক LLMs (AnLLMs) প্রবর্তন করে, যা একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) এবং একটি অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল ব্যবহার করে। এই পদ্ধতির সাহায্যে এলএলএম-কে অ্যাঙ্কর টোকেনে সিকোয়েন্স তথ্য সংকুচিত করতে সক্ষম করে, কী/মান ক্যাশে হ্রাস করে এবং অনুমান কার্যক্ষমতা বাড়ায়। প্রশ্ন-উত্তর বেঞ্চমার্কের পরীক্ষাগুলি প্রকাশ করে যে AnLLMগুলি 99% কী/মান ক্যাশে হ্রাস এবং 3.5 গুণ পর্যন্ত দ্রুত অনুমান অর্জন করার সময় একই নির্ভুলতা স্তর বজায় রাখে। নির্ভুলতার ক্ষেত্রে সামান্য সমঝোতা সত্ত্বেও, সম্পদের ব্যবহার এবং কম্পিউটেশনাল দক্ষতার ক্ষেত্রে AnSAN কৌশল নিযুক্ত করে AnLLM-এর উল্লেখযোগ্য বর্ধনগুলি বাস্তবিক এলএলএম অ্যাপ্লিকেশনগুলির জন্য তাদের সম্ভাবনাকে আন্ডারস্কোর করে।

1 ভূমিকা

বৃহৎ ভাষার মডেল (LLMs) প্রাথমিকভাবে ডিকোডার-অনলি ট্রান্সফরমার আর্কিটেকচার ব্যবহার করে, যা প্রাসঙ্গিক তথ্য সরবরাহ করতে এবং অপ্রয়োজনীয় গণনা এড়াতে ঐতিহাসিক টোকেনগুলির জন্য ক্যাশিং কী/মান তথ্যের প্রয়োজন হয় (Wei et al., 2022; al. , 2023a; OpenAI, 2023 Touvron et al., 2023b) যাইহোক, তাদের বিশাল আকার এবং উচ্চ পরামিতি গণনার কারণে, লোড করার জন্য যথেষ্ট পরিমাণ GPU মেমরি প্রয়োজন। উপরন্তু, দৈর্ঘ্য হিসাবে


চিত্র 1: ফাইভ-শট ডেমোনস্ট্রেশন সহ OBQA, PIQA এবং BoolQ টাস্কগুলিতে কী/মান ক্যাশে এবং ইনফারেন্স অ্যাক্সিলারেশন রেশিও। বারগুলি কী/মান ক্যাশে এবং পাঠ্যের দৈর্ঘ্য নির্দেশ করে, যখন বক্ররেখা অনুমান ত্বরণ অনুপাতকে উপস্থাপন করে। পাঠ্যের দৈর্ঘ্য বাড়ার সাথে সাথে, আমাদের পদ্ধতি প্রচলিত পদ্ধতির তুলনায় কী/মান ক্যাশে 99% পর্যন্ত একটি চিত্তাকর্ষক হ্রাস প্রদর্শন করে। অধিকন্তু, প্রিফিক্স টেক্সট ক্যাশ করার মাধ্যমে, আমরা নন-ক্যাশিং ইনফারেন্সের তুলনায় 3.5 এর ফ্যাক্টর দ্বারা অনুমানের কার্যকারিতা বাড়িয়েছি।


ইনপুট টেক্সট বাড়তে থাকে, কী/মান ক্যাশে সংরক্ষণের জন্য আরও বেশি জিপিইউ মেমরির প্রয়োজন হয়, যেমনটি প্রসঙ্গ শিক্ষা, জটিল নির্দেশাবলী এবং বর্ধিত কথোপকথনের প্রমাণ (ডং এট আল।, 2022; জিয়াং এট আল।, 2023; ওয়াং এট আল। , 2023), যা সীমিত কম্পিউটেশনাল রিসোর্স সহ পরিস্থিতির জন্য উপযোগী নয়। একটি বিকল্প পদ্ধতির মধ্যে এই বিস্তৃত ইনপুটগুলি পুনঃগণনা করা হয়, যার ফলে সময় ওভারহেড বৃদ্ধি পায়। তাই, এই অধ্যয়নের লক্ষ্য হল LLM-এর অনুমান পর্বের সময় কী/মান ক্যাশের স্টোরেজ চাহিদা কমানো, মেমরির দক্ষতা উন্নত করা এবং ফলস্বরূপ, অনুমান গতিকেও ত্বরান্বিত করা।


একটি সাম্প্রতিক গবেষণায়, ওয়াং এট আল। (2023) দেখান যে উপসর্গ প্রদর্শনের লেবেল শব্দগুলি অনুমানের সময় অ্যাঙ্কর হিসাবে কাজ করতে পারে, ইন-প্রেক্ষাপট শেখার ক্ষেত্রে অনুমান দক্ষতা উন্নত করার জন্য একটি কার্যকর প্রসঙ্গ সংকোচনের পদ্ধতি প্রদান করে। যাইহোক, ব্যবহারিক অ্যাপ্লিকেশনগুলিতে, সমস্ত উপসর্গ ইনপুট বা প্রদর্শনগুলিতে তথ্য সংকুচিত করার জন্য উপযুক্ত লেবেল শব্দ থাকে না, যা লেবেল শব্দের উপর নির্ভরতাকে পাঠ্য তথ্য সংকোচনের জন্য একটি কম সর্বজনীন পদ্ধতিতে পরিণত করে। উপরন্তু, পাং এট আল। (2024) লক্ষ্য করুন যে LLMs অনুমান করার সময় শুধুমাত্র কয়েকটি, তবুও সামঞ্জস্যপূর্ণ, উপসর্গ টোকেনগুলিতে উপস্থিত থাকে। যাইহোক, ব্যবহৃত নির্দিষ্ট টোকেনগুলি প্রায়শই অপ্রত্যাশিত এবং অনিয়ন্ত্রিত হয়। এই পর্যবেক্ষণগুলি একটি কৌতূহলী প্রশ্ন উত্থাপন করে: প্রাকৃতিক ভাষার পাঠে কি অ্যাঙ্কর পয়েন্ট থাকে যা সিকোয়েন্সের সামগ্রিক শব্দার্থিক তথ্য সংকুচিত করে? এই প্রসঙ্গে, সিকোয়েন্স এম্বেডিংয়ের পূর্ববর্তী গবেষণায় দেখানো হয়েছে যে নিউরাল নেটওয়ার্ক মডেলগুলিতে একটি বিশেষ টোকেনের লুকানো অবস্থা শব্দার্থিক তথ্যকে এনক্যাপসুলেট করতে পারে (বাউডিস এট আল।, 2016; ডেভলিন এট আল।, 2018)। অধিকন্তু, সমসাময়িক এলএলএম সাধারণত প্রশিক্ষণ এবং অনুমান উভয় পর্যায়েই কার্যকারণ স্ব-মনোযোগ প্রক্রিয়া ব্যবহার করে (Touvron et al., 2023a,b), প্রতিটি পূর্বের টোকেনে অংশগ্রহণ করে। এটি পরামর্শ দেয় যে একটি অনুক্রমের চূড়ান্ত টোকেন অন্যান্য টোকেনের তুলনায় প্রাকৃতিক তথ্য সংকোচন পয়েন্ট হিসাবে পরিবেশন করার জন্য আরও উপযুক্ত হতে পারে, কারণ তারা ভবিষ্যতের টোকেনগুলি পর্যবেক্ষণ করতে পারে না। অতএব, একটি পদ্ধতিগত পদ্ধতি যা একটি নির্ভরযোগ্য এবং নিয়ন্ত্রণযোগ্য পদ্ধতিতে সিকোয়েন্স অ্যাঙ্কর টোকেনগুলি সনাক্ত করে এবং শোষণ করে ক্রম তথ্য সংকুচিত করার জন্য, কার্যকরভাবে কী/মান ক্যাশে কমাতে এবং LLM-এর জন্য অনুমান দক্ষতা উন্নত করার জন্য অপরিহার্য।


এই লক্ষ্যে, আমরা একটি উদ্ভাবনী অ্যাঙ্কর-ভিত্তিক স্ব-মনোযোগ নেটওয়ার্ক (AnSAN) এবং একটি অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল দিয়ে সজ্জিত উপন্যাস A nchor-ভিত্তিক L arge L anguage M odels (AnLLMs) প্রস্তাব করছি। অ্যাঙ্কর-ভিত্তিক মনোযোগের মুখোশের সাহায্যে প্রশিক্ষণ প্রক্রিয়া চলাকালীন অ্যাঙ্কর টোকেনে (আমাদের বাস্তবায়নের শেষ টোকেন) ক্রমিক তথ্য সংকুচিত করতে মডেলগুলিকে বাধ্য করার জন্য AnSAN ডিজাইন করা হয়েছে। অনুমানের সময়, অ্যাঙ্কর-ভিত্তিক অনুমান কৌশল অ্যাঙ্কর টোকেনগুলির কী/মান ক্যাশে ধরে রাখে, যা সমগ্র ক্রম তথ্যকে একত্রিত করেছে এবং নন্যাঙ্কর টোকেনগুলিকে বাতিল করে দেয়, যার ফলে মেমরির চাহিদা হ্রাস পায়। বিশেষভাবে, AnSAN-এর জন্য অ্যাঙ্কর-ভিত্তিক মনোযোগের মুখোশগুলি দুটি উদ্দেশ্য পূরণ করে: 1) অ্যাঙ্কর টোকেনগুলি একই ক্রমগুলির মধ্যে টোকেনগুলিতে একচেটিয়াভাবে উপস্থিত হয় তা নিশ্চিত করা, অন্যান্য ক্রমগুলির প্রতি মনোযোগ রোধ করা এবং 2) পূর্ববর্তী ক্রম নোঙ্গরগুলিতে নন-অ্যাঙ্কর টোকেনগুলির মনোযোগ নির্দেশ করা। , পূর্ববর্তী ক্রম থেকে অন্যান্য নন্যাঙ্কর টোকেনগুলিকে ব্লক করা। এটি লক্ষণীয় যে অ্যাঙ্কর-ভিত্তিক মনোযোগের কৌশলটি স্পার্স মনোযোগের অন্তর্নিহিত নীতিগুলির সাথে মিল বহন করে (চাইল্ড এট আল।, 2019)। যাইহোক, বিদ্যমান গবেষণার বিপরীতে যা এলএলএম-এর প্রসঙ্গ দৈর্ঘ্য বাড়ানোর জন্য বিক্ষিপ্ত মনোযোগ নিযুক্ত করে (চেন এট আল।, 2023; রেটনার এট আল।, 2023), আমাদের পদ্ধতিটি অ্যাঙ্করে ক্রম তথ্য সংকুচিত করার জন্য মডেলটিকে ক্রমাগত প্রাক-প্রশিক্ষণ দেওয়ার উপর দৃষ্টি নিবদ্ধ করে। টোকেন


এই কাগজটি CC BY 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ