158 পড়া

বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

দ্বারা Writings, Papers and Blogs on Text Models4m2024/06/02

অতিদীর্ঘ; পড়তে

গবেষকরা টেক্সট জেনারেশনের জন্য একটি সসীম-স্টেট মেশিন ফ্রেমওয়ার্ক প্রস্তাব করেন, যা সুনির্দিষ্ট নিয়ন্ত্রণ এবং উন্নত কর্মক্ষমতা প্রদান করে।

featured image - বৃহৎ ভাষার মডেলের জন্য দক্ষ নির্দেশিত প্রজন্ম: আলোচনা, তথ্যসূত্র এবং স্বীকৃতি

লেখক:

(1) ব্র্যান্ডন টি. উইলার্ড, নরমাল কম্পিউটিং;

(2) রেমি লাউফ, সাধারণ কম্পিউটিং।

লিঙ্কের টেবিল

5. আলোচনা

এই কাগজে প্রবর্তিত শব্দভান্ডার সূচী নির্দেশিত প্রজন্মের মধ্যে একটি নিষিদ্ধ রান-টাইম স্কেলিং বাধা দূর করে। স্বাভাবিকভাবেই, এটি প্রক্রিয়াকরণ এবং মেমরির মধ্যে একটি লেনদেন তৈরি করে, কিন্তু আমরা বিশ্বাস করি যে মেমরির খরচ গড়ে তুলনামূলকভাবে কম এবং–যখন না হয়–প্রথাগত উপায়ে কমানো যায়৷

পাইথন ব্যাকরণের একটি সামান্য পরিবর্ধিত সংস্করণ ব্যবহার করে আমাদের পরীক্ষায়, আমরা দেখতে পাই যে এমনকি নির্বোধভাবে নির্মিত সূচকগুলি (যেমন অব্যবহৃত এবং অপ্রয়োজনীয় পার্সার এবং FSM স্টেট কনফিগারেশন রয়েছে) এখনও মাত্র 50 MB এর কাছাকাছি। তদ্ব্যতীত, এই সূচকগুলি অ-হ্রাসকৃত ডিএফএগুলির সাথে তৈরি করা হয়েছিল, যা বোঝায় যে অনেকগুলি অপ্রয়োজনীয় অবস্থা রয়েছে যা অপ্রয়োজনীয়ভাবে সূচকগুলির আকার বাড়িয়েছে। একইভাবে, যদি রাষ্ট্রীয় মেশিনগুলির সঠিক উপস্থাপনা কখনও একটি সমস্যা হয়, তবে এটি সম্ভব যে নিম্ন মেমরির প্রয়োজনীয়তা সহ অন্যান্য রাষ্ট্রীয় মেশিন ফর্মুলেশন যথেষ্ট হতে পারে (যেমন NFAs)।

এই কাজের প্রভাব শুধুমাত্র নিউরাল টেক্সট জেনারেশনের মধ্যে সীমাবদ্ধ নয়। উদাহরণস্বরূপ, যখন কাঠামোগত আউটপুটগুলির প্রয়োজন হয় তখন কেউ প্রশিক্ষণ বা এলএলএম-এর সূক্ষ্ম-টিউনিংয়ে সহায়তা করার জন্য এখানে বর্ণিত ইন্ডেক্সিং পদ্ধতি ব্যবহার করতে পারে। আমরা অনুমান করতে পারি যে প্রশিক্ষণের সময় সহায়ক প্রজন্ম সিনট্যাকটিক বিবরণ শেখার জন্য একটি মডেলের প্রয়োজনীয়তা হ্রাস করতে পারে।

উপরন্তু, এই পদ্ধতি বর্তমান মডেল মূল্যায়ন একটি বিকল্প উপায় প্রদান করে. উদাহরণস্বরূপ, কেউ আমাদের পদ্ধতি দ্বারা উত্পন্ন মুখোশযুক্ত লজিট এবং মডেল দ্বারা উত্পন্ন কাঁচা লগিটগুলির মধ্যে পার্থক্য পরিমাপ করার চেষ্টা করতে পারে। যা একটি মডেলের প্রশিক্ষণের উদ্দেশ্য সম্পর্কে জানাতে পারে।

ভাষা মডেলগুলিতে এই পদ্ধতির দ্বারা গণনা করা মুখোশগুলিকে "উত্তোলন" করাও সম্ভব হতে পারে। মূলত, মুখোশগুলি স্পষ্টভাবে নির্ধারণ করে যে কোন গণনাগুলি সম্পাদন করার প্রয়োজন নেই। আমাদের বর্তমান ফর্মুলেশন শুধুমাত্র সর্বনিম্ন স্তরে মুখোশগুলিকে প্রয়োগ করে, কিন্তু, মডেলের আর্কিটেকচারে মুখোশগুলিকে আরও উপরে তোলার মাধ্যমে, আমরা অপ্রয়োজনীয়ভাবে অপারেশন করার আগে মডেলের প্যারামিটারগুলির কোন স্লাইসগুলি প্রয়োজন তা মডিউল করতে সক্ষম হতে পারি৷ এতে কম্পিউটেশনাল খরচ আরও কমানোর সম্ভাবনা রয়েছে।

তথ্যসূত্র

লুকা বিউর-কেলনার, মার্ক ফিশার এবং মার্টিন ভেচেভ। প্রম্পটিং হল প্রোগ্রামিং: বড় ভাষার মডেলের জন্য একটি কোয়েরি ভাষা। প্রোগ্রামিং ল্যাঙ্গুয়েজে ACM-এর কার্যক্রম, 7(PLDI):1946–1969, 2023।

ইহং ডং, জি লি এবং ঝি জিন। কোডপ: সাধারণ-উদ্দেশ্য কোড জেনারেশনের জন্য ব্যাকরণগত Seq2Seq মডেল। সফ্টওয়্যার টেস্টিং অ্যান্ড অ্যানালাইসিস, ISSTA 2023, পৃষ্ঠা 188-198, নিউ ইয়র্ক, NY, USA, জুলাই 2023-এর 32 তম ACM SIGSOFT ইন্টারন্যাশনাল সিম্পোজিয়ামের কার্যক্রমে। কম্পিউটিং মেশিনারির জন্য সমিতি। ISBN 9798400702211. doi: 10.1145/3597926. 3598048।

সাইবো গেং, মার্টিন জোসিফোস্কি, ম্যাক্সিম পেয়ারার্ড এবং রবার্ট ওয়েস্ট। ভাষা মডেলের জন্য নমনীয় ব্যাকরণ-ভিত্তিক সীমাবদ্ধ ডিকোডিং, মে 2023।

মাইকেল কুচনিক, ভার্জিনিয়া স্মিথ এবং জর্জ আমভ্রোসিয়াদিস। relm সহ বড় ভাষার মডেল যাচাই করা হচ্ছে। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 5, 2023।

আলেকজান্ডার কে. লিউ, তান ঝি-জুয়ান, গ্যাব্রিয়েল গ্র্যান্ড এবং বিকাশ কে. মানসিংহকা। সম্ভাব্য প্রোগ্রাম ব্যবহার করে বড় ভাষার মডেলের অনুক্রমিক মন্টে কার্লো স্টিয়ারিং। arXiv প্রিপ্রিন্ট arXiv:2306.03081, 2023।

রেমি লাউফ এবং ব্র্যান্ডন টি. উইলার্ড। রূপরেখা: জেনারেটিভ মডেল প্রোগ্রামিং। URL https://github.com/normal-computing/outlines।

মাইক্রোসফট। নির্দেশনা। Microsoft, জুলাই 2023. URL https://github.com/ microsoft/guidance.

গ্যাব্রিয়েল পোয়েসিয়া, অলেক্সান্ডার পোলোজভ, ভু লে, আশিস তিওয়ারি, গুস্তাভো সোয়ারেস, ক্রিস্টোফার মিক এবং সুমিত গুলওয়ানি। সিনক্রোমেশ: প্রাক-প্রশিক্ষিত ভাষা মডেল থেকে নির্ভরযোগ্য কোড তৈরি। arXiv প্রিপ্রিন্ট arXiv:2201.11227, 2022a।

ম্যাক্সিম রাবিনোভিচ, মিচেল স্টার্ন এবং ড্যান ক্লেইন। কোড জেনারেশন এবং সিমেন্টিক পার্সিংয়ের জন্য বিমূর্ত সিনট্যাক্স নেটওয়ার্ক। arXiv প্রিপ্রিন্ট arXiv:1704.07535, 2017।

অ্যালেক র‌্যাডফোর্ড, জেফরি উ, রেওন চাইল্ড, ডেভিড লুয়ান, দারিও আমোদি এবং ইলিয়া সুটস্কেভার। ভাষার মডেলগুলি তত্ত্বাবধানহীন মাল্টিটাস্ক লার্নার্স। OpenAI ব্লগ, 1(8):9, 2019।

ম্যাট রিকার্ড। parserLLM, জুলাই 2023a. URL https://github.com/r2d4/ parserllm।

ম্যাট রিকার্ড। R2d4/rellm: যেকোন ভাষা মডেলের সম্পূর্ণতা থেকে সঠিক কাঠামো।, 2023b। URL https://github.com/r2d4/rellm.

টর্স্টেন স্কোলাক, নাথান শুচার এবং ডিজমিত্রি বাহদানাউ। PICARD: ভাষা মডেল থেকে সীমাবদ্ধ স্বয়ংক্রিয়-রিগ্রেসিভ ডিকোডিংয়ের জন্য ক্রমবর্ধমান পার্সিং। arXiv প্রিপ্রিন্ট arXiv:2109.05093, 2021।

রিকো সেনরিচ, ব্যারি হ্যাডো এবং আলেকজান্দ্রা বার্চ। সাবওয়ার্ড ইউনিট সহ বিরল শব্দের নিউরাল মেশিন অনুবাদ। arXiv প্রিপ্রিন্ট arXiv:1508.07909, 2015।

মাইকেল সিপসার। কম্পিউটেশন তত্ত্বের ভূমিকা। আন্তর্জাতিক থমসন পাবলিশিং, 1996।

আশিস ভাসওয়ানি, নোয়াম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইদান এন. গোমেজ, লুকাজ কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 30, 2017।

বেলিন ওয়াং, জি ওয়াং, জুয়েঝি ওয়াং, ইউয়ান কাও, রিফ এ. সৌরস এবং ইউন কিম। বড় ভাষার মডেল সহ ডোমেন-নির্দিষ্ট ভাষা তৈরির জন্য ব্যাকরণ প্রম্পটিং, মে 2023।

লিলিয়ান ওয়েং। নিয়ন্ত্রণযোগ্য নিউরাল টেক্সট জেনারেশন, জানুয়ারী 2021। URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/।