ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: স্বীকৃতি, অবদান এবং রেফারেন্স

দ্বারা Writings, Papers and Blogs on Text Models7m2024/06/06

অতিদীর্ঘ; পড়তে

গবেষকরা ChipNeMo উপস্থাপন করেন, চিপ ডিজাইনের জন্য LLM উন্নত করতে ডোমেন অভিযোজন ব্যবহার করে, আরও ভাল পারফরম্যান্সের সাথে 5x পর্যন্ত মডেলের আকার হ্রাস করা।

featured image - ChipNeMo: চিপ ডিজাইনের জন্য ডোমেন-অ্যাডাপ্টেড এলএলএম: স্বীকৃতি, অবদান এবং রেফারেন্স

লেখক:

(1) মিংজি লিউ, NVIDIA {সমান অবদান};

(2) টিওডোর-ডুমিত্রু এনি, এনভিআইডিএ {সমান অবদান};

(3) রবার্ট কিরবি, NVIDIA {সমান অবদান};

(4) ক্রিস চেং, NVIDIA {সমান অবদান};

(5) নাথানিয়েল পিঙ্কনি, এনভিআইডিএ {সমান অবদান};

(6) Rongjian Liang, NVIDIA {সমান অবদান};

(7) জোনাহ আলবেন, এনভিআইডিএ;

(8) হিমাংশু আনন্দ, NVIDIA;

(9) সন্মিত্র ব্যানার্জী, NVIDIA;

(10) Ismet Bayraktaroglu, NVIDIA;

(11) বনিতা ভাস্করন, NVIDIA;

(12) Bryan Catanzaro, NVIDIA;

(13) অর্জুন চৌধুরী, NVIDIA;

(14) শ্যারন ক্লে, NVIDIA;

(15) বিল ডালি, NVIDIA;

(16) লরা ড্যাং, NVIDIA;

(17) পরীক্ষিত দেশপান্ডে, NVIDIA;

(18) সিদ্ধান্ত ধোধি, NVIDIA;

(19) সমীর হালেপেট, NVIDIA;

(20) এরিক হিল, NVIDIA;

(21) জিয়াং হু, এনভিআইডিএ;

(22) সুমিত জৈন, NVIDIA;

(23) ব্রুসেক খাইলানি, NVIDIA;

(24) জর্জ কোকাই, NVIDIA;

(25) কিশোর কুনাল, NVIDIA;

(26) Xiaowei Li, NVIDIA;

(27) চার্লি লিন্ড, NVIDIA;

(28) হাও লিউ, NVIDIA;

(29) স্টুয়ার্ট ওবারম্যান, NVIDIA;

(30) সুজিত ওমর, NVIDIA;

(31) শ্রীধর প্রাট্টি, NVIDIA;

(23) জোনাথন রাইমান, এনভিআইডিএ;

(33) অম্বর সরকার, NVIDIA;

(34) Zhengjiang Shao, NVIDIA;

(35) হানফেই সান, এনভিআইডিএ;

(36) প্রতীক পি সুথার, NVIDIA;

(37) বরুণ তেজ, NVIDIA;

(38) ওয়াকার টার্নার, NVIDIA;

(39) কাইজে জু, NVIDIA;

(40) Haoxing Ren, NVIDIA.

লিঙ্কের টেবিল

IX. স্বীকৃতি

লেখকরা ধন্যবাদ জানাতে চাই: NVIDIA IT টিম NVBugs ইন্টিগ্রেশনে তাদের সমর্থনের জন্য; NVIDIA হার্ডওয়্যার নিরাপত্তা দল নিরাপত্তা সংক্রান্ত বিষয়ে তাদের সহায়তার জন্য; ChipNeMo মডেলের প্রশিক্ষণ এবং অনুমান সম্পর্কে তাদের সহায়তা এবং নির্দেশনার জন্য NVIDIA NeMo টিম; প্রকল্পের জন্য GPU প্রশিক্ষণ এবং অনুমান সংস্থান সমর্থন করার জন্য NVIDIA পরিকাঠামো দল; NVIDIA হার্ডওয়্যার ডিজাইন দল তাদের সমর্থন এবং অন্তর্দৃষ্টি জন্য.

X. অবদান

মিংজি লিউ DAPT এবং SFT মডেল প্রশিক্ষণ পরিচালনা করেন।

টিওডোর-ডুমিত্রু এনি, রবার্ট কিরবি অনুমান এবং প্রয়োগ মূল্যায়ন পরিকাঠামো তৈরি করেছেন।

ক্রিস চেং RAG ফ্রেমওয়ার্ক তৈরি করেছেন।

নাথানিয়েল পিঙ্কনি প্রশিক্ষণের জন্য ডেটা সেট সংগ্রহ ও প্রস্তুত করেছেন।

Rongjian Liang কাস্টম টোকেনাইজার তৈরি করেছে।

ওয়াকার টার্নার, চার্লি লিন্ড, জর্জ কোকাই একটি সাধারণ সার্কিট ডিজাইন জ্ঞানের মানদণ্ড তৈরি করেছেন।

সিদ্ধান্ত ধোধি, ইসমেত বায়রাক্টরোগ্লু, হিমাংশু আনন্দ, এরিক হিল প্রকৌশল সহকারী চ্যাটবট ডিজাইন করেছেন, ডোমেন নির্দেশনা ডেটাসেট, মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন এবং মূল্যায়ন পরিচালনা করেছেন।

পরীক্ষিত দেশপান্ডে, ঝেংজিয়াং শাও, কাইজে জু, জিয়াং হু, লরা ডাং, জিয়াওই লি, হাও লিউ, আম্বার সরকার ইঞ্জিনিয়ারিং সহকারী চ্যাটবট অ্যাপ্লিকেশন তৈরি করেছেন।

শ্রীধর প্রাট্টি, কিশোর কুনাল, বরুণ তেজ, সুমিত জৈন, সুজিত ওমর, প্রতীক পি সুথার, হানফেই সান EDA স্ক্রিপ্ট জেনারেশন অ্যাপ্লিকেশন তৈরি করেছেন, ডোমেন নির্দেশনা ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন।

বনিতা ভাস্করন, অর্জুন চৌধুরী, সন্মিত্র ব্যানার্জী বাগ সংক্ষিপ্তকরণ এবং বিশ্লেষণ অ্যাপ্লিকেশন তৈরি করেছেন, ডোমেন নির্দেশনা ডেটাসেট এবং মূল্যায়ন বেঞ্চমার্ক প্রদান করেছেন।

ব্রুসেক খাইলানি, স্টুয়ার্ট ওবারম্যান, শ্যারন ক্লে, সমীর হ্যালেপেট, জোনাথন রাইমান, ব্রায়ান ক্যাটানজারো, জোনাহ অ্যালবেন, বিল ডালি এআই গবেষণা এবং হার্ডওয়্যার ইঞ্জিনিয়ারিং দৃষ্টিকোণ থেকে পরামর্শ দিয়েছেন।

হাওক্সিং রেন গবেষণার ডিজাইন ও নেতৃত্ব দেন।

তথ্যসূত্র

[১] বি. খাইলানি এট আল 40, না। 6, পৃ. 23-32, 2020।

[২] H. Ren এবং M. Fojtik, 2021 58th ACM/IEEE ডিজাইন অটোমেশন কনফারেন্স (DAC), 2021-এ "আমন্ত্রিত- nvcell: উন্নত প্রযুক্তির নোডগুলিতে স্ট্যান্ডার্ড সেল লেআউট রিইনফোর্সমেন্ট লার্নিং"।

[৩] R. Roy et al., "PrefixRL: গভীর শক্তিবৃদ্ধি শিক্ষা ব্যবহার করে সমান্তরাল প্রিফিক্স সার্কিটের অপ্টিমাইজেশন," 2021 58 তম ACM/IEEE ডিজাইন অটোমেশন কনফারেন্স (DAC), 2021 এ।

[৪] W.-L. চিয়াং এট আল উপলব্ধ: https://lmsys.org/blog/2023-03-30-vicuna/

[৫] H. Touvron et al., "Llama 2: Open Foundation and fine-tuned chat models," 2023।

[৬] এস. ঠাকুর এট আল।, "স্বয়ংক্রিয় ভেরিলগ আরটিএল কোড জেনারেশনের জন্য বৃহৎ ভাষার মডেলের বেঞ্চমার্কিং," 2023 সালে ডিজাইন, অটোমেশন এবং ইউরোপ কনফারেন্স অ্যান্ড এক্সিবিশনে পরীক্ষা (DATE), 2023, pp. 1-6।

[৭] J. Blocklove et al., "চিপ-চ্যাট: কথোপকথনমূলক হার্ডওয়্যার ডিজাইনে চ্যালেঞ্জ এবং সুযোগ," 2023।

[৮] জেড. তিনি এট আল., "চাটেদা: একটি বৃহৎ ভাষা মডেল চালিত স্বায়ত্তশাসিত এজেন্ট এর জন্য," 2023।

[৯] এস. বুবেক এট আল।, "কৃত্রিম সাধারণ বুদ্ধিমত্তার স্ফুলিঙ্গ: gpt-4 এর সাথে প্রাথমিক পরীক্ষা," 2023।

[১০] S. Wu et al., "Bloomberggpt: অর্থের জন্য একটি বড় ভাষা মডেল," 2023।

[১১] এম এলএলসি। (2022) Biomedlm: বায়োমেডিকাল পাঠ্যের জন্য একটি ডোমেন-নির্দিষ্ট বড় ভাষা মডেল। [অনলাইন]। উপলব্ধ: https://www.mosaicml.com/blog/introducing-pubmed-gpt

[১২] এম. লিউ এট আল।, "ভেরিলগ ইভাল: ভেরিলগ কোড জেনারেশনের জন্য বড় ভাষা মডেলের মূল্যায়ন," 2023 IEEE/ACM ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার-এডেড ডিজাইন (ICCAD), 2023-এ।

[১৩] ই. নিজক্যাম্প এট আল।, "কোডজেন: মাল্টি-টার্ন প্রোগ্রাম সংশ্লেষণ সহ কোডের জন্য একটি উন্মুক্ত বড় ভাষা মডেল," ICLR, 2023।

[১৪] এস. গুরুরাঙ্গন এট আল।, "প্রাক-প্রশিক্ষণ বন্ধ করবেন না: ডোমেন এবং কাজের সাথে ভাষার মডেলগুলিকে মানিয়ে নিন," 2020।

[১৫] পি. লুইস এট আল।, "জ্ঞান-নিবিড় এনএলপি কার্যের জন্য পুনরুদ্ধার-বর্ধিত প্রজন্ম," 2021।

[১৬] ইজে হু এট আল।, "লোরা: বড় ভাষার মডেলের নিম্ন-র্যাঙ্ক অভিযোজন," CoRR, ভলিউম। abs/2106.09685, 2021। [অনলাইন]। উপলব্ধ: https://arxiv.org/abs/2106.09685

[১৭] এল. গাও এট আল।, "দ্য পাইল: ভাষা মডেলিংয়ের জন্য বিভিন্ন পাঠ্যের একটি 800gb ডেটাসেট।"

[১৮] D. Kocetkov et al., "স্ট্যাক: 3 tb অনুমতিপ্রাপ্ত লাইসেন্সকৃত সোর্স কোড," 2022।

[১৯] A. Kopf ¨ et al., "Openassistant কথোপকথন - গণতান্ত্রিক বৃহৎ ভাষা মডেল সারিবদ্ধকরণ," 2023।

[২০] জে. ওয়েই এট আল., "ফাইনটিউনড ল্যাঙ্গুয়েজ মডেলগুলি জিরো-শট লার্নার্স," 2022।

[২১] ভি. সানহ এট আল।, "মাল্টিটাস্ক প্রম্পটেড ট্রেনিং শূন্য-শট টাস্ক সাধারণীকরণ সক্ষম করে," 2022।

[২২] ডি. হেন্ড্রিক্স এট আল।, "ব্যাপক মাল্টিটাস্ক ভাষা বোঝার পরিমাপ," 2021।

[২৩] এম. চেন এট আল।, "কোডের উপর প্রশিক্ষিত বড় ভাষার মডেলের মূল্যায়ন করা," 2021।

[২৪] F. Koto, JH Lau, এবং T. Baldwin, "IndoBERTweet: কার্যকর ডোমেন-নির্দিষ্ট শব্দভাণ্ডার প্রারম্ভিকতা সহ ইন্দোনেশিয়ান টুইটারের জন্য একটি পূর্বপ্রশিক্ষিত ভাষা মডেল," প্রাকৃতিক ভাষা প্রক্রিয়াকরণে 2021 সালের সম্মেলনের অভিজ্ঞতামূলক পদ্ধতিতে, নভেম্বর। 2021, পৃ. 10 660-10 668।

[২৫] ও. কুচাইভ এট আল।, "নিমো: নিউরাল মডিউল ব্যবহার করে এআই অ্যাপ্লিকেশন তৈরির জন্য একটি টুলকিট," 2019।

[২৬] এম. শোয়েবি এট আল।, "মেগাট্রন-এলএম: মডেল প্যারালেলিজম ব্যবহার করে মাল্টি-বিলিয়ন প্যারামিটার ল্যাঙ্গুয়েজ মডেলের প্রশিক্ষণ," arXiv প্রিপ্রিন্ট arXiv:1909.08053, 2019।

[২৭] টি. ডাও এট আল।, "ফ্ল্যাশ অ্যাটেনশন: আইও-সচেতনতার সাথে দ্রুত এবং মেমরি-দক্ষ সঠিক মনোযোগ," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2022। [28] এ. চৌধুরী এট আল।, "পাম: স্কেলিং পথের সাথে ভাষা মডেলিং," 2022।

[২৯] জেড. জি এট আল।, "প্রাকৃতিক ভাষা তৈরিতে হ্যালুসিনেশনের সমীক্ষা," ACM কম্পিউট। Surv., vol. 55, না। 12, মার্চ 2023। [অনলাইন]। উপলব্ধ: https://doi.org/10.1145/3571730

[৩০] এল. ওয়াং এট আল।, "দুর্বলভাবে তত্ত্বাবধানে কনট্রাস্টিভ প্রাক-প্রশিক্ষণ দ্বারা পাঠ্য এম্বেডিং," arXiv প্রিপ্রিন্ট arXiv:2212.03533, 2022।

[৩১] এল. গাও এট আল।, "টেভাট্রন: ঘন পুনরুদ্ধারের জন্য একটি দক্ষ এবং নমনীয় টুলকিট," 2022।

[৩২] B. Roziere ` et al., "কোড লামা: কোডের জন্য ওপেন ফাউন্ডেশন মডেল," 2023।

[৩৩] N. Reimers এবং I. Gurevych, "Sentence-bert: Sentence embeddings using siamese bert-networks," 2019 কনফারেন্স অন দি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর অভিজ্ঞতামূলক পদ্ধতিতে। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 11 2019। [অনলাইন]। উপলব্ধ: http://arxiv.org/abs/1908.10084

[৩৪] আর. পোপ এট আল., "দক্ষভাবে ট্রান্সফরমার ইনফারেন্স স্কেলিং," 2022।

[৩৫] RY আমিনাবাদি এট আল।, "ডিপস্পিড ইনফারেন্স: অভূতপূর্ব স্কেলে ট্রান্সফরমার মডেলের দক্ষ অনুমান সক্ষম করা," 2022।

[৩৬] L. Ouyang et al., "মানুষের প্রতিক্রিয়া সহ নির্দেশাবলী অনুসরণ করার জন্য ভাষা মডেল প্রশিক্ষণ," 2022।

[৩৭] W. Xiong et al., "ফাউন্ডেশন মডেলের কার্যকরী দীর্ঘ-প্রসঙ্গ স্কেলিং," 2023।

[৩৮] আর. টেলর এট আল., "গ্যালাক্টিকা: বিজ্ঞানের জন্য একটি বড় ভাষা মডেল," 2022।

[৩৯] A. Lewkowycz et al., "ভাষা মডেলের সাথে পরিমাণগত যুক্তি সমস্যা সমাধান করা," 2022।

[৪০] পি. লুইস এট আল।, "জ্ঞান-নিবিড় এনএলপি কার্যের জন্য পুনরুদ্ধার-বর্ধিত প্রজন্ম," 2021।

[৪১] S. Borgeaud et al., "ট্রিলিয়ন টোকেনগুলি থেকে পুনরুদ্ধার করে ভাষার মডেলগুলি উন্নত করা," 2022৷

[৪২] এস. রবার্টসন এবং এইচ. জারাগোজা, "সম্ভাব্য প্রাসঙ্গিকতা কাঠামো: Bm25 এবং তার বাইরে," পাওয়া গেছে। ট্রেন্ডস ইনফ. Retr., vol. 3, না। 4, পৃ. 333–389, এপ্রিল 2009। [অনলাইন]। উপলব্ধ: https://doi.org/10.1561/1500000019

[৪৩] ভি. কারপুখিন এট আল।, "ওপেন-ডোমেন প্রশ্নের উত্তর দেওয়ার জন্য ঘন উত্তরণ পুনরুদ্ধার," 2020।

[৪৪] G. Izacard et al., "বিপরীত শিক্ষার সাথে আনসুপারভাইজড ঘন তথ্য পুনরুদ্ধার," 2022।

[৪৫] ডব্লিউ শি এট আল।, "রিপ্লাগ: পুনরুদ্ধার-বর্ধিত ব্ল্যাক-বক্স ভাষার মডেল," 2023।

[৪৬] G. Izacard et al., “Few-shot Learning with Retrieval Augmented Language Models,” 2022। [অনলাইন]। উপলব্ধ: http://arxiv.org/abs/2208.03299

[৪৭] ও. রাম এট আল., "প্রসঙ্গ পুনরুদ্ধার-বর্ধিত ভাষা মডেল," 2023।

[৪৮] S. Zhou et al., "ডকপ্রম্পটিং: ডক্স পুনরুদ্ধার করে কোড তৈরি করা," 2023।

[৪৯] আর. রাফাইলভ এট আল।, "সরাসরি পছন্দ অপ্টিমাইজেশান: আপনার ভাষার মডেলটি গোপনে একটি পুরস্কার মডেল," 2023।

[50] Y. ডং এট আল।, "Steerlm: rlhf-এর বিকল্প হিসেবে (ব্যবহারকারী-স্টিয়ারেবল) অ্যাট্রিবিউট কন্ডিশন্ড এসএফটি," 2023।

[৫১] H. Pearce, B. Tan, এবং R. Karri, CAD, ser এর জন্য 2020 ACM/IEEE কর্মশালার প্রসিডিংস-এ "ডেভ: ইংরেজি থেকে স্বয়ংক্রিয়ভাবে ভেরিলগ ডেরাইভিং"। MLCAD '20. নিউ ইয়র্ক, এনওয়াই, ইউএসএ: অ্যাসোসিয়েশন ফর কম্পিউটিং মেশিনারি, 2020, পি. 27-32। [অনলাইন]। উপলব্ধ: https://doi.org/10.1145/3380446.3430634

[৫২] "সুন্দর স্যুপ," https://www.crummy.com/software/BeautifulSoup/, অ্যাক্সেস করা হয়েছে: 10 অক্টোবর 2023।

[৫৩] কে. সাকাগুচি এট আল।, "উইনোগ্রান্ডে: অ্যান অ্যাডভারসারিয়াল উইনোগ্রাড স্কিমা চ্যালেঞ্জ অ্যাট স্কেলে," arXiv প্রিপ্রিন্ট arXiv:1907.10641, 2019।

[৫৪] আর. জেলার্স এট আল., "হেলাসওয়াগ: একটি মেশিন কি সত্যিই আপনার বাক্য শেষ করতে পারে?" অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 2019-এর 57তম বার্ষিক সভার কার্যপ্রণালীতে।

[৫৫] পি. ক্লার্ক এট আল।, “মনে হয় আপনি প্রশ্নের উত্তর সমাধান করেছেন? আর্ক চেষ্টা করুন, AI2 রিজনিং চ্যালেঞ্জ,” 2018।

[৫৬] জি. লাই এট আল।, "জাতি: পরীক্ষা থেকে বড় আকারের পড়া বোঝার ডেটাসেট," 2017।