කතුවරුන්:
(1) බෙන් අතිවරත්කුන්, AWS AI රසායනාගාර;
(2) Sujan Kumar Gonugondla, AWS AI Labs;
(3) සංජේ ක්රිෂ්ණා ගවුඩා, AWS AI රසායනාගාර;
(4) Haifeng Qian, AWS AI රසායනාගාර;
(5) සංජේ ක්රිෂ්ණා ගවුඩා, AWS AI රසායනාගාර;
(6) හැන්ටියන් ඩිං, AWS AI රසායනාගාර;
(7) ක්විං සන්, AWS AI රසායනාගාර;
(8) ජුන් වැන්ග්, AWS AI රසායනාගාර;
(9) Jiacheng Guo, AWS AI රසායනාගාර;
(10 Liangfu Chen, AWS AI Labs;
(11) පර්මින්දර් භාටියා, GE හෙල්ත්කෙයාර් (AWS හි සිදු කරන ලද වැඩ);
(12) රමේෂ් නල්ලපති, Amazon AGI (AWS හි සිදු කරන ලද වැඩ);
(13) සුදිප්තා සෙන්ගුප්තා, AWS AI රසායනාගාර;
(14) බිං ෂියැං, ගෝල්ඩ්මන් සැක්ස් (AWS හි කරන ලද වැඩ).
සබැඳි වගුව
3.1. අංකනය සහ 3.2. භාෂා ආකෘති අනුමානය
3.3. බහු-විමසුම්, බහු-ශීර්ෂ සහ සාමාන්යකරණය කළ බහු-විමසුම් අවධානය
4. සන්දර්භය-දැනුවත් විභේදිත අවධානය සහ 4.1. අභිප්රේරණය
4.2. සූත්රගත කිරීම සහ 4.3. මතක IO සංකීර්ණතාව
5.1. බහු-ශීර්ෂ, බහු-විමසුම් සහ බහු-කණ්ඩායම් අවධානයේ හැකියාවන් සංසන්දනය කිරීම
5.2. හැකියාවන්-සමාන ආකෘතිවල ප්රමාදයන්
E. සන්දර්භය-දැනුවත් දෙකට බෙදුණු අවධානය
G. සමපේක්ෂණ විකේතනය සහ වේගවත් විකේතන ශිල්පීය ක්රම සමඟ අනුකූලතාව
2. අදාළ වැඩ
සාහිත්යයෙහි, අනුමාන ප්රමාදය සහ/හෝ ප්රමාදය වැඩි දියුණු කිරීම සඳහා බහුවිධ මාර්ග තිබේ. ප්රමාණකරණය int8, int4, සහ fp8 වැනි අඩු-බිට් පළල නිරූපණයන් භාවිතා කිරීමෙන් මතක භාවිතය අඩු කරයි (Wei et al., 2023; Yao et al., 2022; Dettmers et al., 2022; Frantar et al., 2022; Kuzmin et al., 2022; Xiao et al., 2022). ආකෘති පරාමිතීන්ට පමණක් යොදන විට ප්රමාණකරණය දිගු අනුක්රමික දිග සහ විශාල කාණ්ඩ ප්රමාණයන් සමඟ අඩුවන ප්රතිඵල ලබා දෙයි, එහිදී තිත්-නිෂ්පාදන අවධානය සමඟ සම්බන්ධ මතක ප්රවේශය සහ ගණනය කිරීම සමස්ත අනුමාන ප්රමාදය ආධිපත්යය දරයි.
දිගු සන්දර්භ සහ වේගවත් අනුමාන සඳහා අවධානයේ සංකීර්ණත්වය අඩු කිරීමේ ක්රමයක් ලෙස විරල අවධානය (Beltagy et al., 2020; Child et al., 2019; Zaheer et al., 2020) පුළුල් ලෙස අධ්යයනය කර ඇත. Pope et al. (2022) ප්රමාදය සහ ආකෘති FLOP භාවිතය පිළිබඳ Pareto මායිමක් සාක්ෂාත් කර ගැනීම සඳහා TPU (සාමූහික einsum) සඳහා ප්රශස්තිකරණය කරන ලද බහු-මාන කොටස් කිරීමේ ශිල්පීය ක්රම භාවිතා කරමින් විශාල භාෂා ආකෘතිවල උත්පාදක අනුමාන කාර්යක්ෂමතාව විමර්ශනය කරයි. බහු-විමසුම් අවධානය ඉහළ කාණ්ඩ ප්රමාණය යටතේ කාර්යක්ෂමතාව අවධාරණය කරමින් 32x විශාල සන්දර්භ දිග දක්වා පරිමාණය කිරීමට ඉඩ සලසන බව ද පත්රිකාවේ දැක්වේ. පිටුගත අවධානය (Kwon et al., 2023) KV හැඹිලිය බ්ලොක් වලට බෙදීමෙන් සහ සිතියම්කරණ අරමුණු සඳහා බ්ලොක් වගුවක් භාවිතා කිරීමෙන් මතක කළමනාකරණය වැඩි දියුණු කරයි. මෙම ප්රවේශය ගතික වැඩ බර මාරුවීම් ඵලදායී ලෙස සපයන අතර බහු ප්රතිදාන අනුපිළිවෙල හරහා ප්රොම්ප්ට් හි KV හැඹිලිය බෙදා ගැනීම හරහා මතක ගබඩා අවශ්යතා අඩු කරයි. කෙසේ වෙතත්, මෙය KV හැඹිලියේ මතක කියවීම් අඩු නොකරයි.
සමපේක්ෂන විකේතනය සහ එහි ප්රභේද කුඩා කෙටුම්පත් ආකෘතියක් භාවිතා කරමින් බහු අනුක්රමික ටෝකන යෝජනා කරයි, ඒවා ප්රධාන ආකෘතිය විසින් සමාන්තරව එවැනි ටෝකන පිළිගැනීමට හෝ ප්රතික්ෂේප කිරීමට සකසනු ලැබේ (චෙන් සහ වෙනත්, 2023; ලෙවියාතන් සහ වෙනත්, 2022; ලී සහ වෙනත්, 2024; කායි සහ වෙනත්, 2024; ෆු සහ වෙනත්, 2023). ප්රධාන අදහස වන්නේ සෑම පියවරකදීම බහු ටෝකන විකේතනය කිරීම සක්රීය කිරීමයි, එමඟින් ප්රධාන ආකෘතියේ මතක IO භාවිතයන් ක්රමක්ෂය කරයි. කෙසේ වෙතත්, විකේතනය කිරීමේ ප්රමාදය තවමත් විශාල සන්දර්භ ප්රමාණවලින් KV හැඹිලි I/O කලාප පළල මගින් ආධිපත්යය දරනු ඇත, එහිදී ද්වි-විභේදන අවධානය විකේතන වේගය තවදුරටත් වැඩි දියුණු කළ හැකිය. කෙටියෙන් කිවහොත්, වර්ධක විකේතනය ආකෘති පැටවීමේ ක්රමක්ෂය කළ මතක IO අඩු කිරීම කෙරෙහි අවධානය යොමු කරන අතර බහු-විමසුම් සහ ද්වි-විභේදන අවධානය KV හැඹිලියේ මතක IO අඩු කරයි.
3. පසුබිම
3.1. අංකනය
අපි පත්රිකාව පුරාවට පහත අංකනය භාවිතා කරමු.
3.2. භාෂා ආකෘති අනුමානය
භාෂා ආකෘතිය සඳහා කණ්ඩායම් අනුමානය සහ තනි-සන්දර්භ කාණ්ඩ නියැදීම ඇතුළුව බොහෝ අනුමාන අවස්ථා තිබේ (රූපය 1). කණ්ඩායම් අනුමානය යනු කණ්ඩායමක් තුළ අපි බහු ආදාන එකට සකසන අවස්ථාව සහ ස්වාධීනව එක් එක් කාණ්ඩ දර්ශකය සඳහා පසුව ටෝකන ජනනය කරන අවස්ථාවයි. කණ්ඩායම් ප්රමාණය 1 වන අවස්ථාවක, මෙය තනි-සන්දර්භ අනුමානයට අඩු වේ. තවත් අවස්ථාවක් වන්නේ තනි-සන්දර්භ කාණ්ඩ නියැදීමයි, එහිදී අපි තනි සන්දර්භයක් මත පදනම්ව බහු අනුපිළිවෙලවල් ජනනය කරමු, එහිදී කණ්ඩායම් අනුමාන නඩුව අතර වෙනස වන්නේ KV හැඹිලිය ලබා ගැනීම සඳහා තනි සන්දර්භයක් සඳහා පමණක් පූර්ව පිරවීම සිදු කළ යුතු අතර පසුව අනෙකුත් කාණ්ඩ දර්ශක වෙත විකාශනය කළ යුතුය.
රූප සටහන 1 භාෂා ආකෘති අනුමානයේ අදියර දෙක ද නිරූපණය කරයි: (අ) සන්දර්භ කේතනය හෝ පූර්ව පිරවීම සහ (ආ) වර්ධක විකේතනය. සන්දර්භ කේතනය යනු සන්දර්භය තුළ ඇති සියලුම ටෝකන ස්ථාන සඳහා යතුර සහ අගය ටෙන්සර් ගණනය කරන තනි ඉදිරි පාස් එකක් ගැන ය. යතුර සහ අගය ටෙන්සර් ගණනය කළ පසු, අපි මෙම යතුර සහ අගය ටෙන්සර් වර්ධක විකේතන අවධියේදී අවධානය යොමු කිරීමේ යාන්ත්රණය සඳහා භාවිතා කිරීමට හැඹිලිගත කරමු, එය අනුක්රමිකව වරකට එක් ටෝකනයක් ජනනය කරයි[2].
සන්දර්භ කේතන අවධියේදී, මතක ආදාන/ප්රතිදාන (IO) මෙහෙයුම් වලට සාපේක්ෂව පාවෙන ලක්ෂ්ය මෙහෙයුම් ගණන ඉහළ මට්ටමක පවතින අතර, එය FLOPs මගින් ප්රමාදය බලපාන පරිගණක-බැඳි පාලන තන්ත්රයට අනුරූප වේ. කෙසේ වෙතත්, අපි තනි විමසුම් ටෝකනයක් කෙරෙහි අවධානය යොමු කරන වර්ධක විකේතනය අතරතුර, මෙය මතක-බැඳි පාලන තන්ත්රයකට වැටේ, එහිදී මතක ප්රවේශයකට ගණනය කිරීම් ගණන දළ වශයෙන් 1 සිට 1 දක්වා වේ (විස්තර සඳහා උපග්රන්ථය D.1 බලන්න). මතක IO යනු ඉහළ කලාප පළල මතකයේ (HBM) (Jia et al., 2018) සිට සත්ය ගණනය කිරීම සිදුවන වේගවත් චිපයේ SRAM දක්වා කියවීමේ සහ ලිවීමේ මෙහෙයුම් වෙත යොමු වේ. වර්ධක විකේතනයේ මතක IO සංරචක දෙකකින් සමන්විත වේ: (1) ආකෘති පරාමිතිය පැටවීම සහ (2) KV හැඹිලි පැටවීම. සංරචකය (1) සන්දර්භ දිග m හෝ කාණ්ඩ ප්රමාණය b නොසලකා නියත වන අතර එහිදී සංරචකය (2) m සහ b යන දෙකම මත රඳා පවතින අතර m හෝ b ඉහළ නම් සමස්ත මතක IO ආධිපත්යය දරයි, එය අනුමාන සඳහා සැලකිය යුතු බාධකයක් විය හැකිය. අපගේ කාර්යය ප්රධාන වශයෙන් සංරචකය (2) අඩු කිරීම කෙරෙහි අවධානය යොමු කරයි.
මෙම පත්රිකාව CC BY 4.0 DEED බලපත්රය යටතේ arxiv හි ඇත .