Чаро баъзе моделҳои AI нисбат ба дигарон тезтаранд

аз ҷониби Batching5m2025/02/24
Read on Terminal Reader

Хеле дароз; Хондан

Ин бахш усулҳои калидии оптимизатсияи хулосаи AI, аз ҷумла квантизатсия, таваҷҷӯҳи кам, рамзкушоии тахминӣ ва таваҷҷӯҳи саҳифаро баррасӣ мекунад. Дар ҳоле, ки ин усулҳо самаранокиро беҳтар мекунанд, диққати дутарафа махсусан ба хотираи кэши KV IO нигаронида шуда, таъхирро дар сенарияҳои контекстии тӯлонӣ барои замимаҳои вақти воқеӣ коҳиш медиҳад.
featured image - Чаро баъзе моделҳои AI нисбат ба дигарон тезтаранд
Batching HackerNoon profile picture
0-item

Муаллифон:

(1) Бен Атхивараткун, AWS AI Labs;

(2) Сужан Кумар Гонугондла, Labs AWS AI;

(3) Санҷай Кришна Гоуда, Лабораторияҳои AWS AI;

(4) Ҳайфенг Қиан, Лабораторияҳои AWS AI;

(5) Санҷай Кришна Гоуда, Лабораторияҳои AWS AI;

(6) Hantian Ding, Labs AWS AI;

(7) Qing Sun, Labs AWS AI;

(8) Jun Wang, Labs AWS AI;

(9) Jiacheng Guo, Labs AWS AI;

(10 Лианфу Чен, AWS AI Labs;

(11) Parminder Bhatia, GE HealthCare (кор дар AWS анҷом дода мешавад);

(12) Рамеш Налапати, Amazon AGI (кор дар AWS анҷом дода шудааст);

(13) Sudipta Sengupta, Labs AWS AI;

(14) Bing Xiang, Goldman Sachs (кор дар AWS анҷом дода шудааст).

Ҷадвали пайвандҳо

Реферат ва 1 муқаддима

2. Корҳои марбут

3. Замина

3.1. Нишон ва 3.2. Хулосаи модели забон

3.3. Таваҷҷуҳи бисёрҷониба, бисёрсарлавҳа ва таваҷҷуҳи умумӣ

4. Диққати дутарафаи аз контекст огоҳшуда ва 4.1. Ҳавасмандкунӣ

4.2. Тартиб додан ва 4.3. Мушкилии хотираи IO

5. Таҷрибаҳо

5.1. Муқоисаи қобилиятҳои диққати бисёрҷониба, пурсиши бисёрҷониба ва бисёргурӯҳҳо

5.2. Латенцияҳои қобилиятҳо-моделҳои баробар

5.3. Барномаҳо

6. Хулоса ва истинодҳо


A. Саволҳо

B. Корҳои марбут

C. Танзимот

D. Диққати бисёр гурӯҳҳо оила

E. Диққати дутарафа аз контекст

F. Барномаҳо: Натиҷаҳои иловагӣ

G. Мутобиқати бо декодирозии тахминӣ ва усулҳои рамзгузории зуд

2. Корҳои марбут

Дар адабиёт, роҳҳои зиёде барои беҳтар кардани таъхир ва/ё таъхири хулоса вуҷуд доранд. Квантизатсия истифодаи хотираро тавассути истифодаи намояндагиҳои пасти битӣ ба монанди int8, int4 ва fp8 коҳиш медиҳад (Вей ва дигарон, 2023; Yao ва дигарон, 2022; Деттмерс ва дигарон, 2022; Франктар ва дигарон, 2022; Кузмин ва дигарон, 2022; Xia202). Квантизатсия ҳангоми татбиқи танҳо ба параметрҳои моделӣ натиҷаҳои камшавиро пешкаш мекунад, зеро бо дарозии пайдарпаии дарозтар ва андозаи калони партия, ки дастрасии хотира ва ҳисобкунии марбут ба таваҷҷӯҳи нуқтаҳо ба маҳсулот дар таъхири умумии хулоса бартарӣ дорад.

Таваҷҷуҳи нодир (Beltagy et al., 2020; Child et al., 2019; Zaheer et al., 2020) ҳамчун як роҳи коҳиш додани мураккабии таваҷҷӯҳ барои контекстҳои дарозтар ва хулосабарории тезтар ба таври васеъ омӯхта шудааст. Папа ва дигарон. (2022) самаранокии хулосабарории генеративии моделҳои забонҳои калонро бо истифода аз усулҳои тақсимоти бисёрченака барои TPUҳо (einsum коллективӣ) барои ноил шудан ба сарҳади Парето дар таъхир ва истифодаи модели FLOPs таҳқиқ мекунад. Дар коғаз инчунин нишон медиҳад, ки таваҷҷӯҳи пурсиши бисёрҷониба имкон медиҳад, ки дарозии контекстиро то 32 маротиба калонтар бо таваҷҷӯҳ ба самаранокӣ дар ҳаҷми баланди партия афзоиш диҳанд. Диққати саҳифа (Квон ва дигарон, 2023) идоракунии хотираи кэши KV-ро тавассути тақсим кардани он ба блокҳо ва истифодаи ҷадвали блок барои мақсадҳои харитасозӣ такмил медиҳад. Ин равиш ба таври муассир ба тағирёбии динамикии сарбории корӣ мувофиқат мекунад ва талаботи нигаҳдории хотираро тавассути мубодилаи кэши КВ-и фаврӣ дар пайдарпаии сершумори баромад коҳиш медиҳад. Аммо, ин хондани хотираи кэши KV-ро кам намекунад.


Декодирозии тахминӣ ва вариантҳои он як модели хурдтарро барои пешниҳод кардани аломатҳои сершумори пайдарпай истифода мебаранд, ки дар баробари модели асосӣ барои қабул ё рад кардани чунин нишонаҳо коркард карда мешаванд (Чен ва дигарон, 2023; Левиатан ва дигарон, 2022; Ли ва дигарон, 2024; Cai ва дигарон, Фу, 2024). Идеяи калидӣ ин имкон медиҳад, ки рамзкушоии якчанд нишонаҳо дар ҳар қадам ва ба ин васила амортизатсия кардани истифодаи хотираи IO-и модели асосӣ. Бо вуҷуди ин, дар таъхири рамзкушоӣ ҳанӯз ҳам маҷрои KV кэши I/O дар андозаҳои калони контекстӣ бартарӣ хоҳад дошт, ки дар он диққати дутарафа метавонад суръати рамзкушоиро боз ҳам афзоиш диҳад. Хулоса, рамзкушоии афзоянда ба кам кардани IO хотираи амортизатсияшудаи боркунии модел тамаркуз мекунад, дар ҳоле ки таваҷҷӯҳи пурсиш ва дутарафа IO хотираи кэши KV-ро коҳиш медиҳад.

3. Замина

3.1. Нота

Мо дар тамоми коғаз аломати зеринро истифода мебарем.




3.2. Хулосаи модели забон

Сенарияҳои зиёди хулосабарорӣ барои модели забон вуҷуд доранд, аз ҷумла хулосаи гурӯҳӣ ва интихоби маҷмӯи як контекст (Расми 1). Хулосаи партия ба ҳолате дахл дорад, ки мо воридоти сершуморро дар як партия якҷоя коркард мекунем ва аломатҳои минбаъдаро барои ҳар як индекси партия мустақилона тавлид мекунем. Дар ҳолате, ки андозаи партия 1 аст, ин ба хулосаи як контекст кам мешавад. Сенарияи дигар ин интихоби маҷмӯи ягонаи контекстӣ мебошад, ки дар он мо пайдарпайии сершуморро дар асоси як контекст тавлид мекунем, ки дар он фарқият байни парвандаи хулосаи партия дар он аст, ки пуркунии пешакӣ танҳо барои як контекст барои ба даст овардани кэши КВ анҷом дода мешавад ва сипас ба дигар индексҳои партия пахш карда мешавад.


Дар расми 1 инчунин ду марҳилаи хулосабарории модели забон нишон дода шудааст: (а) рамзгузорӣ ё пешакии контекст ва (б) рамзгузории афзоянда. Рамзгузории контекст ба як гузариш ба пеш ишора мекунад, ки тензорҳои калид ва арзишро барои ҳама мавқеъҳои токен дар контекст ҳисоб мекунад. Пас аз ҳисоб кардани тензорҳои калидӣ ва арзишӣ, мо ин тензорҳои калидӣ ва арзишро кэш мекунем, то барои механизми таваҷҷӯҳ дар марҳилаи афзояндаи рамзкушоӣ истифода шаванд, ки дар як вақт як аломатро пайдарпай тавлид мекунанд[2].



Расми 1: Тасвири ду марҳилаи хулосабарории модели забон: рамзгузории контекст ва рамзгузории афзоянда, инчунин сенарияҳои гуногуни хулосабарорӣ. Дар сенарияи хулосабарории гурӯҳӣ, мо якбора якчанд вурудро коркард мекунем ва қадамҳои афзояндаи рамзкуниро иҷро мекунем. Ҳангоми хулосаи гурӯҳӣ, мо воридоти сершуморро дар гурӯҳ гурӯҳбандӣ мекунем, то ҳам рамзгузории контекст ва ҳам рамзгузории минбаъдаи афзояндаро иҷро кунем. Дар сенарияи интихоби маҷмӯи як контекст, мо рамзгузории контекстро дар як вуруд ба даст меорем, то кэши контексти KV-ро ба даст орем ва сипас рамзгузории афзояндаро (бо намунагирии ҳарорат) барои ба даст овардани наслҳои эҳтимолан гуногун иҷро мекунем.



Дар марҳилаи рамзгузории контекст, шумораи амалиёти нуқтаи шинокунанда нисбат ба амалиёти вуруд/баромади (IO) хотира зиёд аст, ки ба режими вобаста ба ҳисоббарорӣ мувофиқ аст, ки дар он вақт таъхир аз ҷониби FLOPҳо таъсир мерасонад. Бо вуҷуди ин, ҳангоми рамзкушоии афзоянда, ки мо диққати худро ба як аломати дархост равона мекунем, ин ба режими вобаста ба хотира меафтад, ки шумораи ҳисобҳо барои дастрасии хотира тақрибан аз 1 то 1 аст (барои тафсилот ба Замимаи D.1 нигаред). Хотираи IO ба амалиёти хондан ва навиштан аз хотираи фарохмаҷрои баланд (HBM) (Jia et al., 2018) то SRAM-и зуд дар чип, ки дар он ҳисобкунии воқеӣ сурат мегирад, дахл дорад. Худи IO-и хотираи рамзгузории афзоянда аз ду ҷузъ иборат аст: (1) боркунии параметри модел ва (2) боркунии кэш КВ. Компонент (1) новобаста аз дарозии контекст m ё андозаи партияи b доимист, ки дар он ҷузъи (2) ҳам аз m ва ҳам b вобаста аст ва дар хотираи умумии IO бартарӣ дорад, агар m ё b баланд бошанд, ки метавонад як монеаи муҳим барои хулосабарорӣ шавад. Кори мо пеш аз ҳама ба кам кардани ҷузъи (2) тамаркуз мекунад.



L O A D I N G
. . . comments & more!

About Author

Batching HackerNoon profile picture
Batching@batching
Batching converges tasks in a single go, maximizing productivity and minimizing overhead.

ТЕГИ овезон кунед

ИН МАКОЛА ДАР...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks