140 lekti

Ki jan yo akselere modèl AI ou yo-san yo pa fri memwa ou

pa Batching4m2025/02/24
Read on Terminal Reader

Twò lontan; Pou li

Atansyon bifurcated se yon metòd roman pou optimize gwo langaj modèl enferans pa diminye depans IO memwa. Li divize mekanis atansyon a an de operasyon GEMM-manyen prefill KV kachèt separeman de dekodaj. Apwòch sa a kenbe efikasite enfòmatik pandan y ap bese latansi, sa ki pèmèt pi gwo gwosè pakèt ak aplikasyon AI an tan reyèl.
featured image - Ki jan yo akselere modèl AI ou yo-san yo pa fri memwa ou
Batching HackerNoon profile picture
0-item

Otè:

(1) Ben Athiwaratkun, AWS AI Labs;

(2) Sujan Kumar Gonugondla, AWS AI Labs;

(3) Sanjay Krishna Gouda, AWS AI Labs;

(4) Haifeng Qian, AWS AI Labs;

(5) Sanjay Krishna Gouda, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Jun Wang, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Liangfu Chen, AWS AI Labs;

(11) Parminder Bhatia, GE HealthCare (travay ki fèt nan AWS);

(12) Ramesh Nallapati, Amazon AGI (travay ki fèt nan AWS);

(13) Sudipta Sengupta, AWS AI Labs;

(14) Bing Xiang, Goldman Sachs (travay ki fèt nan AWS).

Tablo Lyen yo

Abstract ak 1 Entwodiksyon

2. Travay ki gen rapò

3. background

3.1. Notasyon ak 3.2. Enferans modèl lang

3.3. Multi-Query, Multi-Head ak Atansyon jeneralize Multi-Query

4. Kontèks Konsyan Atansyon Bifurcated ak 4.1. Motivasyon

4.2. Fòmilasyon ak 4.3. Konpleksite IO memwa

5. Eksperyans

5.1. Konpare kapasite milti-tèt, milti-rekèt, ak milti-gwoup atansyon

5.2. Latans nan Modèl Kapasite-ekivalan

5.3. Aplikasyon

6. Konklizyon ak referans


A. FAQ

B. Travay ki gen rapò

C. Enstalasyon

D. Fanmi Atansyon Milti-Gwoup

E. Kontèks Atansyon Bifurcated

F. Aplikasyon: Lòt rezilta

G. Konpatibilite ak teknik dekodaj spéculatif ak rapid dekodaj

Résumé

Nan etid nou an, nou prezante atansyon bifurcated , yon metòd devlope pou enferans modèl lang nan yon sèl kontèks pakèt echantiyon kontèks. Apwòch sa a gen pou objaktif pou diminye depans IO memwa redondants, yon faktè enpòtan nan latansi pou gwo gwosè pakèt ak longè kontèks long. Atansyon bifurcated reyalize sa a lè yo divize mekanis atansyon a pandan dekodaj incrémentielle an de operasyon GEMM distenk, konsantre sou kachèt KV nan prefill ak pwosesis dekodaj la. Metòd sa a asire kalkil egzak epi kenbe chaj abityèl enfòmatik (FLOP) nan mekanis atansyon estanda, men ak memwa redwi IO. Atansyon bifurcated tou konpatib ak mekanis atansyon milti-rekèt li te ye pou IO memwa redwi pou kachèt KV, plis pèmèt pi gwo gwosè pakèt ak longè kontèks. Efikasite ki lakòz rezilta a mennen nan pi ba latansi, amelyore konvnab pou aplikasyon an tan reyèl, pa egzanp, pèmèt jenerasyon repons masiv paralèl san yo pa ogmante anpil latansi, amelyore pèfòmans lè entegre ak teknik post-pwosesis tankou reclassement.

1. Entwodiksyon

Avènman modèl gwo langaj (LLMs) te inogire yon nouvo epòk aprantisaj machin, ki montre pèfòmans remakab sou yon pakèt travay (Brown et al., 2020; OpenAI, 2023; Chowdhery et al., 2022; Touvron et al., 2023; Chen et al., 2021 et al., 2021 et al., 2021). al., 2022; Amazon, 2022; Malgre kapasite enpresyonan yo, deplwaman modèl gwo echèl sa yo nan aplikasyon pratik poze defi enpòtan, patikilyèman an tèm de latansi ak efikasite enferans. Amelyore aspè sa yo enpòtan anpil, paske yo dirèkteman enfliyanse resous enfòmatik ki nesesè pou jenere prediksyon epi pèmèt aplikasyon pratik modèl avanse sa yo atravè divès endistri yo.


Yon senaryo enferans patikilyèman mande se echantiyon pakèt nan yon sèl kontèks, kote objektif la se jenere konpletman miltip nan yon sèl kontèks. Travay sa a souvan rankontre nan anpil aplikasyon tankou zouti IDE koreksyon kòd ki bay rekòmandasyon miltip, oswa nan ka kote yo bezwen plase nan mitan anpil jenerasyon pou pèfòmans optimal (atravè mezi klasman tankou pwobabilite mwayèn, vòt majorite, elatriye). Dekodaj incrémentielle nan senaryo echantiyon sa yo se memwa IO entansif, ki vin tounen yon bouchon latansi pou pakèt segondè ak longè kontèks.


Nan etid sa a, nou mennen ankèt sou de estrateji konpatib pou adrese defi memwa IO nan enferans transfòmatè yo: (1) yon ankèt sou plizyè rechèch ak konpwomi li yo, ak (2) yon teknik roman ki rele atansyon bifurcated kontèks.


Ankèt nou an kòmanse ak yon analiz de atansyon jeneralize milti-rekèt (Ainslie et al., 2023), ki gen ladann milti-rekèt (Shazeer, 2019), osi byen ke mekanis nan atansyon milti-tèt etabli (Vaswani et al., 2017) pou pèfòmans ak latansi komès. Konklizyon nou yo montre pèfòmans lis echèl ak ogmante gwosè modèl pou yon valè fiks nan kantite gwoup g pou jeneralize milti-rekèt [1]. Bese g rezilta nan yon chanjman anlè nan pèt validasyon an vs gwosè modèl koub dekale. Relasyon ki konsistan ant konpresyon kachèt la, gwosè modèl la ak pèt validasyon pèmèt nou fè echanj efikasite enferans ak gwosè modèl, sa vle di, pèmèt nou chwazi pi wo konpresyon pou ka itilize ki mande efikasite segondè, pandan y ap toujou matche pèfòmans nan atansyon milti-tèt pa konpansasyon ak yon gwosè modèl pi gwo.


Dezyèmman, nou prezante atansyon bifurcated kontèks, yon teknik ki bifurcate nenpòt atansyon nan fanmi jeneralize milti-rekèt nan kontèks ak konpozan dekodaj pandan dekodaj incrémentielle. Bifurkasyon sa yo enplike menm kantite FLOP yo epi li bay rezilta ki idantik konpare ak atansyon orijinal la, men li ka siyifikativman diminye pri memwa IO e konsa latansi nan senaryo gwo pakèt ak kontèks longè. Apwòch sa a pèmèt jenerasyon plizyè achèvman an tan reyèl san yo pa fè depans pou latansi adisyonèl, oswa pèmèt gwosè pakèt ki pi wo ki mennen nan amelyore pèfòmans klasman. Pou egzanp, pou modèl CodeGen 16B milti-tèt (Nijkamp et al., 2022) ak longè kontèks 2k, nou kapab ogmante gwosè pakèt la a 128 ak atansyon bifurcated, konpare ak gwosè pakèt nan sèlman 5 san yo pa, sa ki lakòz pass@k la (Chen et al., 2021) ogmante soti nan 584@30% nan 584. ogmante de 55.2% a 58.1%.


Papye sa a disponib sou arxiv anba lisans CC BY 4.0 DEED.


[1] Valè ki pi ba nan gwoup atansyon g mennen nan pi wo konpresyon nan tensè kle-valè yo, tankou nan ka a milti-rekèt kote g = 1, kidonk amelyore efikasite enferans ak latansi akòz redwi kachèt KV konpare ak ka a milti-tèt kote g = h, ki kantite tèt atansyon rechèch.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks