paint-brush
Inkariniai didelių kalbų modeliaipateikė@anchoring
404 skaitymai
404 skaitymai

Inkariniai didelių kalbų modeliai

pateikė Anchoring4m2024/10/10
Read on Terminal Reader

Per ilgai; Skaityti

Šiame tyrime pristatomi inkaru pagrįsti didžiųjų kalbų modeliai (AnLLM), kuriuose naudojamas naujoviškas prierais pagrįstas savęs dėmesio tinklas (AnSAN), kad suspaustų sekos informaciją į inkaro prieigos raktą. Šis metodas žymiai sumažina raktų / reikšmių talpyklos dydį ir padidina išvadų efektyvumą, iki 99% sumažinant talpyklą ir 3,5 karto greitesnį apdorojimą su minimaliu tikslumo kompromisu. AnLLM siūlo atminties optimizavimo proveržį didelio masto kalbų modeliams.
featured image - Inkariniai didelių kalbų modeliai
Anchoring HackerNoon profile picture
0-item

Autoriai:

(1) Jianhui Pang iš Makao universiteto ir darbas buvo atliktas, kai Jianhui Pang ir Fanghua Ye stažavosi Tencent AI Lab ([email protected]);

(2) Fanghua Ye, Londono universiteto koledžas, ir darbas buvo atliktas, kai Jianhui Pang ir Fanghua Ye stažavosi Tencent AI Lab ([email protected]);

(3) Derekas F. Wongas, Makao universitetas;

(4) Longyue Wang, Tencent AI Lab ir atitinkamas autorius.

Nuorodų lentelė

Santrauka ir 1 Įvadas

2 Susiję darbai

3 Inkariniai didelių kalbų modeliai

3.1 Fonas

3.2 Inkariniai dėmesio į save tinklai

3.3 Inkaru pagrįsta išvada

4 eksperimentai ir 4.1 mūsų įgyvendinimas

4.2 Duomenys ir mokymo tvarka

4.3 Vertinimas

5 rezultatai

6 Analizė

7 Išvada, apribojimai, etikos pareiškimas ir nuorodos


Daugiau eksperimentinių rezultatų

B Duomenų nustatymai

Abstraktus

Dideliuose kalbų modeliuose (LLM) dažniausiai naudojamos tik dekoderio transformatorių architektūros, todėl istoriniams žetonams reikia išsaugoti raktų / reikšmių informaciją, kad būtų galima pateikti kontekstinę informaciją ir išvengti perteklinio skaičiavimo. Tačiau dėl didelio šių LLM dydžio ir parametrų apimties reikia didžiulės GPU atminties. Šis atminties poreikis didėja didėjant įvesties teksto ilgiui, todėl skubiai reikia efektyvesnių informacijos saugojimo ir apdorojimo metodų. Šiame tyrime pristatomi inkaru pagrįsti LLM (AnLLM), kurie naudoja naujovišką inkaru pagrįstą savęs dėmesio tinklą (AnSAN) ir inkaru pagrįstą išvadų strategiją. Šis metodas leidžia LLM suspausti sekos informaciją į inkaro prieigos raktą, sumažinant raktų / reikšmių talpyklą ir padidinant išvadų efektyvumą. Eksperimentai su atsakymų į klausimus etalonu rodo, kad AnLLM išlaiko panašų tikslumo lygį, tuo pačiu sumažinant raktų / reikšmių talpyklą iki 99 % ir iki 3,5 karto greitesnes išvadas. Nepaisant nedidelio tikslumo kompromiso, esminiai AnLLM patobulinimai, naudojant AnSAN techniką išteklių panaudojimo ir skaičiavimo efektyvumo srityse, pabrėžia jų galimybes praktiškai pritaikyti LLM.

1 Įvadas

Didelių kalbų modeliai (LLM) pirmiausia naudoja tik dekoderio transformatorių architektūras, dėl kurių reikia saugoti istorinių žetonų raktų / reikšmių informaciją atliekant automatiškai regresuojančią išvadą, kad būtų pateikta kontekstinė informacija ir išvengta perteklinio skaičiavimo (Wei ir kt., 2022; Touvron ir kt. , 2023a; OpenAI, 2023; Touvron ir kt., 2023b). Tačiau dėl didžiulio jų dydžio ir didelio parametrų skaičiaus įkėlimui reikalingas didelis GPU atminties kiekis. Be to, kaip ilgis


1 pav. Raktų/reikšmių talpyklos ir mūsų išvadų pagreičio koeficientas OBQA, PIQA ir BoolQ užduotyse su penkių kadrų demonstracijomis. Juostos žymi raktų/reikšmių talpyklą ir teksto ilgį, o kreivė – išvados pagreičio santykį. Didėjant teksto ilgiui, mūsų metodas rodo įspūdingą raktų / reikšmių talpyklos sumažėjimą iki 99%, palyginti su įprastais metodais. Be to, talpykloje išsaugodami priešdėlių tekstus, išvadų efektyvumą padidinome 3,5 karto, palyginti su išvadomis, kurios nėra talpinamos.


įvesties teksto skaičius auga, raktų / reikšmių talpykloms saugoti reikia vis daugiau GPU atminties, kaip rodo mokymasis kontekste, sudėtingos instrukcijos ir išplėstiniai pokalbiai (Dong ir kt., 2022; Jiang ir kt., 2023; Wang ir kt. , 2023), o tai nėra palanki scenarijams su ribotais skaičiavimo ištekliais. Alternatyvus metodas apima šių didelių sąnaudų perskaičiavimą, tačiau tai padidina laiko sąnaudas. Todėl šiuo tyrimu siekiama sumažinti raktų / reikšmių talpyklų saugojimo poreikį LLM išvadų fazėje, pagerinant atminties efektyvumą ir, atitinkamai, pagreitinant išvadų greitį.


Neseniai atliktame tyrime Wang ir kt. (2023) rodo, kad etikečių žodžiai priešdėlių demonstracijose gali veikti kaip inkarai darant išvadas ir suteikia veiksmingą konteksto glaudinimo metodą, siekiant pagerinti išvadų efektyvumą mokantis kontekste. Tačiau praktikoje ne visose priešdėlių įvestėse ar demonstracijose yra etiketės žodžių, tinkamų informacijai suspausti, todėl pasikliauti etiketės žodžiais yra mažiau universalus būdas suspausti teksto informaciją. Be to, Pang ir kt. (2024) pastebi, kad LLM, darydami išvadas, atsižvelgia į tik kelis, tačiau nuoseklius, priešdėlio žetonus. Tačiau naudojami konkretūs žetonai dažnai yra nenuspėjami ir nekontroliuojami. Šie pastebėjimai kelia intriguojantį klausimą: ar natūralios kalbos tekstuose yra inkaro taškų, kurie suspaudžia bendrą sekų semantinę informaciją? Šiame kontekste ankstesni sekų įterpimo tyrimai parodė, kad paslėpta specialaus žetono būsena neuroninių tinklų modeliuose gali apimti semantinę informaciją (Baudiš ir kt., 2016; Devlin ir kt., 2018). Be to, šiuolaikiniai LLM paprastai naudoja priežastinį savęs dėmesio mechanizmą tiek mokymo, tiek išvados fazėse (Touvron ir kt., 2023a, b), dalyvaujant kiekviename ankstesniame žetone. Tai rodo, kad galutinis žetonas sekoje gali būti geriau pritaikytas kaip natūralus informacijos suspaudimo taškas, palyginti su kitais žetonais, nes jie negali stebėti būsimų žetonų. Todėl norint suspausti sekos informaciją, veiksmingai sumažinti raktų / reikšmių talpyklą ir pagerinti LLM išvadų efektyvumą, būtinas metodinis metodas, kuris patikimai ir kontroliuojamai identifikuoja ir išnaudoja sekos inkaro žetonus.


Šiuo tikslu siūlome naujus A nchor pagrindu pagrįstus L arge L Anguage M modelius (AnLLM), aprūpintus naujovišku inkaru pagrįstu savęs dėmesio tinklu (AnSAN) ir inkaru pagrįsta išvadų strategija. AnSAN sukurtas priversti modelius suspausti sekos informaciją į inkaro žetoną (paskutinį mūsų diegimo prieigos raktą) mokymo proceso metu, naudojant inkarines dėmesio kaukes. Atliekant išvadas, inkaru pagrįsta išvadų strategija išsaugo inkaro žetonų raktų / reikšmių talpyklas, kurios sukaupė visą sekos informaciją, ir atmeta neinkarinių žetonų raktus / reikšmes, taip sumažindama atminties poreikį. Tiksliau, AnSAN skirtos dėmesio kaukės tarnauja dviem tikslams: 1) užtikrinti, kad inkaro žetonai atitiktų tik tos pačios sekos žetonus, neleidžiant atkreipti dėmesį į kitas sekas, ir 2) nukreipti ne prierašo žetonų dėmesį į ankstesnes sekos inkarus. , blokuoja kitus ankstesnių sekų nepririšimo žetonus. Pastebėtina, kad inkaru pagrįsto dėmesio technika yra panaši į principus, kuriais grindžiamas negausus dėmesys (Child ir kt., 2019). Tačiau, skirtingai nuo esamų tyrimų, kuriuose skiriama nedaug dėmesio siekiant išplėsti LLM konteksto ilgį (Chen ir kt., 2023; Ratner ir kt., 2023), mūsų metodas sutelktas į nuolatinį modelio išankstinį mokymą, kad sekos informacija būtų suspausta į inkarą. žetonas.


Šis dokumentas yra prieinamas arxiv pagal CC BY 4.0 DEED licenciją.