Egileak:
(1) Ben Athiwaratkun, AWS AI Labs;
(2) Sujan Kumar Gonugondla, AWS AI Labs;
(3) Sanjay Krishna Gouda, AWS AI Labs;
(4) Haifeng Qian, AWS AI Labs;
(5) Sanjay Krishna Gouda, AWS AI Labs;
(6) Hantian Ding, AWS AI Labs;
(7) Qing Sun, AWS AI Labs;
(8) Jun Wang, AWS AI Labs;
(9) Jiacheng Guo, AWS AI Labs;
(10 Liangfu Chen, AWS AI Labs;
(11) Parminder Bhatia, GE HealthCare (AWSn egindako lana);
(12) Ramesh Nallapati, Amazon AGI (AWSn egindako lana);
(13) Sudipta Sengupta, AWS AI Labs;
(14) Bing Xiang, Goldman Sachs (AWSn egindako lana).
Esteken taula
3.1. Notazioa eta 3.2. Hizkuntza-ereduaren inferentzia
3.3. Kontsulta anitzeko, buru anitzeko eta Kontsulta anitzeko arreta orokortua
4. Testuinguruari buruzko arreta bifurkatua eta 4.1. Motibazioa
4.2. Formulazioa eta 4.3. Memoria IO konplexutasuna
5.1. Buru anitzeko, kontsulta anitzeko eta talde anitzeko arretaren gaitasunak alderatzea
5.2. Gaitasunen latentzia-Eredu baliokideak
6. Ondorioa eta Erreferentziak
D. Talde Anitzeko Arreta Familia
E. Testuinguruari buruzko arreta bifurkatua
F. Aplikazioak: Emaitza osagarriak
G. Deskodetze espekulatiboarekin eta Deskodetze azkarreko teknikekin bateragarritasuna
B. Lotutako lana
B.1. Testuinguru bakarreko loteen laginketaren aplikazioak
Lortzen dugun latentzia murrizketak eragin handia izan dezake aplikazio askotan. Aplikazio horietako batzuk honako hauek dira:
• Kodea sortzea: softwarearen garapenean, AI-k lagundutako kodea sortzeak mesede handia egin diezaioke latentzia murrizteari, batez ere testuinguru jakin baterako kode zati edo iradokizun anitz sortzen direnean. Honek erabiltzaile-esperientzia sentikorragoa eta eraginkorragoa izan dezake garatzaileentzat AI-ak bultzatutako Garapen Integratuko Inguruneak (IDE) edo kodea osatzeko tresnak (Nijkamp et al., 2023; 2022; Chen et al., 2021; Le et al., 2022; Fried et al., 2022; Li et al., 2022; Li et al., 2022; All. et al., 2023; Ahmad et al., 2021).
• Itzulpen automatikoa: sarrera bakar baterako itzulpen anitz behar diren egoeretan, hala nola, hainbat formaltasun-mailako itzulpenak sortzea edo dialekto ezberdinetarako itzulpenak sortzea, testuinguruaren araberako arreta bifurkatuak konputazio eraginkorragoa eman dezake, itzulpen automatikoko zerbitzu azkarrago eta eskalagarriagoak lortuz (Costajussà et al., 2022; Farhad et al., 1; Trae et al., 2020; et al., 2019).
• Chatbot-ak eta Elkarrizketa-AI: elkarrizketa-agenteek erantzun ugari sortu behar dituzte sarritan erabiltzailearen sarreraren interpretazio desberdinak kudeatzeko edo iradokizun anitz emateko. Proposatutako metodoak eskaintzen duen latentzia murriztuak chatbot-en erantzuna nabarmen hobetu dezake, erabiltzaileekin elkarrizketa naturalagoa eta arinago bat izateko (Google, 2023).
• Sormen-edukia sortzea: poesia, istorioa edo iragarki-sorkuntza bezalako aplikazioetan, gonbita jakin baterako aldaera anitz sortzeko gaitasuna funtsezkoa da. Proposatutako metodoak hainbat eduki eraginkorragoak sortzea ahalbidetzen du, denbora errealeko edo eskala handiko aplikazioetarako bideragarriagoa bihurtuz (Lin eta Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).
• Datuen gehikuntza: ikaskuntza automatikorako datuak handitzearen testuinguruan, sarrera jakin baterako adibide alternatibo anitz sortzeak ereduaren sendotasuna eta orokortzea hobetzen lagun dezake. Testuinguruari buruzko arreta bifurkatuak ematen duen latentzia murriztuarekin, datu areagotuak sortzeko prozesua azkarrago egin daiteke, prestakuntzan zehar baliabide konputazionalak modu eraginkorragoan erabiltzeko aukera emanez.
• Eskala Handiko Ebaluazio Orokorra: Aipatutako erabilera-kasuez gain, erabilera-kasu asko daude non LLM eta beste belaunaldi irekiko eredu batzuk toxikotasuna aztertzen diren (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al., 2020), belaunaldien detekzioa (Pearce 2020, et al. kodearen edizioaren sorrera hobetzea (Madaan et al., 2023), programazio-lengoaien itzulpenak (Roziere et al., 2020) eta beste hainbat. Eszenatoki hauetan guztietan belaunaldi asko biltzen dira ereduak sakonago ulertzeko, arreta bifurkatuak sorkuntza prozesua izugarri bizkortu dezake kasu horietan.
Ondorioz, proposatutako testuinguruari buruzko arreta bifurkatuaren metodoak nabarmen murrizten du memoriaren I/O kostua eta latentzia hobetu dezake hainbat aplikaziotan, eraginkortasuna eta eskalagarritasuna areagotuz. Metodo honek erabilera-kasu berriak gaitzeko eta AI bidezko sistema ugaritan erabiltzailearen esperientzia hobetzeko aukera du, mundu errealean inplementatzeko praktikoagoak bihurtuz.
B.2. Testuinguru luzeak eusteak IO-eraginkorra den arreta eskatzen du
Hizkuntza-ereduak helburu orokor eta gaitasun handiko bilakatzen ari diren heinean, testuinguru-sekuentzia luzeagoak kudeatzeko hizkuntza-ereduen eskaera nabarmen hazi da. Berriki, testuinguru-sekuentzia are luzeagoak kudeatu ditzaketen ereduetan arreta jartzen ari da (Bulatov et al., 2023; OpenAI, 2023; Team, 2023). Gaurtik aurrera, GPT-4 (OpenAI, 2023) 32k tokeneko testuinguru-luzera onartzen du, eta MPT-7B (Team, 2023) 64k-ra hedatzen du Anthropic-en Claude [3]-k, berriz, 100k sarrera-luzera onartzen du. Duela gutxi, Bulatov et al-ek 1M token sarrerako testuinguru luzera proposatu zuten transformadoreetarako. Eredu hauek testuingurua ulertzeko eta sortzeko gaitasunen mugak gainditzen dituzte, diskurtsoaren ulermen integralagoa eta testuinguruan oinarritutako erantzunak ahalbidetuz.
Joera hau Retrieval-Augmented Generation (RAG) bezalako aplikazioetan diskurtsoaren ulermen integralaren beharrak bultzatuta dago, baita galdeketa metodo konplexu askotan ere. RAG bezalako aplikazioek (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022) kanpoko corpusetako pasarte edo dokumentu zabalak berreskuratzen dituzte, erantzunak sortzeko testuinguru aberatsa eta oinarritua eskainiz. Gainera, Toolformer (Schick et al., 2023) eta WebGPT (Nakano et al., 2021) bezalako ereduek kanpoko tresnak baliatzen dituzte, hala nola APIak eta bilatzaileak, testuingurua zabaltzeko eta sorkuntza hobetzeko.
Testuinguru luzea neurrigabe garestia da transformadoreen familia-ereduetarako, bainilaren autoarretarako bai memoria eta bai denboraren konplexutasuna sekuentziaren luzerarekiko koadratikoak direlako. Testuinguru-sekuentzia luzeagoak eraginkortasunez kudeatzeko, funtsezkoak dira memoria I/O optimizatzea eta konputazio-gastuak murriztea. Gaur egun, erronka honi aurre egiteko ikuspegi nagusiak arretaren konputazioa merkeago egitea izan da. Beltagy et al. (2020) auto-arreta murriztea proposatu zuten hainbat arreta eredu erabiliz. Wang et al. (2020) auto-arreta maila baxuko hurbilketa aztertzen du. Konputazio-loturako hobekuntzez gain, memoria-eraginkorra den arreta-mekanismoetan eta memoria-I/O murrizteko tekniken aurrerapenek eremua aurrera egiten jarraituko dute, hizkuntza-ereduetan testuinguru-sekuentzia luzeagoak maneiatzea erraztuz. FlashAttention (Dao et al., 2022) auto-arreta bizkortzeko eta memoria-aztarna murrizteko proposatzen da inolako hurbilketarik gabe. Nukleo fusionatua aprobetxatzen du matrizea biderkatzeko eta softmax funtzionamendurako eta horrek memoria IO asko murrizten du prestakuntzan zehar.
Paper hau arxiv-en dago eskuragarri CC BY 4.0 DEED lizentziapean.
[3] https://www.anthropic.com/index/100k-context-windows