Mpanoratra:
(1) Ben Athiwaratkun, AWS AI Labs;
(2) Sujan Kumar Gonugondla, AWS AI Labs;
(3) Sanjay Krishna Gouda, AWS AI Labs;
(4) Haifeng Qian, AWS AI Labs;
(5) Sanjay Krishna Gouda, AWS AI Labs;
(6) Hantian Ding, AWS AI Labs;
(7) Qing Sun, AWS AI Labs;
(8) Jun Wang, AWS AI Labs;
(9) Jiacheng Guo, AWS AI Labs;
(10 Liangfu Chen, AWS AI Labs;
(11) Parminder Bhatia, GE HealthCare (asa natao tao amin'ny AWS);
(12) Ramesh Nallapati, Amazon AGI (asa natao tao amin'ny AWS);
(13) Sudipta Sengupta, AWS AI Labs;
(14) Bing Xiang, Goldman Sachs (asa natao tao amin'ny AWS).
Latabatra Rohy
3.1. Notation sy 3.2. Famintinana modely amin'ny fiteny
3.3. Fanontaniana marobe, loha-hevitra marobe ary saina ankapobeny fanontaniana maro
4. Mizarazara ny saina sy 4.1. antony manosika
4.2. Famolavolana sy 4.3. Memory IO Complexity
5.1. Mampitaha ny fahaiza-manaon'ny Loha marobe, Fanontaniana marobe, ary sain'ny vondrona maro
5.2. Latencies ny fahaiza-manao modely mitovy
6. Famaranana sy fanovozan-kevitra
D. Fianakaviana Sahia Maro Vondrona
E. Mizarazara roa ny fifantohana amin'ny toe-javatra
F. Fampiharana: vokatra fanampiny
G. Fifanarahana amin'ny teknikan'ny famaky vinavina sy famaky haingana
B. Asa mifandraika
B.1. Fampiharana ny santionany amin'ny andiany tokana
Mety hisy fiatraikany lalina amin'ny fampiharana maro ny fampihenana ny fahatarana hitanay. Ny sasany amin'ireo fampiharana ireo dia ahitana:
• Famoronana kaody: Amin'ny fampivoarana rindrambaiko, ny famoronana kaody ampian'ny AI dia afaka mandray soa be dia be avy amin'ny fihenan'ny fahatarana, indrindra rehefa mamorona sombin-kaody maromaro na soso-kevitra momba ny toe-javatra iray. Izany dia mety hitarika amin'ny traikefa mpampiasa mandray andraikitra sy mahomby kokoa ho an'ny mpamorona mampiasa AI-powered Integrated Development Environments (IDEs) na fitaovana famenoana kaody (Nijkamp et al., 2023; 2022; Chen et al., 2021; Le et al., 2022; Fried et al., 2022; Li et al., 2022; Li et al. 2023; Li et al., 2023;
• Dikan-teny amin'ny milina: Amin'ny toe-javatra izay ilana fandikan-teny maro ho an'ny fampidirana tokana, toy ny famoronana fandikan-teny amin'ny ambaratonga samihafa amin'ny fomba ofisialy na famoronana fandikan-teny ho an'ny fitenim-paritra samihafa, ny fifantohana mifanandrify amin'ny teny manodidina dia afaka manome kajy mahomby kokoa, ka miteraka tolotra fandikan-teny amin'ny milina haingana kokoa sy azo esorina kokoa (Costajussà et al., 2022; Farhad et al., T2021; Farhad et al. Yee et al., 2019).
• Chatbots sy Conversational AI: Matetika ny mpiasan'ny fifampiresahana dia mila mamorona valiny marobe mba hiatrehana ireo fandikana samihafa momba ny fandraisan'ny mpampiasa iray na hanomezana soso-kevitra maro. Ny fihenan'ny fahatarana atolotry ny fomba atolotra dia afaka manatsara ny fandraisan'ny chatbots, mitarika amin'ny resaka voajanahary sy malefaka kokoa amin'ny mpampiasa (Google, 2023).
• Famoronana votoaty amin'ny famoronana: Amin'ny fampiharana toy ny tononkalo, tantara, na famokarana dokambarotra, ny fahafahana mamorona fiovaovana maro ho an'ny bitsika iray dia tena ilaina. Ny fomba natolotra dia ahafahana mamorona votoaty isan-karazany mahomby kokoa, mahatonga azy io ho azo atao amin'ny fampiharana amin'ny fotoana tena izy na lehibe (Lin sy Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).
• Fanamafisana ny angona: Ao anatin'ny tontolon'ny fampitomboana angon-drakitra ho an'ny fianarana milina, ny famoronana ohatra maro hafa ho an'ny fidirana nomena dia afaka manampy amin'ny fanatsarana ny fahamendrehana sy ny famintinana modely. Miaraka amin'ny fihenan'ny fahatarana omen'ny fifantohana mifanandrify amin'ny contexte, dia azo atao haingana kokoa ny fizotran'ny famokarana angona ampitomboina, ahafahana mampiasa mahomby kokoa ny loharanon-kajy mandritra ny fiofanana.
• Fanombanana amin'ny ambaratonga lehibe: Ankoatra ireo tranga fampiasa voalaza teo aloha dia misy trangan-javatra fampiasa maro izay misy ny LLM sy ny maodelin'ny taranaka misokatra misokatra ho an'ny poizina (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al., 2020) al., 2022), fanatsarana ny fampandehanana ny famoahana kaody (Madaan et al., 2023), fandikana amin'ny fiteny fandaharana (Roziere et al., 2020) sy ny maro hafa. Amin'ireo toe-javatra rehetra ireo, taranaka maro isaky ny bitsika tsirairay no angonina mba hahazoana fahalalana lalindalina kokoa ny modely, ny fifantohana bifurcated dia afaka manafaingana ny fizotran'ny taranaka amin'ny tranga toy izany.
Ho fehin-kevitra, ny fomba fijery mifanakalo hevitra momba ny teny manodidina dia afaka mampihena be ny vidin'ny fitadidiana I/O ary manatsara ny fahatarana amin'ny fampiharana isan-karazany, mitarika amin'ny fitomboan'ny fahombiazana sy ny scalability. Ity fomba ity dia manana fahafahana ahafahana mampiasa tranga vaovao sy manatsara ny traikefan'ny mpampiasa amin'ny rafitra AI-powered maro, mahatonga azy ireo ho azo ampiharina kokoa amin'ny fametrahana eran-tany.
B.2. Ny fanohanana ny toe-javatra lava dia mitaky fitandremana IO-efficient
Satria lasa tanjona ankapobeny sy tena mahavita azy ny maodelin'ny fiteny, dia nitombo be ny fitakiana ny maodelin'ny fiteny mba hiatrehana ny filaharan'ny teny manodidina. Vao haingana, misy fifantohana mitohy amin'ireo modely izay afaka mitantana ny filaharan'ny contexte lava kokoa (Bulatov et al., 2023; OpenAI, 2023; Team, 2023). Amin'izao fotoana izao, ny GPT-4 (OpenAI, 2023) dia manohana ny halavan'ny contexte amin'ny famantarana 32k, ary ny MPT-7B (Ekipa, 2023) dia manitatra izany ho 64k raha toa kosa ny an'i Anthropic's Claude [3] manohana raha toa ka 100k ny halavan'ny fidirana. Vao haingana, Bulatov et al dia nanolotra ny halavan'ny contexte 1M token ho an'ny transformer. Ireo maodely ireo dia manosika ny fetran'ny fahatakarana ny teny manodidina sy ny fahaiza-manaon'ny taranaka, ahafahan'ny fahatakarana ny lahateny feno kokoa sy ny valinteny mifanaraka amin'ny teny manodidina.
Ity fironana ity dia tarihin'ny filàna fahatakarana lahateny feno amin'ny fampiharana toy ny Retrieval-Augmented Generation (RAG), ary koa ireo fomba fanentanana maro be pitsiny. Ny fampiharana toy ny RAG (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022) dia maka andalan-tsoratra na antontan-taratasy be dia be avy amin'ny corpora ivelany, manome sehatra manankarena sy miorina amin'ny famoronana valiny. Fanampin'izany, ny modely toa ny Toolformer (Schick et al., 2023) sy WebGPT (Nakano et al., 2021) dia mampiasa fitaovana ivelany, toy ny API sy motera fikarohana, hanitarana ny teny manodidina sy hanatsara ny taranaka.
Ny contexte lava dia lafo be ho an'ny maodely fianakaviana transformer satria ho an'ny fifantohana amin'ny vanila, ny fitadidiana sy ny fahasarotan'ny fotoana dia mitovy amin'ny halavan'ny filaharana. Mba hikarakarana tsara ny filaharan'ny contexte lava kokoa, dia zava-dehibe ny fanatsarana ny fahatsiarovana I/O sy ny fampihenana ny overhead computational. Amin'izao fotoana izao, ny fomba lehibe indrindra amin'ny famahana ity fanamby ity dia ny fampihenana ny vidin'ny kajy. Beltagy et al. (2020) dia nanolotra soso-kevitra hanamafisana ny fiheveran-tena amin'ny alàlan'ny fomba fijery samihafa. Wang et al. (2020) dia mikaroka ny tombantombana ambany amin'ny fiheveran-tena. Ho fanampin'ny fanatsarana mifatotra amin'ny compute, ny fandrosoana eo amin'ny fomba fitadidiana mahomby sy ny teknika fampihenana ny fitadidiana I/O dia hanohy hanosika ny saha handroso, hanamora ny fikarakarana ny filaharan'ny contexte lava kokoa amin'ny maodely fiteny. FlashAttention (Dao et al., 2022) dia atolotra hanafaingana ny fiheveran-tena sy hampihenana ny dian-tongotra fitadidiana tsy misy tombantombana. Izy io dia mampiasa kernel mitambatra ho an'ny fampitomboana matrix sy ny fiasan'ny softmax izay mampihena be ny fahatsiarovana IO mandritra ny fiofanana.
Ity taratasy ity dia misy amin'ny arxiv eo ambanin'ny lisansa CC BY 4.0 DEED.
[3] https://www.anthropic.com/index/100k-context-windows