Mualliflar:
(1) Ben Athiwaratkun, AWS AI Labs;
(2) Sujan Kumar Gonugondla, AWS AI Labs;
(3) Sanjay Krishna Gouda, AWS AI Labs;
(4) Haifeng Qian, AWS AI Labs;
(5) Sanjay Krishna Gouda, AWS AI Labs;
(6) Hantian Ding, AWS AI Labs;
(7) Qing Sun, AWS AI Labs;
(8) Jun Vang, AWS AI Labs;
(9) Jiacheng Guo, AWS AI Labs;
(10 ta Liangfu Chen, AWS AI laboratoriyalari;
(11) Parminder Bhatia, GE HealthCare (AWSda bajarilgan ish);
(12) Ramesh Nallapati, Amazon AGI (AWS da bajarilgan ish);
(13) Sudipta Sengupta, AWS AI Labs;
(14) Bing Xiang, Goldman Sachs (AWSda bajarilgan ish).
Havolalar jadvali
3.1. Belgilash va 3.2. Til modeli xulosasi
3.3. Ko'p so'rov, ko'p boshli va umumlashtirilgan ko'p so'rovli e'tibor
4. Kontekstdan xabardor ikkilangan diqqat va 4.1. Motivatsiya
4.2. Formulyatsiya va 4.3. Xotira IO murakkabligi
5.1. Ko'p boshli, ko'p so'rovli va ko'p guruhli diqqatning imkoniyatlarini solishtirish
5.2. Imkoniyatlarning kechikishlari-ekvivalent modellar
6. Xulosa va foydalanilgan adabiyotlar
A. Tez-tez so'raladigan savollar
E. Kontekstdan xabardor ikkilangan e'tibor
F. Ilovalar: Qo'shimcha natijalar
G. Spekulyativ dekodlash va Tez dekodlash texnikasi bilan mosligi
B. Tegishli ishlar
B.1. Yagona kontekstli ommaviy namuna olishning ilovalari
Biz erishgan kuzatilgan kechikishning qisqarishi ko'plab ilovalarga chuqur ta'sir ko'rsatishi mumkin. Ushbu ilovalardan ba'zilari:
• Kod yaratish: Dasturiy ta'minotni ishlab chiqishda, sun'iy intellekt yordamida kod ishlab chiqarish, ayniqsa, ma'lum bir kontekst uchun bir nechta kod parchalari yoki takliflarni ishlab chiqarishda kechikishni kamaytirishdan katta foyda ko'rishi mumkin. Bu sun'iy integrallashgan rivojlanish muhiti (IDE) yoki kodni to'ldirish vositalaridan foydalangan holda ishlab chiquvchilar uchun yanada sezgir va samarali foydalanuvchi tajribasiga olib kelishi mumkin (Nijkamp va boshq., 2023; 2022; Chen va boshq., 2021; Le va boshq., 2022; Fried va boshq., 2022; Fried va boshq. boshqalar, 2023; Li va boshqalar, 2023; Ahmad va boshqalar., 2021).
• Mashina tarjimasi: Bitta kiritish uchun bir nechta tarjimalar kerak bo‘lgan holatlarda, masalan, turli darajadagi rasmiyatchilikka ega tarjimalarni yaratish yoki turli dialektlar uchun tarjimalarni yaratish, kontekstdan xabardor bo‘lgan ikkiga bo‘lingan e’tibor yanada samarali hisoblashni ta’minlaydi, bu esa tezroq va kengaytirilishi mumkin bo‘lgan mashina tarjimasi xizmatlarini beradi (Costajussà va boshq.; Fars et al., 2022. boshq., 2021; Yee va boshqalar, 2019).
• Chatbotlar va suhbatdosh sun’iy intellekt: So‘zlashuv agentlari ko‘pincha foydalanuvchi kiritgan ma’lumotlarning turli talqinlarini ko‘rib chiqish yoki bir nechta takliflarni taqdim etish uchun bir nechta javoblar yaratishi kerak bo‘ladi. Taklif etilayotgan usul tomonidan taqdim etilgan pasaytirilgan kechikish chatbotlarning sezgirligini sezilarli darajada yaxshilaydi, bu esa foydalanuvchilar bilan yanada tabiiy va ravon suhbatga olib keladi (Google, 2023).
• Ijodiy tarkib yaratish: she'riyat, hikoya yoki reklama yaratish kabi ilovalarda berilgan taklif uchun bir nechta variantni yaratish qobiliyati juda muhimdir. Taklif etilayotgan usul turli xil kontentni yanada samarali ishlab chiqarish imkonini beradi, bu uni real vaqt rejimida yoki keng miqyosli ilovalar uchun yanada qulayroq qiladi (Lin va Riedl, 2021; Mirowski va boshq., 2023; Team, 2023; Yuan va boshq., 2022).
• Maʼlumotlarni koʻpaytirish: Mashinani oʻrganish uchun maʼlumotlarni koʻpaytirish kontekstida berilgan kiritish uchun bir nechta muqobil misollarni yaratish model mustahkamligi va umumlashtirishni yaxshilashga yordam beradi. Kontekstdan xabardor bo'lgan ikki tomonlama e'tibor tomonidan taqdim etilgan kamaytirilgan kechikish bilan kengaytirilgan ma'lumotlarni yaratish jarayoni tezroq amalga oshirilishi mumkin, bu esa o'quv jarayonida hisoblash resurslaridan samaraliroq foydalanish imkonini beradi.
• Umumiy keng miqyosda baholash: Yuqorida aytib o'tilgan foydalanish holatlariga qo'shimcha ravishda LLM va boshqa ochiq avlod modellari toksiklik uchun o'rganiladigan ko'plab foydalanish holatlari mavjud (Datathri va boshq., 2019; Gehman va boshq., 2020; Nadeem va boshq., 2020, kodlash, aniqlash mumkin), 2022), unumdorlikni oshirish kodini tahrirlash avlodi (Madaan va boshq., 2023), dasturlash tiliga tarjimalar (Roziere va boshq., 2020) va boshqalar. Ushbu stsenariylarning barchasida modellarni chuqurroq tushunish uchun har bir taklif uchun ko'plab avlodlar yig'iladi, ikki tomonlama e'tibor bunday hollarda avlod jarayonini keskin tezlashtirishi mumkin.
Xulosa qilib aytadigan bo'lsak, taklif qilingan kontekstdan xabardor bo'lgan ikki tomonlama e'tibor usuli xotira kiritish-chiqarish narxini sezilarli darajada kamaytirishi va turli ilovalarda kechikish vaqtini yaxshilashi mumkin, bu esa samaradorlik va miqyosni oshirishga olib keladi. Ushbu usul yangi foydalanish holatlarini yoqish va ko'plab sun'iy intellektga asoslangan tizimlarda foydalanuvchi tajribasini yaxshilash potentsialiga ega, bu ularni real dunyoda joylashtirish uchun yanada amaliy qiladi.
B.2. Uzoq kontekstni qo'llab-quvvatlash IO-samarali e'tiborni talab qiladi
Til modellari umumiy maqsad va yuqori qobiliyatga aylanar ekan, uzoqroq kontekstli ketma-ketliklarni boshqarish uchun til modellariga talab sezilarli darajada oshdi. So'nggi paytlarda yanada uzunroq kontekstli ketma-ketliklarni bajara oladigan modellarga doimiy e'tibor qaratilmoqda (Bulatov va boshq., 2023; OpenAI, 2023; Team, 2023). Bugungi kunga kelib, GPT-4 (OpenAI, 2023) 32 ming tokenli kontekst uzunligini qo'llab-quvvatlaydi va MPT-7B (Team, 2023) uni 64 minggacha kengaytiradi, Anthropic's Claude [3] esa 100 ming kiritish uzunligini qo'llab-quvvatlaydi. Yaqinda Bulatov va boshqalar transformatorlar uchun 1M token kiritish kontekst uzunligini taklif qilishdi. Ushbu modellar kontekstni tushunish va yaratish imkoniyatlari chegaralarini kengaytiradi, bu esa nutqni yanada kengroq tushunish va kontekstga asoslangan javoblarni olish imkonini beradi.
Ushbu tendentsiya Retrieval-Augmented Generation (RAG) kabi ilovalarda nutqni keng qamrovli tushunish zarurati, shuningdek, ko'plab murakkab taklif usullari bilan bog'liq. RAG (Guu va boshq., 2020; Izacard va boshq., 2022; Menick va boshq., 2022; Zhen va boshq., 2022) kabi ilovalar tashqi korpusdan keng ko'lamli parchalar yoki hujjatlarni oladi, bu esa javoblarni yaratish uchun boy va asosli kontekstni ta'minlaydi. Bundan tashqari, Toolformer (Schick va boshq., 2023) va WebGPT (Nakano va boshq., 2021) kabi modellar kontekstni kengaytirish va avlodni yaxshilash uchun API va qidiruv tizimlari kabi tashqi vositalardan foydalanadi.
Transformatorlar oilasi modellari uchun uzoq kontekst nomutanosib qimmatga tushadi, chunki vanil o'ziga e'tibor berish uchun xotira va vaqt murakkabligi ketma-ketlik uzunligiga kvadratikdir. Uzunroq kontekstli ketma-ketliklarni samarali boshqarish uchun xotira kiritish-chiqarishini optimallashtirish va hisoblash xarajatlarini kamaytirish muhim ahamiyatga ega. Hozirgi vaqtda ushbu muammoni hal qilishda asosiy yondashuv e'tiborni hisoblashni arzonroq qilishdir. Beltagy va boshqalar. (2020) turli e'tibor naqshlaridan foydalangan holda o'z-o'ziga e'tiborni kamaytirishni taklif qildi. Vang va boshqalar. (2020) o'z-o'ziga e'tiborning past darajali yaqinlashuvini o'rganadi. Hisoblash bilan bog'liq yaxshilanishlarga qo'shimcha ravishda, xotirani tejaydigan e'tibor mexanizmlari va xotira kiritish-chiqarishni kamaytirish texnikasidagi yutuqlar til modellarida uzoqroq kontekstli ketma-ketliklarni boshqarishni osonlashtirib, maydonni oldinga siljitishda davom etadi. FlashAttention (Dao va boshq., 2022) o'z-o'ziga e'tiborni tezlashtirish va hech qanday taxminlarsiz xotira izini kamaytirish uchun taklif etiladi. U matritsalarni ko'paytirish va softmax ishlashi uchun birlashtirilgan yadrodan foydalanadi, bu esa mashg'ulot paytida xotira IO'sini sezilarli darajada kamaytiradi.
Ushbu hujjat arxivda CC BY 4.0 DEED litsenziyasi ostida mavjud .
[3] https://www.anthropic.com/index/100k-context-windows