Чаму эфектыўнасць уводу-вываду памяці важная для прадукцыйнасці мадэлі штучнага інтэлекту

па Batching5m2025/02/25
Read on Terminal Reader

Занадта доўга; Чытаць

Раздвоеная ўвага павышае эфектыўнасць штучнага інтэлекту за кошт скарачэння затрымкі і выдаткаў на ўвод-вывад памяці, удасканалення такіх прыкладанняў, як генерацыя кода, чат-боты і апрацоўка доўгага кантэксту.
featured image - Чаму эфектыўнасць уводу-вываду памяці важная для прадукцыйнасці мадэлі штучнага інтэлекту
Batching HackerNoon profile picture
0-item

Аўтары:

(1) Бэн Атывараткун, AWS AI Labs;

(2) Суджан Кумар Ганугондла, AWS AI Labs;

(3) Санджай Крышна Гаўда, AWS AI Labs;

(4) Хайфэн Цянь, AWS AI Labs;

(5) Санджай Крышна Гаўда, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Джун Ван, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Лянфу Чэнь, AWS AI Labs;

(11) Парміндер Бхаціа, GE HealthCare (праца ў AWS);

(12) Рамеш Налапаці, Amazon AGI (праца выканана ў AWS);

(13) Sudipta Sengupta, AWS AI Labs;

(14) Бінг Сян, Goldman Sachs (праца зроблена ў AWS).

Табліца спасылак

Анатацыя і 1 Уводзіны

2. Роднасная праца

3. Фон

3.1. Абазначэнне і 3.2. Вывад моўнай мадэлі

3.3. Мульты-запыт, некалькі галоў і абагульненая ўвага на некалькі запытаў

4. Раздвоеная ўвага з улікам кантэксту і 4.1. Матывацыя

4.2. Рэцэптура і 4.3. Складанасць уводу-вываду памяці

5. Эксперыменты

5.1. Параўнанне магчымасцей прыцягнення ўвагі некалькіх кіраўнікоў, некалькіх запытаў і некалькіх груп

5.2. Затрымкі мадэляў, эквівалентных магчымасцям

5.3. Прыкладанні

6. Заключэнне і спіс літаратуры


A. Частыя пытанні

B. Роднасная праца

C. Настройка

D. Шматгрупавая ўвага сям'і

E. Раздвоеная ўвага з улікам кантэксту

F. Прыкладанні: дадатковыя вынікі

G. Сумяшчальнасць з метадамі спекулятыўнага і хуткага дэкадавання

B. Роднасная праца

B.1. Прымяненне аднакантэкстнай пакетнай выбаркі

Назіранае скарачэнне затрымкі, якога мы дасягнулі, можа моцна паўплываць на многія прыкладанні. Некаторыя з гэтых прыкладанняў ўключаюць:


• Генерацыя кода: пры распрацоўцы праграмнага забеспячэння генерацыя кода з дапамогай штучнага інтэлекту можа значна выйграць ад скарачэння затрымкі, асабліва пры стварэнні некалькіх фрагментаў кода або прапаноў для дадзенага кантэксту. Гэта можа прывесці да больш спагаднага і эфектыўнага карыстання распрацоўшчыкамі, якія выкарыстоўваюць інтэграваныя асяроддзя распрацоўкі (IDE) на базе штучнага інтэлекту або інструменты завяршэння кода (Nijkamp et al., 2023; 2022; Chen et al., 2021; Le et al., 2022; Fried et al., 2022; Li et al., 2022; Allal et al., 2023; Лі і інш., 2023; Ахмад і інш., 2021).


• Машынны пераклад: у сітуацыях, калі некалькі перакладаў неабходныя для аднаго ўводу, напрыклад, стварэнне перакладаў з рознай ступенню фармальнасці або стварэнне перакладаў для розных дыялектаў, раздвоеная ўвага з улікам кантэксту можа забяспечыць больш эфектыўныя вылічэнні, што прыводзіць да больш хуткіх і больш маштабаваных паслуг машыннага перакладу (Costajussà et al., 2022; Farhad et al., 2021; Tran et al., 2021; Yee і інш., 2019).


• Чат-боты і гутарковы штучны інтэлект: размоўным агентам часта патрабуецца генераваць некалькі адказаў, каб апрацоўваць розныя інтэрпрэтацыі ўводу карыстальніка або даваць некалькі прапаноў. Зніжэнне затрымкі, прапанаванае прапанаваным метадам, можа значна палепшыць хуткасць рэагавання чат-ботаў, што прывядзе да больш натуральнай і плаўнай размовы з карыстальнікамі (Google, 2023).


• Стварэнне крэатыўнага кантэнту: у такіх праграмах, як стварэнне паэзіі, апавяданняў або рэкламы, магчымасць ствараць некалькі варыянтаў для дадзенага падказкі мае вырашальнае значэнне. Прапанаваны метад дазваляе больш эфектыўна ствараць разнастайны кантэнт, што робіць яго больш прыдатным для прымянення ў рэжыме рэальнага часу або буйнамаштабных прыкладанняў (Lin and Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).


• Пашырэнне даных: у кантэксце павелічэння даных для машыннага навучання стварэнне некалькіх альтэрнатыўных прыкладаў для зададзенага ўводу можа дапамагчы палепшыць надзейнасць і абагульненне мадэлі. З паменшанай затрымкай, якую забяспечвае раздвоеная ўвага з улікам кантэксту, працэс генерацыі дапоўненых даных можна зрабіць больш хуткім, што дазваляе больш эфектыўна выкарыстоўваць вылічальныя рэсурсы падчас навучання.


• Агульная буйнамаштабная ацэнка: у дадатак да вышэйзгаданых варыянтаў выкарыстання існуе мноства нішавых варыянтаў выкарыстання, дзе LLM і іншыя адкрытыя мадэлі генерацыі вывучаюцца на прадмет таксічнасці (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al., 2020), выяўлення ўразлівага кода ў пакаленнях (Pearce et al., 2022), генерацыя рэдагавання кода для павышэння прадукцыйнасці (Madaan et al., 2023), пераклады моў праграмавання (Roziere et al., 2020) і многія іншыя. Ва ўсіх гэтых сцэнарыях шмат пакаленняў для кожнай падказкі збіраюцца для больш глыбокага разумення мадэляў, раздвоеная ўвага можа значна паскорыць працэс генерацыі ў такіх выпадках.


У заключэнне можна сказаць, што прапанаваны кантэкстна-залежны метад раздвоенай увагі можа значна знізіць кошт уводу-вываду памяці і палепшыць затрымку ў розных праграмах, што прыводзіць да павышэння эфектыўнасці і маштабаванасці. Гэты метад мае патэнцыял для ўключэння новых варыянтаў выкарыстання і паляпшэння карыстальніцкага досведу ў шматлікіх сістэмах на базе штучнага інтэлекту, што робіць іх больш практычнымі для разгортвання ў рэальным свеце.

Б.2. Падтрымка доўгага кантэксту патрабуе ўвагі, эфектыўнай для ўводу-выводу

Па меры таго, як моўныя мадэлі становяцца агульнага прызначэння і маюць высокія магчымасці, попыт на моўныя мадэлі для працы з больш доўгімі кантэкстнымі паслядоўнасцямі значна вырас. У апошні час пастаянная ўвага надаецца мадэлям, якія могуць апрацоўваць яшчэ больш доўгія кантэкстныя паслядоўнасці (Bulatov et al., 2023; OpenAI, 2023; Team, 2023). На сённяшні дзень GPT-4 (OpenAI, 2023) падтрымлівае даўжыню кантэксту ў 32 тысячы токенаў, а MPT-7B (Team, 2023) пашырае яго да 64 тысяч, у той час як Claude ад Anthropic [3] падтрымлівае даўжыню ўводу да 100 тысяч. Зусім нядаўна Булатаў і іншыя прапанавалі даўжыню ўваходнага кантэксту токена 1М для трансфарматараў. Гэтыя мадэлі пашыраюць межы разумення кантэксту і магчымасці генерацыі, забяспечваючы больш поўнае разуменне дыскурсу і кантэкстуальна абгрунтаваныя адказы.


Гэтая тэндэнцыя абумоўлена неабходнасцю ўсебаковага разумення дыскурсу ў такіх праграмах, як Retrieval-Augmented Generation (RAG), а таксама мноствам складаных метадаў падказкі. Такія прыкладанні, як RAG (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022), атрымліваюць шырокія ўрыўкі або дакументы са знешніх корпусаў, забяспечваючы багаты і абгрунтаваны кантэкст для стварэння адказаў. Акрамя таго, такія мадэлі, як Toolformer (Schick et al., 2023) і WebGPT (Nakano et al., 2021), выкарыстоўваюць знешнія інструменты, такія як API і пошукавыя сістэмы, каб пашырыць кантэкст і палепшыць генерацыю.


Доўгі кантэкст з'яўляецца непрапарцыйна дарагім для мадэляў сямейства трансфарматараў, таму што для ванільнай сама-ўвагі і памяць, і складанасць часу квадратычныя даўжыні паслядоўнасці. Каб эфектыўна апрацоўваць больш працяглыя кантэкстныя паслядоўнасці, аптымізацыя ўводу-вываду памяці і памяншэнне вылічальных выдаткаў маюць вырашальнае значэнне. У цяперашні час дамінуючым падыходам да вырашэння гэтай праблемы было зрабіць менш дарагім вылічэнне ўвагі. Белтагі і інш. (2020) прапанавалі паменшыць увагу да сябе, выкарыстоўваючы розныя шаблоны ўвагі. Ван і інш. (2020) даследуе нізкарангавую апраксімацыю ўвагі да сябе. У дадатак да паляпшэнняў, звязаных з вылічэннямі, прагрэс у эфектыўных для памяці механізмах увагі і метадах скарачэння ўводу-вываду памяці будзе працягваць прасоўваць поле наперад, палягчаючы апрацоўку больш доўгіх кантэкстных паслядоўнасцей у моўных мадэлях. Прапануецца FlashAttention (Dao et al., 2022) для паскарэння самаканцэнтрацыі і памяншэння аб'ёму памяці без усялякага набліжэння. Ён выкарыстоўвае злітае ядро для множання матрыц і працы softmax, што значна скарачае ўвод-вывод з памяці падчас навучання.


Гэты дакумент даступны на arxiv пад ліцэнзіяй CC BY 4.0 DEED.


[3] https://www.anthropic.com/index/100k-context-windows

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks