რატომ არის მნიშვნელოვანი მეხსიერების I/O ეფექტურობა AI მოდელის მუშაობისთვის

მიერ Batching5m2025/02/25
Read on Terminal Reader

Ძალიან გრძელი; Წაკითხვა

ორმხრივი ყურადღება აუმჯობესებს ხელოვნური ინტელექტის ეფექტურობას ლატენტური და მეხსიერების I/O ხარჯების შემცირებით, აძლიერებს აპლიკაციებს, როგორიცაა კოდის გენერაცია, ჩეთბოტები და გრძელკონტექსტური დამუშავება.
featured image - რატომ არის მნიშვნელოვანი მეხსიერების I/O ეფექტურობა AI მოდელის მუშაობისთვის
Batching HackerNoon profile picture
0-item

ავტორები:

(1) ბენ ატივარატკუნი, AWS AI Labs;

(2) სუჯან კუმარ გონუგონდლა, AWS AI Labs;

(3) სანჯაი კრიშნა გუდა, AWS AI Labs;

(4) Haifeng Qian, AWS AI Labs;

(5) სანჯაი კრიშნა გუდა, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Jun Wang, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Liangfu Chen, AWS AI Labs;

(11) Parminder Bhatia, GE HealthCare (შესრულებული სამუშაო AWS-ში);

(12) Ramesh Nallapati, Amazon AGI (შესრულებული სამუშაო AWS-ში);

(13) სუდიპტა სენგუპტა, AWS AI Labs;

(14) Bing Xiang, Goldman Sachs (შესრულებული სამუშაო AWS-ში).

ბმულების ცხრილი

რეზიუმე და 1 შესავალი

2. დაკავშირებული სამუშაო

3. ფონი

3.1. აღნიშვნა და 3.2. ენის მოდელის დასკვნა

3.3. Multi-Query, Multi-Head და განზოგადებული Multi-Query ყურადღება

4. Context-Aware Bifurcated ყურადღება და 4.1. მოტივაცია

4.2. ფორმულირება და 4.3. მეხსიერების IO სირთულე

5. ექსპერიმენტები

5.1. შედარება შესაძლებლობების Multi-Head, Multi-Query, და Multi-Group ყურადღების

5.2. შესაძლებლობების შეფერხება-ეკვივალენტური მოდელები

5.3. აპლიკაციები

6. დასკვნა და ცნობები


A. ხშირად დასმული კითხვები

B. დაკავშირებული სამუშაო

C. დაყენება

დ. მრავალჯგუფური ყურადღების ოჯახი

E. Context-Aware Bifurcated ყურადღება

F. პროგრამები: დამატებითი შედეგები

G. თავსებადობა სპეკულაციური დეკოდირებისა და სწრაფი დეკოდირების ტექნიკებთან

B. დაკავშირებული სამუშაო

B.1. ერთკონტექსტური სერიული შერჩევის აპლიკაციები

დაკვირვებულმა შეყოვნების შემცირებამ, რომელსაც ჩვენ მივაღწევთ, შეიძლება ჰქონდეს ღრმა გავლენა ბევრ აპლიკაციაზე. ზოგიერთი ეს აპლიკაცია მოიცავს:


• კოდების გენერაცია: პროგრამული უზრუნველყოფის შემუშავებისას, ხელოვნური ინტელექტის დახმარებით კოდის გენერაცია შეიძლება დიდად ისარგებლოს შემცირებული შეყოვნებით, განსაკუთრებით მაშინ, როდესაც გენერირდება მრავალი კოდის ნაწყვეტი ან შემოთავაზება მოცემულ კონტექსტში. ამან შეიძლება გამოიწვიოს უფრო პასუხისმგებელი და ეფექტური მომხმარებლის გამოცდილება დეველოპერებისთვის, რომლებიც იყენებენ AI-ზე მომუშავე ინტეგრირებული განვითარების გარემოს (IDEs) ან კოდის შევსების ხელსაწყოებს (Nijkamp et al., 2023; 2022; Chen et al., 2021; Le et al., 2022; Fried et al., 2022; ფრიდ და სხვ. et al., 2023; Li et al., 2023;


• მანქანური თარგმანი: იმ სიტუაციებში, როდესაც საჭიროა მრავალი თარგმანი ერთი შეყვანისთვის, როგორიცაა თარგმანის გენერირება სხვადასხვა ხარისხით ფორმალურობით ან თარგმანების გენერირება სხვადასხვა დიალექტისთვის, კონტექსტში გაცნობიერებული ორმხრივი ყურადღება უზრუნველყოფს უფრო ეფექტურ გამოთვლას, რაც გამოიწვევს უფრო სწრაფ და მასშტაბურ მანქანურ თარგმნის სერვისებს (Costajussà et al., Farhad20et2; ალ., 2021; Yee et al., 2019).


• ჩეთბოტები და სასაუბრო ხელოვნური ინტელექტი: სასაუბრო აგენტებს ხშირად სჭირდებათ მრავალი პასუხის გენერირება მომხმარებლის შეყვანის სხვადასხვა ინტერპრეტაციისთვის ან მრავალი შემოთავაზების მიწოდებისთვის. შემოთავაზებული მეთოდით შემოთავაზებული შეფერხების შემცირებამ შეიძლება მნიშვნელოვნად გააუმჯობესოს ჩატბოტების რეაგირება, რაც მომხმარებლებთან უფრო ბუნებრივ და თხევად საუბარს გამოიწვევს (Google, 2023).


• კრეატიული კონტენტის გენერაცია: ისეთ აპლიკაციებში, როგორიცაა პოეზია, მოთხრობა ან რეკლამის გენერაცია, გადამწყვეტი მნიშვნელობა აქვს მოცემული მოწოდებისთვის მრავალი ვარიაციის გენერირების შესაძლებლობას. შემოთავაზებული მეთოდი იძლევა მრავალფეროვანი შინაარსის უფრო ეფექტურ გენერირებას, რაც მას უფრო შესაძლებელს ხდის რეალურ დროში ან ფართომასშტაბიანი აპლიკაციებისთვის (Lin and Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).


• მონაცემთა გაძლიერება: მანქანური სწავლისთვის მონაცემთა გაზრდის კონტექსტში, მოცემული შეყვანისთვის მრავალი ალტერნატიული მაგალითის გენერირება დაგეხმარებათ მოდელის გამძლეობისა და განზოგადების გაუმჯობესებაში. შემცირებული შეყოვნებით, რომელიც უზრუნველყოფილია კონტექსტში გაცნობიერებული ორმხრივი ყურადღებით, გაფართოებული მონაცემების გენერირების პროცესი შეიძლება უფრო სწრაფად განხორციელდეს, რაც საშუალებას მისცემს გამოთვლითი რესურსების უფრო ეფექტურად გამოყენებას ტრენინგის დროს.


• ზოგადი ფართომასშტაბიანი შეფასება: გარდა ზემოაღნიშნული გამოყენების შემთხვევებისა, არსებობს მრავალი ნიშა გამოყენების შემთხვევა, სადაც LLM და სხვა ღია თაობის მოდელები იკვლევენ ტოქსიკურობას (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al.), 2020-ის გამოვლენის კოდირებადი. ალ., 2022), კოდის რედაქტირების მუშაობის გაუმჯობესების გენერაცია (Madaan et al., 2023), პროგრამირების ენების თარგმანი (Roziere et al., 2020) და მრავალი სხვა. ყველა ამ სცენარში, თითოეულ მოთხოვნაზე მრავალი თაობა იკრიბება მოდელების უფრო ღრმა გაგებისთვის, ორმხრივი ყურადღება შეიძლება მკვეთრად დააჩქაროს გენერაციის პროცესი ასეთ შემთხვევებში.


დასასრულს, შემოთავაზებულ კონტექსტში გაცნობიერებული ორმხრივი ყურადღების მეთოდს შეუძლია მნიშვნელოვნად შეამციროს მეხსიერების I/O ღირებულება და გააუმჯობესოს შეყოვნება სხვადასხვა აპლიკაციებში, რაც გამოიწვევს გაზრდის ეფექტურობას და მასშტაბურობას. ამ მეთოდს აქვს შესაძლებლობა ჩართოს ახალი გამოყენების შემთხვევები და გააუმჯობესოს მომხმარებლის გამოცდილება AI-ზე მომუშავე მრავალ სისტემაში, რაც მათ უფრო პრაქტიკულს გახდის რეალურ სამყაროში განლაგებისთვის.

B.2. გრძელი კონტექსტის მხარდაჭერა მოითხოვს IO-ეფექტურ ყურადღებას

მას შემდეგ, რაც ენობრივი მოდელები ხდება ზოგადი დანიშნულების და უაღრესად უნარიანი, მნიშვნელოვნად გაიზარდა მოთხოვნა ენის მოდელებზე უფრო გრძელი კონტექსტური თანმიმდევრობის დასამუშავებლად. ბოლო დროს მუდმივად კეთდება ფოკუსირება მოდელებზე, რომლებსაც შეუძლიათ უფრო გრძელი კონტექსტური თანმიმდევრობების მართვა (Bulatov et al., 2023; OpenAI, 2023; Team, 2023). დღეის მდგომარეობით, GPT-4 (OpenAI, 2023) მხარს უჭერს კონტექსტის სიგრძეს 32k ჟეტონს და MPT-7B (Team, 2023) აფართოებს მას 64k-მდე, ხოლო Anthropic-ის Claude [3] მხარს უჭერს 100k შეყვანის სიგრძეს. სულ ახლახან, ბულატოვმა და სხვებმა შემოგვთავაზეს 1M ტოკენის შეყვანის კონტექსტის სიგრძე ტრანსფორმატორებისთვის. ეს მოდელები უბიძგებს კონტექსტის გაგებისა და გენერირების შესაძლებლობების საზღვრებს, რაც საშუალებას იძლევა უფრო ყოვლისმომცველი დისკურსის გაგება და კონტექსტურად ინფორმირებული პასუხები.


ეს ტენდენცია განპირობებულია დისკურსის ყოვლისმომცველი გაგების აუცილებლობით ისეთ აპლიკაციებში, როგორიცაა Retrieval-Augmented Generation (RAG), ისევე როგორც მრავალი რთული მოთხოვნის მეთოდი. ისეთი აპლიკაციები, როგორიცაა RAG (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022); ამოიღებს ვრცელ პასაჟებს ან დოკუმენტებს გარე კორპუსებიდან, რაც უზრუნველყოფს მდიდარ და დასაბუთებულ კონტექსტს პასუხების წარმოქმნისთვის. გარდა ამისა, მოდელები, როგორიცაა Toolformer (Schick et al., 2023) და WebGPT (Nakano et al., 2021) იყენებენ გარე ინსტრუმენტებს, როგორიცაა API და საძიებო სისტემები, კონტექსტის გაფართოებისა და გენერირების გასაუმჯობესებლად.


გრძელი კონტექსტი არაპროპორციულად ძვირია სატრანსფორმატორო ოჯახის მოდელებისთვის, რადგან ვანილის ყურადღების ცენტრში მეხსიერებისა და დროის სირთულის კვადრატული მნიშვნელობისაა მიმდევრობის სიგრძე. უფრო გრძელი კონტექსტური თანმიმდევრობების ეფექტურად დასამუშავებლად, მნიშვნელოვანია მეხსიერების I/O ოპტიმიზაცია და გამოთვლითი ხარჯების შემცირება. ამჟამად, ამ გამოწვევის გადასაჭრელად დომინანტური მიდგომები იყო ყურადღების გამოთვლის ნაკლებად ძვირი. ბელტაგი და სხვ. (2020) შესთავაზა საკუთარი ყურადღების გაფანტვა სხვადასხვა ყურადღების შაბლონების გამოყენებით. ვანგი და სხვ. (2020) იკვლევს საკუთარი ყურადღების დაბალი რანგის მიახლოებას. გარდა გამოთვლითი შეკრული გაუმჯობესებისა, მეხსიერების ეფექტური ყურადღების მექანიზმებისა და მეხსიერების I/O შემცირების ტექნიკის წინსვლა გააგრძელებს ველის წინსვლას, რაც ხელს შეუწყობს ენის მოდელებში უფრო გრძელი კონტექსტური თანმიმდევრობების დამუშავებას. FlashAttention (Dao et al., 2022) შემოთავაზებულია დააჩქაროს საკუთარ თავზე ყურადღება და შეამციროს მეხსიერების კვალი ყოველგვარი მიახლოების გარეშე. ის იყენებს შერწყმული ბირთვს მატრიცის გამრავლებისთვის და softmax ფუნქციონირებისთვის, რაც მნიშვნელოვნად ამცირებს მეხსიერების IO ვარჯიშის დროს.


ეს ნაშრომი ხელმისაწვდომია arxiv-ზე CC BY 4.0 DEED ლიცენზიით.


[3] https://www.anthropic.com/index/100k-context-windows

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks