რატომ არის ხელოვნური ინტელექტის ზოგიერთი მოდელი სხვებზე სწრაფი

მიერ Batching5m2025/02/24

Ძალიან გრძელი; Წაკითხვა

ეს განყოფილება განიხილავს AI დასკვნის ოპტიმიზაციის ძირითად ტექნიკას, მათ შორის კვანტიზაციას, მწირ ყურადღებას, სპეკულაციურ გაშიფვრას და გვერდებზე ყურადღების მიქცევას. მიუხედავად იმისა, რომ ეს მეთოდები აუმჯობესებს ეფექტურობას, ორმხრივი ყურადღება კონკრეტულად მიზნად ისახავს KV ქეში მეხსიერების IO-ს, ამცირებს შეყოვნებას მაღალი სერიის, გრძელ კონტექსტის სცენარებში რეალურ დროში აპლიკაციებისთვის.

featured image - რატომ არის ხელოვნური ინტელექტის ზოგიერთი მოდელი სხვებზე სწრაფი

ავტორები:

(1) ბენ ატივარატკუნი, AWS AI Labs;

(2) სუჯან კუმარ გონუგონდლა, AWS AI Labs;

(3) სანჯაი კრიშნა გუდა, AWS AI Labs;

(4) Haifeng Qian, AWS AI Labs;

(5) სანჯაი კრიშნა გუდა, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Jun Wang, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Liangfu Chen, AWS AI Labs;

(11) Parminder Bhatia, GE HealthCare (შესრულებული სამუშაო AWS-ში);

(12) Ramesh Nallapati, Amazon AGI (შესრულებული სამუშაო AWS-ში);

(13) სუდიპტა სენგუპტა, AWS AI Labs;

(14) Bing Xiang, Goldman Sachs (შესრულებული სამუშაო AWS-ში).

ბმულების ცხრილი

რეზიუმე და 1 შესავალი

2. დაკავშირებული სამუშაო

3. ფონი

3.1. აღნიშვნა და 3.2. ენის მოდელის დასკვნა

3.3. Multi-Query, Multi-Head და განზოგადებული Multi-Query ყურადღება

4. Context-Aware Bifurcated ყურადღება და 4.1. მოტივაცია

4.2. ფორმულირება და 4.3. მეხსიერების IO სირთულე

5. ექსპერიმენტები

5.1. შედარება შესაძლებლობების Multi-Head, Multi-Query, და Multi-Group ყურადღების

5.2. შესაძლებლობების შეფერხება-ეკვივალენტური მოდელები

5.3. აპლიკაციები

6. დასკვნა და ცნობები

A. ხშირად დასმული კითხვები

B. დაკავშირებული სამუშაო

C. დაყენება

დ. მრავალჯგუფური ყურადღების ოჯახი

E. Context-Aware Bifurcated ყურადღება

F. პროგრამები: დამატებითი შედეგები

G. თავსებადობა სპეკულაციური დეკოდირებისა და სწრაფი დეკოდირების ტექნიკებთან

2. დაკავშირებული სამუშაო

ლიტერატურაში არსებობს მრავალი გზა დასკვნის შეყოვნებისა და/ან შეყოვნების გასაუმჯობესებლად. კვანტიზაცია ამცირებს მეხსიერების გამოყენებას დაბალი ბიტიანი წარმომადგენლობების გამოყენებით, როგორიცაა int8, int4 და fp8 (Wei et al., 2023; Yao et al., 2022; Dettmers et al., 2022; Frantar et al., 2022; Kuzmin et al., 2022; Kuzmin et al., 2022; Kuzmin et al., 2022; Kuzmin et al., 2022; Kuzmin et al., 2022; Kuzmin et al., 2022;, 202 et al., 2022; კვანტიზაცია, როდესაც გამოიყენება მხოლოდ მოდელის პარამეტრებზე, გვთავაზობს შემცირებულ შედეგებს, როგორც უფრო გრძელი თანმიმდევრობის სიგრძისა და დიდი პარტიების ზომებში, სადაც მეხსიერების წვდომა და წერტილების პროდუქტთან დაკავშირებული გამოთვლები დომინირებს საერთო დასკვნის შეყოვნებაზე.

მწირი ყურადღება (Beltagy et al., 2020; Child et al., 2019; Zaheer et al., 2020) ფართოდ იქნა შესწავლილი, როგორც ყურადღების სირთულის შემცირების საშუალება უფრო გრძელი კონტექსტებისთვის და უფრო სწრაფი დასკვნისთვის. პაპი და სხვ. (2022) იკვლევს დიდი ენობრივი მოდელების გენერაციულ დასკვნის ეფექტურობას TPU-სთვის ოპტიმიზებული მრავალგანზომილებიანი დაყოფის ტექნიკის გამოყენებით, რათა მიაღწიოს პარეტოს საზღვარს ლატენტურობაზე და მოდელის FLOP-ების გამოყენებაზე. ნაშრომი ასევე გვიჩვენებს, რომ მრავალ შეკითხვის ყურადღება საშუალებას იძლევა 32-ჯერ უფრო დიდი კონტექსტის სიგრძის მასშტაბირება, ეფექტურობაზე აქცენტით მაღალი სერიის ზომის პირობებში. გვერდითი ყურადღება (Kwon et al., 2023) აძლიერებს KV ქეშის მეხსიერების მართვას მისი ბლოკებად დაყოფით და ბლოკის ცხრილის გამოყენებით რუკების მიზნებისთვის. ეს მიდგომა ეფექტურად ითვალისწინებს სამუშაო დატვირთვის დინამიურ ცვლას და ამცირებს მეხსიერების შენახვის მოთხოვნებს მოთხოვნის KV ქეშის გაზიარების გზით მრავალ გამომავალი თანმიმდევრობით. თუმცა, ეს არ ამცირებს KV ქეშის მეხსიერების წაკითხვას.

სპეკულაციური გაშიფვრა და მისი ვარიანტები იყენებს უფრო მცირე მონახაზის მოდელს მრავალი თანმიმდევრული ჟეტონების შესთავაზებლად, რომლებიც პარალელურად მუშავდება ძირითადი მოდელის მიერ ასეთი ნიშნების მისაღებად ან უარყოფისთვის (Chen et al., 2023; Leviathan et al., 2022; Li et al., 2024; Cai et al., 2024; Cai et al., 2024; Cai et al., 202; 202, 0. მთავარი იდეა არის მრავალჯერადი ტოკენის გაშიფვრის ჩართვა ყოველ ნაბიჯზე, რითაც ამორტიზდება ძირითადი მოდელის მეხსიერების IO გამოყენება. თუმცა, დეკოდირების შეყოვნება კვლავ დომინირებს KV ქეში I/O გამტარუნარიანობით დიდი კონტექსტური ზომით, სადაც ორმხრივი ყურადღება შეიძლება კიდევ უფრო გაზარდოს დეკოდირების სიჩქარე. მოკლედ, ინკრემენტული დეკოდირება ფოკუსირებულია მოდელის ჩატვირთვის ამორტიზებული მეხსიერების IO-ს შემცირებაზე, ხოლო მრავალ შეკითხვისა და ორმხრივი ყურადღება ამცირებს KV ქეშის მეხსიერების IO-ს.

3. ფონი

3.1. აღნიშვნა

ჩვენ ვიყენებთ შემდეგ აღნიშვნას მთელ ნაშრომში.

3.2. ენის მოდელის დასკვნა

არსებობს მრავალი დასკვნის სცენარი ენის მოდელისთვის, მათ შორის სერიული დასკვნა და ერთი კონტექსტური სერიული შერჩევა (სურათი 1). სერიის დასკვნა ეხება შემთხვევას, როდესაც ჩვენ ვამუშავებთ რამდენიმე შეყვანას ერთად პარტიაში და ვაწარმოებთ შემდგომ ტოკენებს თითოეული სერიული ინდექსისთვის დამოუკიდებლად. იმ შემთხვევაში, როდესაც ჯგუფის ზომა არის 1, ეს მცირდება ერთი კონტექსტის დასკვნამდე. კიდევ ერთი სცენარი არის ერთი კონტექსტის სურათების შერჩევა, სადაც ჩვენ ვქმნით მრავალ თანმიმდევრობას ერთ კონტექსტზე დაყრდნობით, სადაც განსხვავება სერიული დასკვნის შემთხვევას შორის არის ის, რომ წინასწარ შევსება მხოლოდ ერთი კონტექსტისთვის არის საჭირო KV ქეშის მისაღებად, შემდეგ კი გადაიცემა სხვა სერიული ინდექსებზე.

სურათი 1 ასევე ასახავს ენის მოდელის დასკვნის ორ ფაზას: (ა) კონტექსტის კოდირება ან წინასწარ შევსება და (ბ) დამატებითი გაშიფვრა. კონტექსტის დაშიფვრა ეხება ერთი წინ გადასასვლელს, რომელიც ითვლის გასაღებისა და მნიშვნელობის ტენსორებს კონტექსტში ყველა ნიშნის პოზიციისთვის. გასაღებისა და მნიშვნელობის ტენსორების გამოთვლის შემდეგ, ჩვენ ქეშში ჩავდებთ ამ გასაღების და მნიშვნელობის ტენსორებს, რათა გამოიყენონ ყურადღების მექანიზმი დამატებითი დეკოდირების ფაზაში, რომელიც თანმიმდევრულად წარმოქმნის ერთ ჟეტონს [2].

კონტექსტის კოდირების ფაზის დროს, მცურავი წერტილის ოპერაციების რაოდენობა მეხსიერების შეყვანის/გამოსვლის (IO) ოპერაციებთან შედარებით მაღალია, რაც შეესაბამება გამოთვლით შეზღუდულ რეჟიმს, სადაც ლატენტურობაზე გავლენას ახდენს FLOP-ები. თუმცა, დამატებითი დეკოდირების დროს, სადაც ჩვენ ვაქცევთ ყურადღებას ერთი მოთხოვნის ჟეტონზე, ეს ხვდება მეხსიერების შეზღუდულ რეჟიმში, სადაც გამოთვლების რაოდენობა მეხსიერების წვდომაზე არის დაახლოებით 1-დან 1-მდე (იხილეთ დანართი D.1 დეტალებისთვის). მეხსიერების IO ეხება წაკითხვის და ჩაწერის ოპერაციებს მაღალი გამტარუნარიანობის მეხსიერებიდან (HBM) (Jia et al., 2018) ჩიპზე სწრაფ SRAM-მდე, სადაც ხდება ფაქტობრივი გამოთვლა. თვით დამატებითი დეკოდირების მეხსიერების IO შედგება ორი კომპონენტისგან: (1) მოდელის პარამეტრის ჩატვირთვა და (2) KV ქეში ჩატვირთვა. კომპონენტი (1) მუდმივია m კონტექსტის სიგრძისა და b ჯგუფის ზომის მიუხედავად, სადაც კომპონენტი (2) დამოკიდებულია როგორც m-ზე, ასევე b-ზე და დომინირებს მთლიან მეხსიერებაზე IO, თუ m ან b მაღალია, რაც შეიძლება გახდეს მნიშვნელოვანი დასკვნა. ჩვენი სამუშაო ძირითადად ფოკუსირებულია კომპონენტის (2) შემცირებაზე.