Συγγραφείς:
(1) Ben Athiwaratkun, AWS AI Labs.
(2) Sujan Kumar Gonugondla, AWS AI Labs.
(3) Sanjay Krishna Gouda, AWS AI Labs.
(4) Haifeng Qian, AWS AI Labs.
(5) Sanjay Krishna Gouda, AWS AI Labs.
(6) Hantian Ding, AWS AI Labs.
(7) Qing Sun, AWS AI Labs.
(8) Jun Wang, AWS AI Labs.
(9) Jiacheng Guo, AWS AI Labs.
(10 Liangfu Chen, AWS AI Labs.
(11) Parminder Bhatia, GE HealthCare (εργασία που έγινε στην AWS).
(12) Ramesh Nallapati, Amazon AGI (εργασία που έγινε στην AWS).
(13) Sudipta Sengupta, AWS AI Labs.
(14) Bing Xiang, Goldman Sachs (εργασία που έγινε στην AWS).
Πίνακας συνδέσμων
3.1. Σημειογραφία και 3.2. Συμπέρασμα μοντέλου γλώσσας
3.3. Multi-Query, Multi-Head and the Generalized Multi-Query Attention
4. Διχοτομημένη προσοχή με επίγνωση του περιβάλλοντος και 4.1. Κίνητρο
4.2. Σκεύασμα και 4.3. Πολυπλοκότητα IO μνήμης
5.1. Σύγκριση Δυνατοτήτων Multi-Head, Multi-Query και Multi-Group Attention
5.2. Latencies of Capabilities-Iquivalent Models
Δ. Πολυομαδική Οικογένεια Προσοχής
Ε. Διχοτομημένη προσοχή με επίγνωση του πλαισίου
ΣΤ. Εφαρμογές: Πρόσθετα αποτελέσματα
Ζ. Συμβατότητα με τεχνικές κερδοσκοπικής αποκωδικοποίησης και γρήγορης αποκωδικοποίησης
Β. Σχετικές εργασίες
Β.1. Εφαρμογές δειγματοληψίας παρτίδας ενός πλαισίου
Η παρατηρούμενη μείωση της καθυστέρησης που επιτυγχάνουμε μπορεί να έχει βαθύ αντίκτυπο σε πολλές εφαρμογές. Μερικές από αυτές τις εφαρμογές περιλαμβάνουν:
• Δημιουργία κώδικα: Στην ανάπτυξη λογισμικού, η δημιουργία κώδικα με τη βοήθεια τεχνητής νοημοσύνης μπορεί να ωφεληθεί πολύ από τη μειωμένη καθυστέρηση, ειδικά κατά τη δημιουργία πολλαπλών αποσπασμάτων κώδικα ή προτάσεων για ένα δεδομένο περιβάλλον. Αυτό μπορεί να οδηγήσει σε μια πιο αποκριτική και αποτελεσματική εμπειρία χρήστη για προγραμματιστές που χρησιμοποιούν Ολοκληρωμένα Περιβάλλοντα Ανάπτυξης (IDEs) ή εργαλεία συμπλήρωσης κώδικα (Nijkamp et al., 2023; 2022; Chen et al., 2021; Le et al., 2022; Fried 202, All. et al., 2023; Li et al., 2023; Ahmad et al., 2021).
• Μηχανική Μετάφραση: Σε περιπτώσεις όπου απαιτούνται πολλαπλές μεταφράσεις για μία μόνο εισαγωγή, όπως η δημιουργία μεταφράσεων με διάφορους βαθμούς τυπικότητας ή η δημιουργία μεταφράσεων για διαφορετικές διαλέκτους, η διχαλωτή προσοχή με επίγνωση του περιβάλλοντος μπορεί να παρέχει πιο αποτελεσματικό υπολογισμό, με αποτέλεσμα ταχύτερες και πιο επεκτάσιμες υπηρεσίες αυτόματης μετάφρασης (Costajussà et al., 20et2, Farhadet2, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20). al., 2021; Yee et al., 2019).
• Chatbots και Conversational AI: Οι συνομιλητές πρέπει συχνά να δημιουργούν πολλαπλές απαντήσεις για να χειρίζονται διαφορετικές ερμηνείες των εισροών ενός χρήστη ή να παρέχουν πολλαπλές προτάσεις. Η μειωμένη καθυστέρηση που προσφέρει η προτεινόμενη μέθοδος μπορεί να βελτιώσει σημαντικά την ανταπόκριση των chatbot, οδηγώντας σε μια πιο φυσική και ρευστή συνομιλία με τους χρήστες (Google, 2023).
• Δημιουργία δημιουργικού περιεχομένου: Σε εφαρμογές όπως η δημιουργία ποίησης, ιστορίας ή διαφήμισης, η δυνατότητα δημιουργίας πολλαπλών παραλλαγών για ένα δεδομένο μήνυμα είναι ζωτικής σημασίας. Η προτεινόμενη μέθοδος επιτρέπει την πιο αποτελεσματική παραγωγή διαφορετικού περιεχομένου, καθιστώντας την πιο εφικτή για εφαρμογές σε πραγματικό χρόνο ή μεγάλης κλίμακας (Lin and Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).
• Επαύξηση δεδομένων: Στο πλαίσιο της αύξησης δεδομένων για μηχανική μάθηση, η δημιουργία πολλαπλών εναλλακτικών παραδειγμάτων για μια δεδομένη είσοδο μπορεί να συμβάλει στη βελτίωση της ευρωστίας και της γενίκευσης του μοντέλου. Με τον μειωμένο λανθάνοντα χρόνο που παρέχεται από τη διχασμένη προσοχή με επίγνωση του περιβάλλοντος, η διαδικασία δημιουργίας επαυξημένων δεδομένων μπορεί να γίνει πιο γρήγορη, επιτρέποντας την αποτελεσματικότερη χρήση των υπολογιστικών πόρων κατά τη διάρκεια της εκπαίδευσης.
• Γενική Αξιολόγηση Μεγάλης Κλίμακας: Εκτός από τις προαναφερθείσες περιπτώσεις χρήσης, υπάρχουν πολλές εξειδικευμένες περιπτώσεις χρήσης όπου το LLM και άλλα μοντέλα παραγωγής ανοιχτού τύπου διερευνώνται για τοξικότητα (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al., 20202-202 με δυνατότητα ανίχνευσης κωδικών παραγωγής LLM et al. al., 2022), δημιουργία επεξεργασίας κώδικα που βελτιώνει την απόδοση (Madaan et al., 2023), μεταφράσεις γλωσσών προγραμματισμού (Roziere et al., 2020) και πολλά άλλα. Σε όλα αυτά τα σενάρια συγκεντρώνονται πολλές γενιές ανά προτροπή για μια βαθύτερη κατανόηση των μοντέλων, η διχοτόμηση προσοχής μπορεί να επιταχύνει δραστικά τη διαδικασία παραγωγής σε τέτοιες περιπτώσεις.
Συμπερασματικά, η προτεινόμενη μέθοδος δισχιδής προσοχής με επίγνωση του περιβάλλοντος μπορεί να μειώσει σημαντικά το κόστος I/O της μνήμης και να βελτιώσει την καθυστέρηση σε διάφορες εφαρμογές, οδηγώντας σε αυξημένη απόδοση και επεκτασιμότητα. Αυτή η μέθοδος έχει τη δυνατότητα να ενεργοποιήσει νέες περιπτώσεις χρήσης και να βελτιώσει την εμπειρία του χρήστη σε πολυάριθμα συστήματα που λειτουργούν με τεχνητή νοημοσύνη, καθιστώντας τα πιο πρακτικά για ανάπτυξη σε πραγματικό κόσμο.
Β.2. Η υποστήριξη Long Context Απαιτεί IO-Efficient Attention
Καθώς τα γλωσσικά μοντέλα γίνονται γενικού σκοπού και πολύ ικανά, η ζήτηση για γλωσσικά μοντέλα που χειρίζονται μεγαλύτερες αλληλουχίες περιβάλλοντος έχει αυξηθεί σημαντικά. Πρόσφατα, υπάρχει μια συνεχής εστίαση σε μοντέλα που μπορούν να χειριστούν ακόμη μεγαλύτερες ακολουθίες περιβάλλοντος (Bulatov et al., 2023; OpenAI, 2023; Team, 2023). Από σήμερα, το GPT-4 (OpenAI, 2023) υποστηρίζει μήκος περιβάλλοντος 32k token και το MPT-7B (Team, 2023) το επεκτείνει στα 64k ενώ το Claude του Anthropic [3] υποστηρίζει μήκος εισόδου έως και 100k. Πιο πρόσφατα, οι Bulatov et al πρότειναν μήκος περιβάλλοντος εισόδου διακριτικού 1M για μετασχηματιστές. Αυτά τα μοντέλα πιέζουν τα όρια της κατανόησης του πλαισίου και των δυνατοτήτων παραγωγής, επιτρέποντας πιο ολοκληρωμένη κατανόηση του λόγου και απαντήσεις με βάση τα συμφραζόμενα.
Αυτή η τάση καθοδηγείται από την ανάγκη για ολοκληρωμένη κατανόηση του λόγου σε εφαρμογές όπως το Retrieval-Augmented Generation (RAG), καθώς και από πολλές πολύπλοκες μεθόδους προτροπής. Εφαρμογές όπως το RAG (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022) ανακτούν εκτεταμένα αποσπάσματα ή έγγραφα από εξωτερικά σώματα, παρέχοντας πλούσιο και θεμελιωμένο πλαίσιο για τη δημιουργία απαντήσεων. Επιπλέον, μοντέλα όπως το Toolformer (Schick et al., 2023) και το WebGPT (Nakano et al., 2021) αξιοποιούν εξωτερικά εργαλεία, όπως API και μηχανές αναζήτησης, για να επεκτείνουν το περιβάλλον και να βελτιώσουν τη δημιουργία.
Το μακρύ πλαίσιο είναι δυσανάλογα ακριβό για τα μοντέλα οικογένειας μετασχηματιστών, επειδή για την αυτοπροσοχή στη βανίλια τόσο η μνήμη όσο και η πολυπλοκότητα του χρόνου είναι τετραγωνικά ως προς το μήκος της ακολουθίας. Για τον αποτελεσματικό χειρισμό μακρύτερων ακολουθιών περιβάλλοντος, η βελτιστοποίηση I/O της μνήμης και η μείωση των υπολογιστικών επιβαρύνσεων είναι κρίσιμης σημασίας. Επί του παρόντος, οι κυρίαρχες προσεγγίσεις για την αντιμετώπιση αυτής της πρόκλησης ήταν να γίνει λιγότερο δαπανηρός ο υπολογισμός της προσοχής. Οι Beltagy et al. (2020) πρότεινε να αραιωθεί η αυτοπροσοχή χρησιμοποιώντας διάφορα μοτίβα προσοχής. Οι Wang et al. (2020) διερευνά χαμηλής βαθμίδας προσέγγιση της αυτοπροσοχής. Εκτός από τις βελτιώσεις του δεσμευμένου υπολογισμού, οι εξελίξεις σε μηχανισμούς προσοχής με απόδοση μνήμης και τεχνικές για τη μείωση της I/O της μνήμης θα συνεχίσουν να προωθούν το πεδίο προς τα εμπρός, διευκολύνοντας τον χειρισμό μακρύτερων ακολουθιών περιβάλλοντος σε γλωσσικά μοντέλα. Το FlashAttention (Dao et al., 2022) προτείνεται για την επιτάχυνση της αυτοπροσοχής και τη μείωση του αποτυπώματος μνήμης χωρίς καμία προσέγγιση. Αξιοποιεί τον συντηγμένο πυρήνα για πολλαπλασιασμό μήτρας και λειτουργία softmax που μειώνει σημαντικά την IO μνήμης κατά τη διάρκεια της προπόνησης.
Αυτό το χαρτί είναι διαθέσιμο στο arxiv με άδεια CC BY 4.0 DEED.
[3] https://www.anthropic.com/index/100k-context-windows