385 αναγνώσεις
385 αναγνώσεις

Πώς η αντίθετη μάθηση βοηθά την αυτοβελτίωση

Πολύ μακρύ; Να διαβασω

Αυτή η ενότητα εισάγει το DNO-Prct, μια πρακτική και κλιμακούμενη εφαρμογή της άμεσης βελτιστοποίησης Nash. Εκμεταλλεύεται την επαναληπτική μάθηση αντίθεσης - παρόμοια με το DPO - αλλά έχει σχεδιαστεί για παρτίδα κατάρτισης με γενικές προτιμήσεις. Χρησιμοποιώντας σιωπηρά σήματα ανταμοιβής και δομικές συγκρίσεις σε ζεύγη, το DNO-Prct επιτρέπει την αποτελεσματική αυτοβελτίωση και προσεγγίζει την ισορροπία Nash σε πολύπλοκα μοντέλα προτιμήσεων AI.
featured image - Πώς η αντίθετη μάθηση βοηθά την αυτοβελτίωση
Language Models (dot tech) HackerNoon profile picture
0-item

Οι συγγραφείς:

(1) Corby Rosset, Microsoft Research και Αλληλογραφία στο [email protected]

(2) Ching-An Cheng, Έρευνα της Microsoft

Αρίνταμ Μίτρα, Microsoft Research

Michael Santacroce, Microsoft Research

(5) Ahmed Awadallah, Έρευνα της Microsoft και αλληλογραφία στο [email protected]

(6) Tengyang Xie, Microsoft Research και Αλληλογραφία στο [email protected].

Authors:

(1) Corby Rosset, Microsoft Research και Αλληλογραφία στο [email protected]

(2) Ching-An Cheng, Έρευνα της Microsoft

Αρίνταμ Μίτρα, Microsoft Research

Michael Santacroce, Microsoft Research

(5) Ahmed Awadallah, Έρευνα της Microsoft και αλληλογραφία στο [email protected]

(6) Tengyang Xie, Microsoft Research και Αλληλογραφία στο [email protected].

ΠΕΡΙΕΧΟΜΕΝΑ ΚΑΙ 1 ΕΙΣΑΓΩΓΗ

2 Προκαταρκτικές

2.1 RLHF με βάση τα μοντέλα ανταμοιβής

2.2 RLHF με γενικές προτιμήσεις

3 Άμεση βελτιστοποίηση Nash και 3.1 παράγωγος αλγορίθμου 1

3.2 Θεωρητική ανάλυση

4 Πρακτικός Αλγόριθμος – Επαναληπτική Αντίθετη Αυτοβελτίωση

5 Πειράματα και 5.1 Πειραματική εγκατάσταση

5.2 Αποτελέσματα και ανάλυση

6 Σχετικές εργασίες

7 Conclusion and References


Appendix

Επέκταση των ρυθμιζόμενων προτιμήσεων

β) Λεπτομερείς αποδείξεις

Γ) Πρόσθετες πειραματικές λεπτομέρειες

4 Πρακτικός Αλγόριθμος – Επαναληπτική Αντίθετη Αυτοβελτίωση

Σε αυτή την ενότητα, μετατοπίζουμε την εστίασή μας στο αλγοριθμικό σχεδιασμό της πρακτικά επεκτάσιμης έκδοσης του DNO, ακολουθώντας τις αρχές που συζητήθηκαν στην τελευταία ενότητα. Μια πρωταρχική πρόκληση που συναντάμε στην εφαρμογή του εννοιολογικού αλγορίθμου DNO (αλγόριθμος 1) προέρχεται από την ανάγκη να υπολογιστεί η προσδοκία σε σχέση με τη συνάρτηση προτίμησης P κάτω από την τρέχουσα πολιτική πt.


Παρουσιάζουμε την πρακτική εφαρμογή του DNO στο αλγόριθμο 2 (DNO-Prct), ο οποίος είναι ένας αλγόριθμος παρτίδας πολιτικής που διεξάγει αυτοβελτίωση επαναληπτικά μέσω της αντίθετης μάθησης. Ένας βασικός παράγοντας στο αλγόριθμο σχεδιασμού μας είναι ότι πρέπει μόνο να χρησιμοποιήσουμε σιωπηρά τη λειτουργία ανταμοιβής rt. Αυτό προέρχεται από την ειδικά σχεδιασμένη δειγματοληψία πολιτικής, το φιλτράρισμα δεδομένων και την οικοδόμηση ζευγαριών. Ενώ αυτές οι συγκεκριμένες επιλογές σχεδιασμού κάνουν το DNO-Prct να φαίνεται παρόμοιο με την απλή εκτέλεση DPO επαναληπτικά, υπάρχουν σημαντικοί λόγοι για αυτές τις αποφάσεις σχεδιασμού, όπως θα συζητήσουμε





Relationship betweenΔΝΟ ΠΡΤandΟ αναγνώστης μπορεί να διακρίνει ότι το DNO-Prct (Αλγόριθμος 2) – η πρακτική εφαρμογή του DNO – μπορεί να περιγραφεί ως μια επαναληπτική έκδοση του αλγόριθμου DPO. Μια τέτοια ομοιότητα είναι από το σχεδιασμό, με στόχο να αξιοποιήσει την απλότητα και την αποτελεσματικότητα του DPO (Rafailov et al., 2023) και να βασιστεί σε εμπειρικές εξελίξεις από πρόσφατη εργασία που εφαρμόζει το DPO επαναληπτικά (π.χ., Yuan et al., 2024; Tran et al., 2024). Τα πειράματά μας επισημαίνουν τη σημασία αρκετών επιλογών σχεδιασμού που βοηθούν να ικανοποιήσουν τις γενικές προτιμήσεις, όπως οι βαθμολογίες που προέρχονται από τα ποσοστά«Ένα λεπτομερώς σχεδιασμένο iterative DPO Ο αλγόριθμος μπορεί να προσεγγίσει την ισορροπία Nash οποιωνδήποτε δεδομένων γενικών προτιμήσεων.

«Ένα λεπτομερώς σχεδιασμένο iterativeΟ αλγόριθμος μπορεί να προσεγγίσει την ισορροπία Nash οποιωνδήποτε δεδομένων γενικών προτιμήσεων.


Για παράδειγμα, το πλαίσιο DNO θα μπορούσε επίσης να επεκταθεί άμεσα στην κανονικοποιημένη περίπτωση προτίμησης (όπως συζητήθηκε στο Παράρτημα Α) ή να εξοπλιστεί με άλλες προηγμένες τεχνικές δειγματοληψίας (π.χ., Liu et al., 2024b, RSO) όπως προτείνεται από το Θεωρητικό 1 για την αποτελεσματικότητα δειγματοληψίας. Από την άλλη πλευρά, αν και η soft policy iteration (ή η KL-regularized reward optimization) χρησιμοποιείται τόσο στο DNO όσο και στο DPO, προκύπτουν από θεμελιωδώς διαφορετικούς λόγους.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


προέρχεται από την ηλεκτρονική μάθηση, μη λυπημένη μάθηση μέσω καθρέφτη (Nemirovskij και Yudin, 1983) ή followthe-regularized-leader (FTRL) (Kalai και Vempala, 2005; Cesa-Bianchi και Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Για DPO και PPO, η KL-regularization είναι μια προσέγγιση για τη συνολική ποινή μεταβλητότητας για να εξασφαλιστεί η μονότονη βελτίωση της πολιτικής (Kakade και Langford, 2002; Schulman et al., 2015). Αργότερα, αυτή η προσέγγιση απλοποιήθηκε από Schulman et al. (2017, PPO), και πρόσφατα χρησιμοποιήθηκε για μετα-εκπαίδευση LLMs (Ouy


Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.

Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks