Οι συγγραφείς:
(1) Corby Rosset, Microsoft Research και Αλληλογραφία στο [email protected]
(2) Ching-An Cheng, Έρευνα της Microsoft
Αρίνταμ Μίτρα, Microsoft Research
Michael Santacroce, Microsoft Research
(5) Ahmed Awadallah, Έρευνα της Microsoft και αλληλογραφία στο [email protected]
(6) Tengyang Xie, Microsoft Research και Αλληλογραφία στο [email protected].
Authors:
(1) Corby Rosset, Microsoft Research και Αλληλογραφία στο [email protected]
(2) Ching-An Cheng, Έρευνα της Microsoft
Αρίνταμ Μίτρα, Microsoft Research
Michael Santacroce, Microsoft Research
(5) Ahmed Awadallah, Έρευνα της Microsoft και αλληλογραφία στο [email protected]
(6) Tengyang Xie, Microsoft Research και Αλληλογραφία στο [email protected].
Το τραπέζι της Αριστεράς
2.1 RLHF με βάση τα μοντέλα ανταμοιβής
2.2 RLHF με γενικές προτιμήσεις
3 Άμεση βελτιστοποίηση Nash και 3.1 παράγωγος αλγορίθμου 1
4 Πρακτικός Αλγόριθμος – Επαναληπτική Αντίθετη Αυτοβελτίωση
5 Πειράματα και 5.1 Πειραματική εγκατάσταση
Appendix
Επέκταση των ρυθμιζόμενων προτιμήσεων
Γ) Πρόσθετες πειραματικές λεπτομέρειες
4 Πρακτικός Αλγόριθμος – Επαναληπτική Αντίθετη Αυτοβελτίωση
Σε αυτή την ενότητα, μετατοπίζουμε την εστίασή μας στο αλγοριθμικό σχεδιασμό της πρακτικά επεκτάσιμης έκδοσης του DNO, ακολουθώντας τις αρχές που συζητήθηκαν στην τελευταία ενότητα. Μια πρωταρχική πρόκληση που συναντάμε στην εφαρμογή του εννοιολογικού αλγορίθμου DNO (αλγόριθμος 1) προέρχεται από την ανάγκη να υπολογιστεί η προσδοκία σε σχέση με τη συνάρτηση προτίμησης P κάτω από την τρέχουσα πολιτική πt.
Παρουσιάζουμε την πρακτική εφαρμογή του DNO στο αλγόριθμο 2 (DNO-Prct), ο οποίος είναι ένας αλγόριθμος παρτίδας πολιτικής που διεξάγει αυτοβελτίωση επαναληπτικά μέσω της αντίθετης μάθησης. Ένας βασικός παράγοντας στο αλγόριθμο σχεδιασμού μας είναι ότι πρέπει μόνο να χρησιμοποιήσουμε σιωπηρά τη λειτουργία ανταμοιβής rt. Αυτό προέρχεται από την ειδικά σχεδιασμένη δειγματοληψία πολιτικής, το φιλτράρισμα δεδομένων και την οικοδόμηση ζευγαριών. Ενώ αυτές οι συγκεκριμένες επιλογές σχεδιασμού κάνουν το DNO-Prct να φαίνεται παρόμοιο με την απλή εκτέλεση DPO επαναληπτικά, υπάρχουν σημαντικοί λόγοι για αυτές τις αποφάσεις σχεδιασμού, όπως θα συζητήσουμε
Relationship betweenΔΝΟ ΠΡΤandΟ αναγνώστης μπορεί να διακρίνει ότι το DNO-Prct (Αλγόριθμος 2) – η πρακτική εφαρμογή του DNO – μπορεί να περιγραφεί ως μια επαναληπτική έκδοση του αλγόριθμου DPO. Μια τέτοια ομοιότητα είναι από το σχεδιασμό, με στόχο να αξιοποιήσει την απλότητα και την αποτελεσματικότητα του DPO (Rafailov et al., 2023) και να βασιστεί σε εμπειρικές εξελίξεις από πρόσφατη εργασία που εφαρμόζει το DPO επαναληπτικά (π.χ., Yuan et al., 2024; Tran et al., 2024). Τα πειράματά μας επισημαίνουν τη σημασία αρκετών επιλογών σχεδιασμού που βοηθούν να ικανοποιήσουν τις γενικές προτιμήσεις, όπως οι βαθμολογίες που προέρχονται από τα ποσοστά«Ένα λεπτομερώς σχεδιασμένο iterative DPO Ο αλγόριθμος μπορεί να προσεγγίσει την ισορροπία Nash οποιωνδήποτε δεδομένων γενικών προτιμήσεων.
«Ένα λεπτομερώς σχεδιασμένο iterativeΟ αλγόριθμος μπορεί να προσεγγίσει την ισορροπία Nash οποιωνδήποτε δεδομένων γενικών προτιμήσεων.
Για παράδειγμα, το πλαίσιο DNO θα μπορούσε επίσης να επεκταθεί άμεσα στην κανονικοποιημένη περίπτωση προτίμησης (όπως συζητήθηκε στο Παράρτημα Α) ή να εξοπλιστεί με άλλες προηγμένες τεχνικές δειγματοληψίας (π.χ., Liu et al., 2024b, RSO) όπως προτείνεται από το Θεωρητικό 1 για την αποτελεσματικότητα δειγματοληψίας. Από την άλλη πλευρά, αν και η soft policy iteration (ή η KL-regularized reward optimization) χρησιμοποιείται τόσο στο DNO όσο και στο DPO, προκύπτουν από θεμελιωδώς διαφορετικούς λόγους.
προέρχεται από την ηλεκτρονική μάθηση, μη λυπημένη μάθηση μέσω καθρέφτη (Nemirovskij και Yudin, 1983) ή followthe-regularized-leader (FTRL) (Kalai και Vempala, 2005; Cesa-Bianchi και Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Για DPO και PPO, η KL-regularization είναι μια προσέγγιση για τη συνολική ποινή μεταβλητότητας για να εξασφαλιστεί η μονότονη βελτίωση της πολιτικής (Kakade και Langford, 2002; Schulman et al., 2015). Αργότερα, αυτή η προσέγγιση απλοποιήθηκε από Schulman et al. (2017, PPO), και πρόσφατα χρησιμοποιήθηκε για μετα-εκπαίδευση LLMs (Ouy
Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.
Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0 DEED.