Автори:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Автори:
Автори:(1) Корбі Россе, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Аріндам Мітра, Microsoft Research;
(4) Майкл Сантакрос, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research і кореспонденція [email protected].
Таблиця посилань
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Додаток
ДодатокA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental DetailsАбстракт
Ці дослідження, що включають в себе ефективні LLM-дослідження, допомагають досліджувати великі мовні моделі (LLM) після підготовки, використовуючи відгуки про перевагу від потужного оракула, щоб допомогти моделі ітеративно покращити над собою. Типовий підхід до досліджень після підготовки LLM включає в себе підсилення навчання з параметричних або параметричних переваг відносин (RLHF), які традиційно відокремлюють винагороду від навчання та подальшої оптимізації політики. Однак такий підхід до максимізації винагороди обмежується природою винагороди з точки зору (наприклад, модель Bradley-Terry), яка не виражає складні параметричні або параметричні переваги. У той час як прогреси на RLHF
1 Введення
Поле штучного інтелекту еволюціонує до передових моделей, які можуть розуміти, міркувати, слідувати складним інструкціям та створювати нюанси контенту, при цьому узгоджуючись з людськими цінностями та уподобаннями. Великі мовні моделі (LLM) (наприклад, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) продемонстрували вражаючі можливості у генеруванні людського тексту, відповіді на питання та кодування, однак вони все ще стикаються з проблемами у завданнях, які вимагають високого ступеня надійності, безпеки та етичного узгодження. Щоб вирішити ці виклики, тонко налаштовані LLM використовують зміцнення навчання з люд
Одна рамка RLHF довго вивчалася в контексті вдосконалення на основі переваг (RL) або RL з людських переваг (наприклад, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Традиційні методи для RLHF зазвичай припускають, що перевага визначається функцією скалярної винагороди за допомогою деякої моделі, наприклад, часто використовуваної моделі Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потім оптимізує до переваги у двоступеневій процедурі: винагорода навчання, максимізація політики (через RL) для максимізації отриманої винагороди. Під певними умова
Формування максимізації винагороди становить велике обмеження. Функції винагороди, визначені для випуску скалярної оцінки r(x, y) для однієї відповіді y до введення x, не можуть виражати загальні уподобання y y ′, x між парами випусків у всіх випадках, наприклад, неперехідні або циклічні уподобання (Elo, 1978). Отже, LLM, підготовлені під максимізацією винагороди, не можуть завжди узгоджуватися з людськими уподобаннями. Крім того, останні роботи показують, що навіть в умовах, де уподобання можуть бути ідеально виражені під моделями BT на основі винагороди, оптимізація щодо винагороди призводить до проблематичної поведінки; ми
Ми мотивовані для подолання двох окремих проблем: обмежена експресивність RLHF, заснованої на винагороді, і відсутність чіткості щодо того, як розширити оптимізацію по відношенню до загальних уподобань.
Ми пропонуємо перевірений і масштабований алгоритм RLHF - Direct Nash Optimization (DNO) (Алгоритм 1) , який досягає кращого з обох світів, поєднуючи масштабуваність контрастивних цілей з теоретичною надійністю загальної оптимізації уподобань.Пряма оптимізація NashПряма оптимізація Nash
Ми підсумовуємо на високому рівні ключові інгредієнти та уявлення про DNO нижче.
Для вирішення питання про те, що функції винагороди не можуть виражати загальні уподобання, ми використовуємо недавні уявлення про те, що поняття винагороди має бути виражене як очікувані виграшні відсотки по відношенню до функції загальних уподобань.[2]
Для вирішення питання про те, що функції винагороди не можуть виражати загальні переваги, ми використовуємо недавні уявлення про те, що поняття винагороди повинно бути виражене як очікувані виграшні ставки щодо функції загальних переваг.[2]
Для вирішення проблеми, виявленої в попередніх роботах, що оптимізація цієї більш загальної мети за допомогою онлайнових алгоритмів є вибірково неефективною або нестабільною, ми розщеплюємо процедуру навчання на послідовність ітерацій "пачок на політиці", де кожен крок замість цього оптимізує простий об'єктив регресії.
Для вирішення проблеми, виявленої в попередніх роботах, що оптимізація цієї більш загальної мети за допомогою онлайн-альгоритмів є неефективною або нестабільною, ми розбиваємо процедуру навчання на послідовність ітерацій "пачка на політиці", де кожен крок замість цього оптимізує простий об'єктив регресії.
Ціль регресії (ми вибираємо бінарну крос-ентропію) узгоджує «внутрішню функцію винагороди» політики з очікуваною швидкістю виграшу порівняно з самим собою (як це визначено у рядку 3 алгоритму 1).
Ціль регресії (ми вибираємо бінарну крос-ентропію) узгоджує «внутрішню функцію винагороди» політики з очікуваною швидкістю виграшу порівняно з самим собою (як це визначено у рядку 3 алгоритму 1).
Наша рамка достатньо загальна, щоб допустити позаполітичні зразки в навчання, важливо, ті, які приходять від більш потужного вчителя (Див. вибір μ1 і μ2 в алгоритмі 1).
Наша рамка досить загальна, щоб допустити позаполітичні зразки до навчання, важливо, зразки від більш потужного вчителя (Див. вибір μ1 і μ2 в алгоритмі 1).
DNO повторює цю процедуру для декількох ітерацій, щоб політика могла оптимізуватися до загальної переваги.Оскільки кожен крок передбачає проблему регресії, її можна легко реалізувати в масштабі.
DNO повторює цю процедуру для декількох ітерацій, щоб політика могла оптимізуватися до загальної переваги.
Оскільки кожен крок передбачає проблему регресії, її можна легко реалізувати в масштабі.
Теоретично, ми доводимо, що DNO збігається з передбаченим рівновагою Наша в середньому, і що він може поліпшуватися монотонно через ітерації (див. розділ 3.1).
The primary distinction of our work over related works of Nash-MD (Munos et al., 2023) and SPO (Swamy et al., 2024) is that they both exhibit sample efficiency issues (two timescale updates or sample-inefficient RL steps), and both use purely on-policy samples. We resolve the efficiency issue with a sample-efficient objective that works in practice, and DNO is more flexible to incorporate off-policy samples from e.g., a powerful teacher.
Найголовніше, DNO працює на практиці – ми надаємо комплексні емпіричні оцінки, що призводить до найсучасніших результатів:
• Результатний параметр 7B модель Orca-2.5, вирівнюється за допомогою практичної реалізації DNO (Альгоритм 2), досягає найсучаснішого рівня виграшу будь-якої моделі 7B, що перевищує 33% порівняно з GPT-4-Turbo на AlpacaEval 2.0, навіть після контролю за довжиною. Це понад 26% абсолютний приріст (7%→33%) порівняно з ініціалізованою моделлю.
• Наші ретельні дослідження абляції в розділі 5.2 вивчають критичні дизайнерські точки впливу навколо вибору функції втрати (наглядована фінітунгування або контрастність), парадигми навчання (з зразками на політиці або без них), якості анотаторів переваги (великий марж або ні) та побудови тренувальних пар (самодіяльність, вчитель проти студента тощо).
• Ми показуємо деякі приклади результатів через ітерації, які демонструють якісні поліпшення, такі як краще вирішення нюансових проблем і припущення питань (Таблиця 5), кращу організацію і чіткість при утриманні від розробки хибних тверджень (Таблиця 6), і більш високу щільність інформації у відповідях (Таблиця 7).
Ми сподіваємося, що результати, представлені тут, забезпечать чіткість для спільноти щодо використання зворотного зв'язку AI для пост-тренінгових LLM.
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv«Р»[1] Ми використовуємо «модель винагороди» для позначення структури, яка перетворює переваги на винагороди, наприклад, Бредлі-Террі, тоді як «функція винагороди» є (можливо, навченою) функцією, яка виводить масштаби винагороди.