Мистецтво сперечатися з самим собою - і чому це робить AI розумнішим

Автори:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Автори:

(1) Корбі Россе, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Аріндам Мітра, Microsoft Research;

(4) Майкл Сантакрос, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research і кореспонденція [email protected].

Таблиця посилань

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Додаток

A Extension to Regularized Preferences

B Detailed Proofs

C Additional Experimental Details

Абстракт

Ці дослідження, що включають в себе ефективні LLM-дослідження, допомагають досліджувати великі мовні моделі (LLM) після підготовки, використовуючи відгуки про перевагу від потужного оракула, щоб допомогти моделі ітеративно покращити над собою. Типовий підхід до досліджень після підготовки LLM включає в себе підсилення навчання з параметричних або параметричних переваг відносин (RLHF), які традиційно відокремлюють винагороду від навчання та подальшої оптимізації політики. Однак такий підхід до максимізації винагороди обмежується природою винагороди з точки зору (наприклад, модель Bradley-Terry), яка не виражає складні параметричні або параметричні переваги. У той час як прогреси на RLHF

1 Введення

Поле штучного інтелекту еволюціонує до передових моделей, які можуть розуміти, міркувати, слідувати складним інструкціям та створювати нюанси контенту, при цьому узгоджуючись з людськими цінностями та уподобаннями. Великі мовні моделі (LLM) (наприклад, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) продемонстрували вражаючі можливості у генеруванні людського тексту, відповіді на питання та кодування, однак вони все ще стикаються з проблемами у завданнях, які вимагають високого ступеня надійності, безпеки та етичного узгодження. Щоб вирішити ці виклики, тонко налаштовані LLM використовують зміцнення навчання з люд

Одна рамка RLHF довго вивчалася в контексті вдосконалення на основі переваг (RL) або RL з людських переваг (наприклад, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Традиційні методи для RLHF зазвичай припускають, що перевага визначається функцією скалярної винагороди за допомогою деякої моделі, наприклад, часто використовуваної моделі Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потім оптимізує до переваги у двоступеневій процедурі: винагорода навчання, максимізація політики (через RL) для максимізації отриманої винагороди. Під певними умова

Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.

Формування максимізації винагороди становить велике обмеження. Функції винагороди, визначені для випуску скалярної оцінки r(x, y) для однієї відповіді y до введення x, не можуть виражати загальні уподобання y y ′, x між парами випусків у всіх випадках, наприклад, неперехідні або циклічні уподобання (Elo, 1978). Отже, LLM, підготовлені під максимізацією винагороди, не можуть завжди узгоджуватися з людськими уподобаннями. Крім того, останні роботи показують, що навіть в умовах, де уподобання можуть бути ідеально виражені під моделями BT на основі винагороди, оптимізація щодо винагороди призводить до проблематичної поведінки; ми

Ми мотивовані для подолання двох окремих проблем: обмежена експресивність RLHF, заснованої на винагороді, і відсутність чіткості щодо того, як розширити оптимізацію по відношенню до загальних уподобань.

Ми пропонуємо перевірений і масштабований алгоритм RLHF - Direct Nash Optimization (DNO) (Алгоритм 1) , який досягає кращого з обох світів, поєднуючи масштабуваність контрастивних цілей з теоретичною надійністю загальної оптимізації уподобань.Пряма оптимізація NashПряма оптимізація Nash

Ми підсумовуємо на високому рівні ключові інгредієнти та уявлення про DNO нижче.

Для того щоб вирішити проблему, що функції винагороди не можуть виражати загальні уподобання, ми використовуємо останні уявлення про те, що поняття винагороди повинно бути виражене як очікуваний відсоток виграшу стосовно функції загальної переваги.[2]

Щоб вирішити проблему, знайдену в попередній роботі, що оптимізує цей загальний об'єкт за допомогою онлайн-алгоритмів Secure, ми розкладаємо навчальну процедуру як послідовність ітерацій «розкладеної на політиці», де кожен крок замість цього оптимізує простий об'єкт регресії.

Щоб вирішити проблему, вибраний об'єкт регресії (вибираємо

Для вирішення питання про те, що функції винагороди не можуть виражати загальні уподобання, ми використовуємо недавні уявлення про те, що поняття винагороди має бути виражене як очікувані виграшні відсотки по відношенню до функції загальних уподобань.[2]

Для вирішення питання про те, що функції винагороди не можуть виражати загальні переваги, ми використовуємо недавні уявлення про те, що поняття винагороди повинно бути виражене як очікувані виграшні ставки щодо функції загальних переваг.[2]

Для вирішення проблеми, виявленої в попередніх роботах, що оптимізація цієї більш загальної мети за допомогою онлайнових алгоритмів є вибірково неефективною або нестабільною, ми розщеплюємо процедуру навчання на послідовність ітерацій "пачок на політиці", де кожен крок замість цього оптимізує простий об'єктив регресії.

Для вирішення проблеми, виявленої в попередніх роботах, що оптимізація цієї більш загальної мети за допомогою онлайн-альгоритмів є неефективною або нестабільною, ми розбиваємо процедуру навчання на послідовність ітерацій "пачка на політиці", де кожен крок замість цього оптимізує простий об'єктив регресії.

Ціль регресії (ми вибираємо бінарну крос-ентропію) узгоджує «внутрішню функцію винагороди» політики з очікуваною швидкістю виграшу порівняно з самим собою (як це визначено у рядку 3 алгоритму 1).

Наша рамка достатньо загальна, щоб допустити позаполітичні зразки в навчання, важливо, ті, які приходять від більш потужного вчителя (Див. вибір μ1 і μ2 в алгоритмі 1).

Наша рамка досить загальна, щоб допустити позаполітичні зразки до навчання, важливо, зразки від більш потужного вчителя (Див. вибір μ1 і μ2 в алгоритмі 1).

Крім того, для забезпечення стабільності та обчислювальної ефективності ми пропонуємо схему фільтрації таким чином, щоб регресія винагороди здійснювалася тільки на парах переваг з достатньо великою маржею (для теоретичного пояснення див. розділ 4; на практиці див. розділ 5.2).Крім того, для забезпечення стабільності та обчислювальної ефективності ми пропонуємо схему фільтрації таким чином, щоб регресія винагороди здійснювалася тільки на парах переваг з достатньо великою маржею (для теоретичного пояснення див. розділ 4; на практиці див. розділ 5.2).

DNO повторює цю процедуру для декількох ітерацій, щоб політика могла оптимізуватися до загальної переваги.Оскільки кожен крок передбачає проблему регресії, її можна легко реалізувати в масштабі.

DNO повторює цю процедуру для декількох ітерацій, щоб політика могла оптимізуватися до загальної переваги.

Оскільки кожен крок передбачає проблему регресії, її можна легко реалізувати в масштабі.

Теоретично, ми доводимо, що DNO збігається з передбаченим рівновагою Наша в середньому, і що він може поліпшуватися монотонно через ітерації (див. розділ 3.1).

З практичної сторони, ми надаємо масштабну реалізацію DNO (Альгоритм 2): ітеративний алгоритм самовдосконалення з контрастивними оновленнями, який наближає Алгоритм 1 під декілька критичних варіантів дизайну. Ці варіанти включають: вибір вибірки декількох онлайн-вихідів з політики, яка навчається, використання GPT-4 як преференційного оракула, порівняння зразків на політиці з власними (викладач) вихідними результатами GPT-4, і навчання тільки на парах з «великим марже» (для теоретичного пояснення див. розділ 4; на практиці див. розділ 5.2).

The primary distinction of our work over related works of Nash-MD (Munos et al., 2023) and SPO (Swamy et al., 2024) is that they both exhibit sample efficiency issues (two timescale updates or sample-inefficient RL steps), and both use purely on-policy samples. We resolve the efficiency issue with a sample-efficient objective that works in practice, and DNO is more flexible to incorporate off-policy samples from e.g., a powerful teacher.

Найголовніше, DNO працює на практиці – ми надаємо комплексні емпіричні оцінки, що призводить до найсучасніших результатів:

• Результатний параметр 7B модель Orca-2.5, вирівнюється за допомогою практичної реалізації DNO (Альгоритм 2), досягає найсучаснішого рівня виграшу будь-якої моделі 7B, що перевищує 33% порівняно з GPT-4-Turbo на AlpacaEval 2.0, навіть після контролю за довжиною. Це понад 26% абсолютний приріст (7%→33%) порівняно з ініціалізованою моделлю.

• Наші ретельні дослідження абляції в розділі 5.2 вивчають критичні дизайнерські точки впливу навколо вибору функції втрати (наглядована фінітунгування або контрастність), парадигми навчання (з зразками на політиці або без них), якості анотаторів переваги (великий марж або ні) та побудови тренувальних пар (самодіяльність, вчитель проти студента тощо).

• Ми показуємо деякі приклади результатів через ітерації, які демонструють якісні поліпшення, такі як краще вирішення нюансових проблем і припущення питань (Таблиця 5), кращу організацію і чіткість при утриманні від розробки хибних тверджень (Таблиця 6), і більш високу щільність інформації у відповідях (Таблиця 7).

Ми сподіваємося, що результати, представлені тут, забезпечать чіткість для спільноти щодо використання зворотного зв'язку AI для пост-тренінгових LLM.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv«Р»

[1] Ми використовуємо «модель винагороди» для позначення структури, яка перетворює переваги на винагороди, наприклад, Бредлі-Террі, тоді як «функція винагороди» є (можливо, навченою) функцією, яка виводить масштаби винагороди.

Мистецтво сперечатися з самим собою - і чому це робить AI розумнішим

Надто довго; Читати

Таблиця посилань

Абстракт

1 Введення

About Author

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

Categories

Trending Topics

Мистецтво сперечатися з самим собою - і чому це робить AI розумнішим

Надто довго; Читати

Таблиця посилань

Абстракт

1 Введення

About Author

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

ПОВ’ЯЗАНІ ІСТОРІЇ

Categories

Trending Topics