The Art of Arguing With Yourself—And Why It’s Making AI Smarter

Автори :

Corby Rosset, Microsoft Research and Correspondence на адресу [email protected];

(2) Чінг-Ан Ченг, Microsoft Research;

Аріндам Мітра, Microsoft Research

Майкл Сантакрос, Microsoft Research

(5) Ahmed Awadallah, Microsoft Research and Correspondence на адресу [email protected];

(6) Tengyang Xie, Microsoft Research і кореспонденція [email protected].

Authors:

Corby Rosset, Microsoft Research and Correspondence на адресу [email protected];

(2) Чінг-Ан Ченг, Microsoft Research;

Аріндам Мітра, Microsoft Research

Майкл Сантакрос, Microsoft Research

(5) Ahmed Awadallah, Microsoft Research and Correspondence на адресу [email protected];

(6) Tengyang Xie, Microsoft Research і кореспонденція [email protected].

Лівий стіл

Абстракт і 1 введення

2 Попередні

2.1 RLHF на основі моделей винагороди

2.2 RLHF з загальними преференціями

3 Пряма оптимізація Nash і 3.1 Виведення алгоритму 1

3.2 Теоретичний аналіз

4 Практичний алгоритм – Ітеративне контрастиве самовдосконалення

5 Експерименти та експериментальна установка 5.1

5.2 Результати та аналіз

6 Зв'язана робота

7 Висновки та посилання

Appendix

Розширення до регульованих преференцій

Б. Детальні докази

C Додаткові експериментальні деталі

абстрактні

У цьому дослідженні, пов'язаному з вивченням великих мовних моделей (LLMs) за допомогою відгуків від переваг від потужного оракула, використовуються довгострокові дослідження, пов'язані з вивченням великих мовних моделей (LLMs), які традиційно відокремлюють вивчення винагороди та подальшу оптимізацію політики. Однак такий підхід до максимізації винагороди обмежується природою винагороди "точками" (наприклад, у моделі Бредлі-Террі), який не виражає складні параметри інтратрансивних або параметричних параметрів переваг. У той час як прогреси на RLHF традиційно відображають об'єктивне навчання та оптимізацію політики. Однак такий підхід до максимізації винагороди обме

1 Введення

Область штучного інтелекту еволюціонує до передових моделей, які можуть розуміти, міркувати, слідувати складним інструкціям та створювати нюанси контенту, при цьому узгоджуючись з людськими цінностями та уподобаннями. Великі мовні моделі (LLM) (наприклад, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) продемонстрували вражаючі можливості у генеруванні людського тексту, відповіді на питання та кодування, однак вони все ще стикаються з проблемами у завданнях, які вимагають високого ступеня надійності, безпеки та етичного узгодження. Щоб вирішити ці проблеми, тонко налаштовані LLM використовують зміцнення навчання з людських відгуків

RLHF рамки без рамки вже давно вивчені в контексті переваги на основі зміцнення навчання (RL) або RL з людських уподобань (наприклад, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Конвенціональні методи для RLHF зазвичай припускають, що перевага визначається функцією скалярної винагороди через деяку модель, наприклад, часто використовувану модель Bradley-Terry (BT) (Bradley and Terry, 1952).[1] RLHF потім оптимізує до переваги в двоступеневій процедурі: винагорода навчання, політика оптимізації (через RL) для максимізації отриманої винагороди. Під певними умовами, двоступе

Функції винагороди, визначені для випуску скалярної оцінки r(x, y) для однієї відповіді y до введення x, не можуть виражати загальні уподобання y y ′ḳ x між парами випусків у всіх випадках, наприклад, неперехідні або циклічні уподобання (Elo, 1978). Отже, LLM, підготовлені під максимізацією винагороди, не можуть завжди узгоджуватися з людськими уподобаннями. Крім того, останні роботи показують, що навіть в умовах, де уподобання можуть бути ідеально виражені під моделями BT на основі винагороди, оптимізація щодо винагороди призводить до проблемної поведінки; ми читаємо доповідь до Bertrand et al. (2023); Azar et al. (20

Ми мотивовані для подолання двох окремих проблем: обмежена експресивність RLHF, заснованої на винагороді, і відсутність чіткості щодо того, як розширити оптимізацію по відношенню до загальних уподобань.

Ми пропонуємо перевірений і масштабований алгоритм RLHF -Пряма оптимізація Nash(DNO) (Альгоритм 1) який досягає найкращого з обох світів, поєднуючи масштабуваність контрастних цілей з теоретичною надійністю загальної оптимізації уподобань. DNO розроблений як алгоритм на партійній основі з об'єктом навчання на основі регресії; цей вибір дизайну робить DNO стабільним і масштабуваним, досягаючи балансу між ефективністю розгортання та адаптацією.

Пряма оптимізація Nash

Ми підсумовуємо на високому рівні ключові інгредієнти та уявлення про DNO нижче.

Для вирішення питання про те, що функції винагороди не можуть виражати загальні переваги, ми використовуємо недавні уявлення про те, що поняття винагороди повинно бути виражене як очікувані виграшні ставки щодо функції загальних переваг.[2]
Щоб вирішити проблему, виявлену в попередніх роботах, що оптимізація цієї більш загальної мети з онлайновими алгоритмами є вибірково неефективною або нестабільною, ми розбиваємо процедуру навчання на послідовність ітерацій "пачок на політиці", де кожен крок замість цього оптимізує простий об'єктив регресії.
Мета регресії (ми вибираємо бінарну крос-ентропію) узгоджує «внутрішню функцію винагороди» політики з очікуваною швидкістю виграшу в порівнянні з самим собою (як визначено в рядку 3 алгоритму 1).
Наша рамка досить загальна, щоб допустити позаполітичні зразки до навчання, важливо, від більш потужного вчителя (Див. вибір μ1 і μ2 в алгоритмі 1).
Крім того, для забезпечення стабільності та обчислювальної ефективності ми пропонуємо схему фільтрації таким чином, щоб регресія винагороди здійснювалася тільки на парах преференцій з достатньо великою маржею (для теоретичного пояснення див. розділ 4; на практиці див. розділ 5.2).
DNO повторює цю процедуру для декількох ітерацій, щоб політика могла оптимізуватися до загальної переваги.Оскільки кожен крок передбачає проблему регресії, її можна легко реалізувати в масштабі.

Теоретично, ми доводимо, що DNO збігається з передбаченим рівновагою Наша в середньому, і що він може поліпшуватися монотонно через ітерації (див. розділ 3.1).

З практичної сторони, ми надаємо масштабну реалізацію DNO (Альгоритм 2): ітеративний алгоритм самовдосконалення з контрастивними оновленнями, який наближає алгоритм 1 під декілька критичних варіантів дизайну. Ці варіанти включають: вибір вибірки декількох онлайн-вихідів з політики, яка навчається, використовуючи GPT-4 як привілейований оракул, порівняння зразків на політиці з власними (викладач) вихідними результатами GPT-4, і навчання тільки на парах з «великим маржером» (для теоретичного пояснення див. розділ 4; на практиці див. розділ 5.2).

Основна відмінність нашої роботи над пов'язаними роботами Nash-MD (Munos et al., 2023) і SPO (Swamy et al., 2024) полягає в тому, що вони обидва демонструють проблеми з ефективністю зразка (дві оновлення в масштабі часу або кроки зразка-неефективний RL), і обидва використовують виключно зразки на політиці.

Найголовніше, DNO працює на практиці – ми надаємо комплексні емпіричні оцінки, що призводить до найсучасніших результатів:

• Модель Orca-2.5 з параметром 7B, що виникає за допомогою практичної реалізації DNO (Альгоритм 2), досягає найсучаснішого рівня виграшу будь-якої моделі 7B, що перевищує 33% порівняно з GPT-4-Turbo на AlpacaEval 2.0, навіть після контролю за довжиною. Це більш ніж 26% абсолютний приріст (7%→33%) порівняно з ініціалізованою моделлю.

• Наші ретельні дослідження абляції в розділі 5.2 вивчають критичні дизайнерські точки зору, що стосуються вибору функції втрат (наглядована фінітунізація або контрастність), навчальна парадигма (з зразками на політиці або без них), якість анотаторів переваги (великий марж або ні) та будівництво тренувальних пар (самодіяльність, вчитель проти студента тощо).

• Ми показуємо деякі приклади результатів через ітерації, які демонструють якісні поліпшення, такі як краще вирішення нюансових проблем і припущення питань (Таблиця 5), кращу організацію і чіткість при утриманні від розробки хибних тверджень (Таблиця 6), і більш високу щільність інформації у відповідях (Таблиця 7).

Ми сподіваємося, що результати, представлені тут, забезпечать чіткість для спільноти щодо використання зворотного зв'язку AI для пост-тренінгових LLM.

Цей документ доступний під ліцензією CC BY 4.0 DEED.

[1] Ми використовуємо «модель винагороди» для позначення рамки, яка перетворює переваги на винагороди, наприклад, Бредлі-Террі, тоді як «функція винагороди» є (можливо, навченою) функцією, яка виводить масштаби винагороди.

The Art of Arguing With Yourself—And Why It’s Making AI Smarter

Надто довго; Читати

Лівий стіл

абстрактні

1 Введення

About Author

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

Categories

Trending Topics

The Art of Arguing With Yourself—And Why It’s Making AI Smarter

Надто довго; Читати

Лівий стіл

абстрактні

1 Введення

About Author

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

ПОВ’ЯЗАНІ ІСТОРІЇ

Categories

Trending Topics