Авторы:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
Авторы:
Авторы:(1) Корби Россе, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Ариндам Митра, Microsoft Research;
(4) Майкл Сантакрос, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].
Таблица ссылок
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
Приложение
ПриложениеA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Details4 Практический алгоритм – Итеративное контрастирующее самосовершенствование
В этом разделе мы переходим к алгоритмическому дизайну практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой мы сталкиваемся при реализации концептуального алгоритма DNO (алгоритм 1) вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P в соответствии с текущей политикой πt.
Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование итеративно через контрастивное обучение. Одно из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства.
Взаимосвязь между DNO-Prct и DPO. Читатель может различить, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство по дизайну, предназначенное для использования простоты и эффективности DPO (Rafailov et al., 2023) и строится на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких дизайнерских выборов, которые помогают соответствовать общим предпочтениям, таким как рейтинги, полученные от парных выигрышных ставок. Более интересно, наши выводыВзаимосвязь между и «это тщательно разработанный итератив«это тщательно разработанный итеративалгоритм» может подходить к балансу Нэша любых данных общих предпочтений.алгоритм» может подходить к равновесию Нэша любых данных общих предпочтений. Наша общая алгоритмическая рамка — DNO (Альгоритм 1) — шире и принципиально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно распространена на случай регулярных предпочтений (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая итерация политики (или оптимизация вознаграждений с регулировкой KL) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам. исходит из онлайн-обучения, безжалостного обучения через зеркальное происхождение (Nemirovskij и Yudin, 1983) или следующего-regularized-leader (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Для DPO и PPO KL-regularization является приближением к общему штрафу за вариацию для обеспечения монотонного улучшения политики (Kakade и Langford, 2002; Schulman et al., 2015). Позже этот подход был упрощен Schulman et al. (2017, PPO), и недавно использовался для послеобучающих LLMs (Ouyang et al., 2022). This paper is available on arxiv under CC BY 4.0 DEED license. This paper is available on arxiv under CC BY 4.0 DEED license.