Авторы :
Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];
→(2) Чин-Ан Чэн, Microsoft Research;
→Ариндам Митра, Microsoft Research
→Майкл Сантакрос, Microsoft Research
→(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];
→(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].
→Authors:
Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];
(2) Чин-Ан Чэн, Microsoft Research;
Ариндам Митра, Microsoft Research
Майкл Сантакрос, Microsoft Research
(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];
(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].
Стол слева
2.1 RLHF на основе моделей вознаграждения
2.2 RLHF с общими предпочтениями
3 Прямая оптимизация наша и 3.1 производный алгоритм 1
Практический алгоритм – Итеративное контрастивное самосовершенствование
5 Эксперименты и экспериментальная установка 5.1
Appendix
Расширение до регулярных преференций
C Дополнительные экспериментальные детали
Практический алгоритм – Итеративное контрастивное самосовершенствование
В этом разделе мы переходим к алгоритмическому проектированию практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой сталкивается внедрение концептуального алгоритма DNO (алгоритм 1), вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P под текущей политикой πt. Возможно, удивительно, как мы покажем, все, что нам нужно, это правильно реализованный итеративный алгоритм обучения, подобный DPO.
Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование iteratively через контрастивное обучение. Один из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства. В то время как эти конкретные варианты дизайна делают DNO-Prct похожими на просто выполнение DPO iteratively, есть значительные причины для этих решений дизайна, как мы рассмотрим ниже.
Relationship betweenДНК ПРТandDPO. Читатель может распознать, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство связано с дизайном, предназначенным для использования простоты и эффективности DPO (Rafailov et al., 2023) и построено на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких вариантов дизайна, которые помогают удовлетворить общие предпочтения, такие как рейтинги, полученные от ставок выигрыша в паре.«Методически спроектированная итеративнаяДПОАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.
«Методически спроектированная итеративнаяАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.
Наша общая алгоритмическая рамка — DNO (алгоритм 1) — шире и фундаментально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно расширена до нормализованного случая предпочтения (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая iteration политики (или KL-regularized reward optimization) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам.
Происходит от онлайн-обучения, безжалостного обучения через зеркальное спускание (Nemirovskij и Yudin, 1983) или последовательно-regularized-лидер (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz и др., 2012; Hazan и др., 2016). Для DPO и PPO, KL-regularization является приближением к общей вариации наказания, чтобы обеспечить монотонное улучшение политики (Kakade и Langford, 2002; Schulman и др., 2015). Позже этот подход был упрощен Schulman и др. (2017, PPO), и недавно использовался для пост-тренинг LLMs (Ouyang и др., 2022).
Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.
→Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.