385 чтения
385 чтения

Как контрастное обучение помогает ИИ самосовершенствовать

Слишком долго; Читать

В этом разделе представлена DNO-Prct, практическая и масштабируемая реализация Direct Nash Optimization. Она использует итеративное контрастивное обучение, подобное DPO, но предназначена для многочисленного обучения по политике с общими предпочтениями. Используя имплицитно сигналы вознаграждения и структурируя параллельные сравнения, DNO-Prct позволяет эффективно самосовершенствовать и подходить к балансу Nash в сложных моделях предпочтений ИИ.
featured image - Как контрастное обучение помогает ИИ самосовершенствовать
Language Models (dot tech) HackerNoon profile picture
0-item

Авторы :

Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];

(2) Чин-Ан Чэн, Microsoft Research;

Ариндам Митра, Microsoft Research

Майкл Сантакрос, Microsoft Research

(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

Authors:

Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];

(2) Чин-Ан Чэн, Microsoft Research;

Ариндам Митра, Microsoft Research

Майкл Сантакрос, Microsoft Research

(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

Абстракт и 1 введение

2 Предварительные

2.1 RLHF на основе моделей вознаграждения

2.2 RLHF с общими предпочтениями

3 Прямая оптимизация наша и 3.1 производный алгоритм 1

3.2 Теоретический анализ

Практический алгоритм – Итеративное контрастивное самосовершенствование

5 Эксперименты и экспериментальная установка 5.1

5.2 Результаты и анализ

6 Связанная работа

7 Заключения и ссылки


Appendix

Расширение до регулярных преференций

Б. Детальные доказательства

C Дополнительные экспериментальные детали

Практический алгоритм – Итеративное контрастивное самосовершенствование

В этом разделе мы переходим к алгоритмическому проектированию практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой сталкивается внедрение концептуального алгоритма DNO (алгоритм 1), вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P под текущей политикой πt. Возможно, удивительно, как мы покажем, все, что нам нужно, это правильно реализованный итеративный алгоритм обучения, подобный DPO.


Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование iteratively через контрастивное обучение. Один из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства. В то время как эти конкретные варианты дизайна делают DNO-Prct похожими на просто выполнение DPO iteratively, есть значительные причины для этих решений дизайна, как мы рассмотрим ниже.





Relationship betweenДНК ПРТandDPO. Читатель может распознать, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство связано с дизайном, предназначенным для использования простоты и эффективности DPO (Rafailov et al., 2023) и построено на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких вариантов дизайна, которые помогают удовлетворить общие предпочтения, такие как рейтинги, полученные от ставок выигрыша в паре.«Методически спроектированная итеративнаяДПОАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.

«Методически спроектированная итеративнаяАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.


Наша общая алгоритмическая рамка — DNO (алгоритм 1) — шире и фундаментально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно расширена до нормализованного случая предпочтения (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая iteration политики (или KL-regularized reward optimization) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


Происходит от онлайн-обучения, безжалостного обучения через зеркальное спускание (Nemirovskij и Yudin, 1983) или последовательно-regularized-лидер (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz и др., 2012; Hazan и др., 2016). Для DPO и PPO, KL-regularization является приближением к общей вариации наказания, чтобы обеспечить монотонное улучшение политики (Kakade и Langford, 2002; Schulman и др., 2015). Позже этот подход был упрощен Schulman и др. (2017, PPO), и недавно использовался для пост-тренинг LLMs (Ouyang и др., 2022).


Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.

Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks