Новая история

Как контрастное обучение помогает ИИ самосовершенствовать

Слишком долго; Читать

В этом разделе представлена DNO-Prct, практическая и масштабируемая реализация Direct Nash Optimization. Она использует итеративное контрастивное обучение, подобное DPO, но предназначена для многочисленного обучения по политике с общими предпочтениями. Используя имплицитно сигналы вознаграждения и структурируя параллельные сравнения, DNO-Prct позволяет эффективно самосовершенствовать и подходить к балансу Nash в сложных моделях предпочтений ИИ.
featured image - Как контрастное обучение помогает ИИ самосовершенствовать
Language Models (dot tech) HackerNoon profile picture
0-item

Авторы:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Авторы:

Авторы:

(1) Корби Россе, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Ариндам Митра, Microsoft Research;

(4) Майкл Сантакрос, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

Таблица ссылок

Abstract and 1 Introduction

Abstract and 1 Introduction

2 Preliminaries

2 Preliminaries

2.1 RLHF Based on Reward Models

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

5.2 Results and Analysis

6 Related Work

6 Related Work

7 Conclusion and References

7 Conclusion and References


Приложение

Приложение

A Extension to Regularized Preferences

A Extension to Regularized Preferences

B Detailed Proofs

B Detailed Proofs

C Additional Experimental Details

C Additional Experimental Details

4 Практический алгоритм – Итеративное контрастирующее самосовершенствование

В этом разделе мы переходим к алгоритмическому дизайну практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой мы сталкиваемся при реализации концептуального алгоритма DNO (алгоритм 1) вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P в соответствии с текущей политикой πt.


Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование итеративно через контрастивное обучение. Одно из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства.





Взаимосвязь между DNO-Prct и DPO. Читатель может различить, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство по дизайну, предназначенное для использования простоты и эффективности DPO (Rafailov et al., 2023) и строится на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких дизайнерских выборов, которые помогают соответствовать общим предпочтениям, таким как рейтинги, полученные от парных выигрышных ставок. Более интересно, наши выводыВзаимосвязь между и «это тщательно разработанный итератив«это тщательно разработанный итеративалгоритм» может подходить к балансу Нэша любых данных общих предпочтений.алгоритм» может подходить к равновесию Нэша любых данных общих предпочтений.


Наша общая алгоритмическая рамка — DNO (Альгоритм 1) — шире и принципиально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно распространена на случай регулярных предпочтений (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая итерация политики (или оптимизация вознаграждений с регулировкой KL) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам.


Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.

Figure 2: Comparison of various post-training techniques showing that Direct Nash Optimization (DNO) is the most effective. All methods with colorful error bands are 1) implemented by ourselves, 2) initialized with a 7B parameter Orca-2.5 LLM, and 3) are “batched on-policy” (except SFT and Offline DPO which are epochs), all else being equal.


исходит из онлайн-обучения, безжалостного обучения через зеркальное происхождение (Nemirovskij и Yudin, 1983) или следующего-regularized-leader (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Для DPO и PPO KL-regularization является приближением к общему штрафу за вариацию для обеспечения монотонного улучшения политики (Kakade и Langford, 2002; Schulman et al., 2015). Позже этот подход был упрощен Schulman et al. (2017, PPO), и недавно использовался для послеобучающих LLMs (Ouyang et al., 2022).


This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks