Новая история

Как контрастное обучение помогает ИИ самосовершенствовать

к Language Models (dot tech)3m2025/04/16

FA-AF

Слишком долго; Читать

В этом разделе представлена DNO-Prct, практическая и масштабируемая реализация Direct Nash Optimization. Она использует итеративное контрастивное обучение, подобное DPO, но предназначена для многочисленного обучения по политике с общими предпочтениями. Используя имплицитно сигналы вознаграждения и структурируя параллельные сравнения, DNO-Prct позволяет эффективно самосовершенствовать и подходить к балансу Nash в сложных моделях предпочтений ИИ.

featured image - Как контрастное обучение помогает ИИ самосовершенствовать

‘ai algorithm on a laptop screen’ Image created by HackerNoon AI Image Generator

Авторы:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Авторы:

(1) Корби Россе, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Ариндам Митра, Microsoft Research;

(4) Майкл Сантакрос, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

Таблица ссылок

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Приложение

Приложение A Extension to Regularized Preferences
A Extension to Regularized Preferences
B Detailed Proofs
B Detailed Proofs
C Additional Experimental Details
C Additional Experimental Details
4 Практический алгоритм – Итеративное контрастирующее самосовершенствование
В этом разделе мы переходим к алгоритмическому дизайну практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой мы сталкиваемся при реализации концептуального алгоритма DNO (алгоритм 1) вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P в соответствии с текущей политикой πt.

Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование итеративно через контрастивное обучение. Одно из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства.

Взаимосвязь между DNO-Prct и DPO. Читатель может различить, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство по дизайну, предназначенное для использования простоты и эффективности DPO (Rafailov et al., 2023) и строится на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких дизайнерских выборов, которые помогают соответствовать общим предпочтениям, таким как рейтинги, полученные от парных выигрышных ставок. Более интересно, наши выводыВзаимосвязь между и «это тщательно разработанный итератив«это тщательно разработанный итеративалгоритм» может подходить к балансу Нэша любых данных общих предпочтений.алгоритм» может подходить к равновесию Нэша любых данных общих предпочтений.

Наша общая алгоритмическая рамка — DNO (Альгоритм 1) — шире и принципиально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно распространена на случай регулярных предпочтений (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая итерация политики (или оптимизация вознаграждений с регулировкой KL) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам.

исходит из онлайн-обучения, безжалостного обучения через зеркальное происхождение (Nemirovskij и Yudin, 1983) или следующего-regularized-leader (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz et al., 2012; Hazan et al., 2016). Для DPO и PPO KL-regularization является приближением к общему штрафу за вариацию для обеспечения монотонного улучшения политики (Kakade и Langford, 2002; Schulman et al., 2015). Позже этот подход был упрощен Schulman et al. (2017, PPO), и недавно использовался для послеобучающих LLMs (Ouyang et al., 2022).

This paper is available on arxiv under CC BY 4.0 DEED license.

This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv

L O A D I N G
. . . comments & more!

About Author

Language Models (dot tech)@languagemodels

Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

Read my stories

БИРКИ

tech-stories #llm-fine-tuning #direct-nash-optimization #contrastive-learning-ai #ai-feedback-loops #ai-preference-optimization #how-to-train-ai #rhlf-optimization #dno-algorithm

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Also published here

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Как контрастное обучение помогает ИИ самосовершенствовать

Слишком долго; Читать

Таблица ссылок