385 чтения

Как контрастное обучение помогает ИИ самосовершенствовать

к Language Models (dot tech)3m2025/04/16

Слишком долго; Читать

В этом разделе представлена DNO-Prct, практическая и масштабируемая реализация Direct Nash Optimization. Она использует итеративное контрастивное обучение, подобное DPO, но предназначена для многочисленного обучения по политике с общими предпочтениями. Используя имплицитно сигналы вознаграждения и структурируя параллельные сравнения, DNO-Prct позволяет эффективно самосовершенствовать и подходить к балансу Nash в сложных моделях предпочтений ИИ.

featured image - Как контрастное обучение помогает ИИ самосовершенствовать

‘ai algorithm on a laptop screen’ Image created by HackerNoon AI Image Generator

→

Авторы :

Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];

→

(2) Чин-Ан Чэн, Microsoft Research;

→

Ариндам Митра, Microsoft Research

→

Майкл Сантакрос, Microsoft Research

→

(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];

→

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

→

Authors:

Corby Rosset, Microsoft Research and Correspondence по адресу [email protected];

(2) Чин-Ан Чэн, Microsoft Research;

Ариндам Митра, Microsoft Research

Майкл Сантакрос, Microsoft Research

(5) Ahmed Awadallah, Microsoft Research and Correspondence по адресу [email protected];

(6) Tengyang Xie, Microsoft Research и корреспонденция [email protected].

Стол слева

Абстракт и 1 введение

2 Предварительные

2.1 RLHF на основе моделей вознаграждения

2.2 RLHF с общими предпочтениями

3 Прямая оптимизация наша и 3.1 производный алгоритм 1

3.2 Теоретический анализ

Практический алгоритм – Итеративное контрастивное самосовершенствование

5 Эксперименты и экспериментальная установка 5.1

5.2 Результаты и анализ

6 Связанная работа

7 Заключения и ссылки

Appendix

Расширение до регулярных преференций

Б. Детальные доказательства

C Дополнительные экспериментальные детали

Практический алгоритм – Итеративное контрастивное самосовершенствование

В этом разделе мы переходим к алгоритмическому проектированию практически масштабируемой версии DNO, следуя принципам, обсуждаемым в последнем разделе.Основная проблема, с которой сталкивается внедрение концептуального алгоритма DNO (алгоритм 1), вытекает из необходимости вычислить ожидание по отношению к предпочтительной функции P под текущей политикой πt. Возможно, удивительно, как мы покажем, все, что нам нужно, это правильно реализованный итеративный алгоритм обучения, подобный DPO.

Мы представляем наше практическое внедрение DNO в алгоритме 2 (DNO-Prct), который представляет собой алгоритм наборной политики, который ведет самосовершенствование iteratively через контрастивное обучение. Один из ключевых соображений в нашем алгоритмическом дизайне заключается в том, что нам нужно только косвенно использовать функцию вознаграждения rt. Это происходит от специально разработанного на политике отбора образцов, фильтрации данных и парного строительства. В то время как эти конкретные варианты дизайна делают DNO-Prct похожими на просто выполнение DPO iteratively, есть значительные причины для этих решений дизайна, как мы рассмотрим ниже.

Relationship betweenДНК ПРТandDPO. Читатель может распознать, что DNO-Prct (Альгоритм 2) — практическое внедрение DNO — можно описать как итеративную версию алгоритма DPO. Такое сходство связано с дизайном, предназначенным для использования простоты и эффективности DPO (Rafailov et al., 2023) и построено на эмпирических достижениях из недавней работы, которая применяет DPO итеративно (например, Yuan et al., 2024; Tran et al., 2024). Наши эксперименты указывают на важность нескольких вариантов дизайна, которые помогают удовлетворить общие предпочтения, такие как рейтинги, полученные от ставок выигрыша в паре.«Методически спроектированная итеративнаяДПОАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.

«Методически спроектированная итеративнаяАлгоритм может подходить к равновесию Нэша любых данных общих предпочтений.

Наша общая алгоритмическая рамка — DNO (алгоритм 1) — шире и фундаментально отличается от итеративной DPO. Например, рамка DNO также может быть непосредственно расширена до нормализованного случая предпочтения (как обсуждается в Приложении A) или оснащена другими передовыми методами отбора образцов (например, Liu et al., 2024b, RSO) как предлагается теоремой 1 для эффективности отбора образцов. С другой стороны, хотя мягкая iteration политики (или KL-regularized reward optimization) используется как в DNO, так и в DPO, они возникают по принципиально разным причинам.

Происходит от онлайн-обучения, безжалостного обучения через зеркальное спускание (Nemirovskij и Yudin, 1983) или последовательно-regularized-лидер (FTRL) (Kalai и Vempala, 2005; Cesa-Bianchi и Lugosi, 2006; Shalev-Shwartz и др., 2012; Hazan и др., 2016). Для DPO и PPO, KL-regularization является приближением к общей вариации наказания, чтобы обеспечить монотонное улучшение политики (Kakade и Langford, 2002; Schulman и др., 2015). Позже этот подход был упрощен Schulman и др. (2017, PPO), и недавно использовался для пост-тренинг LLMs (Ouyang и др., 2022).

→

Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.

→

Эта статья доступна в архиве под лицензией CC BY 4.0 DEED.

L O A D I N G
. . . comments & more!

About Author

Language Models (dot tech)@languagemodels

Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

Read my stories

БИРКИ

tech-stories #llm-fine-tuning #direct-nash-optimization #contrastive-learning-ai #ai-feedback-loops #ai-preference-optimization #how-to-train-ai #rhlf-optimization #dno-algorithm

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Also published here

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Как контрастное обучение помогает ИИ самосовершенствовать

Слишком долго; Читать

Стол слева