A arte de discutir consigo mesmo – e por que está tornando a IA mais inteligente

Autores:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

Os autores:

Autor do artigo:

(1) Corby Rosset, Pesquisa e correspondência da Microsoft para [email protected];

(2) Ching-An Cheng, Pesquisa da Microsoft;

(3) Arindam Mitra, Pesquisa da Microsoft;

(4) Michael Santacroce, Pesquisa da Microsoft;

(5) Ahmed Awadallah, Pesquisa e correspondência da Microsoft para [email protected];

(6) Tengyang Xie, Pesquisa e correspondência da Microsoft para [email protected].

Tabela de Links

Abstract and 1 Introduction

2 Preliminaries

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

6 Related Work

7 Conclusion and References

Anexo

Anexo

A Extension to Regularized Preferences

B Detailed Proofs

C Additional Experimental Details

abreviação

Esses estudos de autopreparação de longo prazo do LLM ajudam os estudos de autopreparação de grandes modelos de linguagem (LLMs) usando feedback de preferência de um poderoso oráculo para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para os LLMs de pós-treinamento, incluindo o LLM, envolve o Reinforcement Learning from Human Feedback (RLHF), que tradicionalmente separa os aprendizes de recompensas e a otimização de políticas subsequentes. No entanto, tal abordagem de maximização de recompensas é limitada pela natureza das recompensas “point-wise” (como o modelo Bradley-Terry), que não expressa os parâmetros intransitivos ou as preferências cíclicas. Enquanto os avanços no RL

1 Introdução

O campo da inteligência artificial está evoluindo para modelos avançados que podem entender, raciocinar, seguir instruções complexas e criar conteúdo nuancioso, ao mesmo tempo em alinhamento com valores e preferências humanas. Grandes modelos de linguagem (LLMs) (por exemplo, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) demonstraram capacidades notáveis na geração de texto semelhante ao humano, responder perguntas e codificação, mas ainda enfrentam desafios em tarefas que exigem um alto grau de confiabilidade, segurança e alinhamento ético. Para enfrentar esses desafios, LLMs finamente alinhados usando Reinforcement Learning from Human Feedback (HRLF) (Christiano et al., 2017; Bai et al., 2022a; Ouyang et

O quadro RLHF único tem sido estudado há muito tempo no contexto da aprendizagem de reforço baseada em preferências (RL) ou RL a partir de preferências humanas (por exemplo, Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). Os métodos convencionais para RLHF geralmente assumem que a preferência é determinada por uma função de recompensa escalar através de alguns modelos, como o modelo Bradley-Terry (BT) frequentemente utilizado (Bradley e Terry, 1952).[1] RLHF então otimiza para a preferência em um procedimento de dois passos: aprendizagem de recompensa, otimização de políticas (através de RL) para maximizar a recompensa aprendida. Sob certas

Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.

As funções de recompensa, definidas para produzir uma pontuação escalar r(x, y) para uma única resposta y para a entrada x, não podem expressar preferências gerais y y ′, x entre um par de saídas baseadas em recompensas em todos os casos, por exemplo, preferências intransitivas ou cíclicas (Elo, 1978). Portanto, os LLM treinados sob a maximização de recompensas não podem sempre se alinhar com a preferência humana. Além disso, trabalhos recentes mostram que, mesmo em configurações onde as preferências podem ser perfeitamente expressas sob os modelos BT baseados em recompensas, otimizar em direção às recompensas resulta em comportamentos problemáticos; referimos o leitor a Bertrand et al. (2023); Azar et al. (2023); Munos et al

Estamos motivados a superar dois desafios separados: a expressividade limitada do RLHF baseado em recompensas e a falta de clareza sobre como escalar a otimização em relação às preferências gerais.Os avanços recentes na otimização baseada em recompensas, por exemplo, DPO, já têm implementações eficientes e escaláveis – procuramos uma solução igualmente eficiente no quadro de preferências gerais.

Nós propomos um algoritmo RLHF provável e escalável – Direct Nash Optimization (DNO) (Algoritmo 1) que alcança o melhor de ambos os mundos, combinando a escalabilidade de objetivos contrastantes com a solidez teórica da otimização de preferências gerais.Optimização direta de NashOtimização direta de Nash

Resumimos em alto nível os principais ingredientes e insights do DNO abaixo.

Para abordar o problema de que as funções de recompensa não podem expressar preferências gerais, aproveitamos as noções recentes de que a noção de recompensa deve ser expressa como as taxas de ganho esperadas em relação a uma função de preferência geral.[2]

Para abordar o problema encontrado em trabalhos anteriores que otimizam esse objetivo mais geral com algoritmos on-line, o objectivo de regressão (chegamos a um cross-entropy binário) alinha o procedimento de aprendizagem em uma sequência de iterações de “benefícios em grupo” em relação a uma função de preferência geral.[2]

Para abordar o problema de que as funções de recompensa não podem expressar preferências gerais, aproveitamos insights recentes de que a noção de recompensa deve ser expressa como taxas de ganho esperadas em relação a uma função de preferência geral.[2]

Para abordar a questão de que as funções de recompensa não podem expressar preferências gerais, aproveitamos as percepções recentes de que a noção de recompensa deve ser expressa como taxas de ganho esperadas em relação a uma função de preferência geral.[2]

Para resolver o problema encontrado em trabalhos anteriores que a otimização deste objetivo mais geral com algoritmos on-line é amostra-ineficiente ou instável, nós decompor o procedimento de aprendizagem em uma sequência de iterações “batch-on-policy”, em que cada passo, em vez disso, otimiza um objetivo de regressão simples.

Para resolver o problema encontrado em trabalhos anteriores que a otimização deste objetivo mais geral com algoritmos on-line é amostra ineficiente ou instável, nós decompor o procedimento de aprendizagem em uma sequência de iterações “batch-on-policy”, onde cada passo, em vez disso, otimiza um objetivo de regressão simples.

O objetivo de regressão (escolhemos cross-entropia binária) alinha a “função de recompensa interna” da política com a taxa de vitória esperada em relação a si mesma (como definido na linha 3 do algoritmo 1).

O objetivo de regressão (escolhemos a cross-entropia binária) alinha a “função de recompensa interna” da política com a taxa de vitória esperada em relação a si mesma (como definido na linha 3 do algoritmo 1).

Nosso quadro é generalizado o suficiente para admitir amostras fora da política no treinamento, importante, aquelas de um professor mais poderoso (Veja a escolha de μ1 e μ2 no algoritmo 1).

Nosso quadro é geral o suficiente para admitir amostras fora da política no treinamento, importante, aquelas de um professor mais poderoso (Veja a escolha de μ1 e μ2 no algoritmo 1).

Além disso, para garantir estabilidade e eficiência computacional, propomos um esquema de filtragem de tal forma que a regressão da recompensa seja realizada apenas em pares de preferências com uma margem suficientemente grande (para explicação teórica, ver Seção 4; na prática, ver Seção 5.2).

O DNO repete este procedimento para várias iterações para permitir que a política se otimize em direção à preferência geral.

O DNO repete este procedimento para várias iterações para permitir que a política seja otimizada em direção à preferência geral.

Como cada passo envolve um problema de regressão, pode ser facilmente implementado em escala.

Teoricamente, demonstramos que o DNO converge para o equilíbrio de Nash pretendido em média, e que ele pode melhorar monotoniamente em iterações (ver Seção 3.1).Além disso, nossa análise de amostra finita mostra que o erro de aproximação em qualquer iteração entre a política aprendida e o alvo está firmemente limitado (Teorema 1).

No lado prático, fornecemos uma implementação escalável de DNO (Algoritmo 2): um algoritmo de auto-melhoria iterativo com atualizações contrastantes, que aproxima o Algoritmo 1 sob várias escolhas de design críticas. Essas escolhas incluem: amostragem de múltiplas saídas on-line da política sendo treinada, usando GPT-4 como o oráculo de preferência, comparando amostras onpolicy com as saídas próprias (professor) do GPT-4, e treinamento apenas em pares com “grande margem” (para explicação teórica, veja Seção 4; na prática, veja Seção 5.2).

A principal distinção do nosso trabalho sobre trabalhos relacionados de Nash-MD (Munos et al., 2023) e SPO (Swamy et al., 2024) é que ambos exibem problemas de eficiência de amostra (duas atualizações de escala de tempo ou etapas de RL de amostra ineficiente), e ambos usam amostras puramente em política.

O mais importante, o DNO funciona na prática – fornecemos avaliações empíricas abrangentes, resultando em desempenho de ponta:

• O modelo de parâmetro 7B Orca-2.5 resultante, alinhado usando a implementação prática de DNO (Algoritmo 2), alcança a taxa de vitória de última geração de qualquer modelo 7B, superando 33% em relação ao GPT-4-Turbo além no AlpacaEval 2.0, mesmo após o controle de comprimento. Este é um ganho absoluto de mais de 26% (7%→33%) em comparação com o modelo inicializado.

• Nossos estudos aprofundados de ablação na Seção 5.2 examinam pontos críticos de design em torno da escolha da função de perda (finetuning supervisionado ou contrastivo), paradigma de treinamento (com ou sem amostras on-policy), qualidade de anotador de preferência (grande margem ou não), e construção de pares de treinamento (auto-jogo, professor-versus-aluno, etc).

• Mostramos alguns exemplos de saídas em iterações que demonstram melhorias qualitativas, como melhor abordagem de questões nuanciadas e perguntas presuntivas (Tabela 5), melhor organização e clareza enquanto se abstêm de fazer declarações enganosas (Tabela 6), e maior densidade de informação em respostas (Tabela 7).

Esperamos que os resultados apresentados aqui forneçam clareza à comunidade sobre o uso de feedback de IA para LLMs pós-treinamento.

This paper is available on arxiv under CC BY 4.0 DEED license.

available on arxiv“R”

[1] Usamos “modelo de recompensa” para denotar uma estrutura que traduz preferências em recompensas, por exemplo, Bradley-Terry, enquanto “função de recompensa” é uma função (possivelmente aprendida) que produz escalares de recompensa.

A arte de discutir consigo mesmo – e por que está tornando a IA mais inteligente

Muito longo; Para ler

Tabela de Links

abreviação

1 Introdução

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

Categories

Trending Topics

A arte de discutir consigo mesmo – e por que está tornando a IA mais inteligente

Muito longo; Para ler

Tabela de Links

abreviação

1 Introdução

About Author

Rótulos

ESTE ARTIGO FOI APRESENTADO EM...

HISTÓRIAS RELACIONADAS

Categories

Trending Topics