Autores:
(1) Herbie Bradley, CarperAI, CAML Lab, Universidade de Cambridge & EleutherAI;
(2) Andrew Dai, Aleph Alpha;
(3) Hannah Teufel, Aleph Alpha;
(4) Jenny Zhang, 5Departamento de Ciência da Computação, Universidade da Colúmbia Britânica e Instituto de Vetores;
(5) Koen Oostermeijer, Aleph Alpha;
(6) Marco Bellagente, Estabilidade AI;
(7) Jeff Clune, Departamento de Ciência da Computação, Universidade de British Columbia, Vector Institute e Canadá CIFAR AI Chair;
(8) Kenneth Stanley, Maven;
(9) Grégory Schott, Aleph Alpha;
(10) Joel Lehman, Laboratórios Estocásticos.
Resumo e introdução
Antecedentes e Trabalhos Relacionados
Abordagem
Experimentos no Domínio da Escrita Criativa
Discussão e conclusão
Um Apêndice
Em muitos problemas de geração de texto, os usuários podem preferir não apenas uma única resposta, mas uma ampla gama de resultados de alta qualidade para escolher. Os algoritmos de busca de qualidade-diversidade (QD) visam tais resultados, melhorando e diversificando continuamente uma população de candidatos. No entanto, a aplicabilidade da QD a domínios qualitativos, como a escrita criativa, tem sido limitada pela dificuldade de especificar medidas algorítmicas de qualidade e diversidade. Curiosamente, os desenvolvimentos recentes em modelos de linguagem (LMs) permitiram orientar a pesquisa através de feedback de IA, em que os LMs são solicitados em linguagem natural para avaliar aspectos qualitativos do texto. Aproveitando esse desenvolvimento, introduzimos Qualidade-Diversidade por meio de Feedback de IA (QDAIF), em que um algoritmo evolutivo aplica LMs para gerar variação e avaliar a qualidade e diversidade do texto candidato. Quando avaliado em domínios de escrita criativa, o QDAIF cobre mais de um espaço de pesquisa específico com amostras de alta qualidade do que os controles não-QD. Além disso, a avaliação humana de textos criativos gerados pelo QDAIF valida um acordo razoável entre a IA e a avaliação humana. Nossos resultados destacam, portanto, o potencial do feedback da IA para orientar a busca aberta por soluções criativas e originais, fornecendo uma receita que aparentemente se generaliza para muitos domínios e modalidades. Desta forma, o QDAIF é um passo em direção a sistemas de IA que podem pesquisar, diversificar, avaliar e melhorar de forma independente, que estão entre as competências essenciais subjacentes à capacidade de inovação da sociedade humana.[1]
A inovação humana não é apenas uma capacidade geradora de criatividade, mas também inclui a capacidade de avaliar a qualidade subjetiva de novas ideias e artefatos. Grandes ideias raramente são geradas de uma só vez, mas emergem gradualmente através de cadeias divergentes de elaboração e revisão (Stanley & Lehman, 2015). Para navegar com sucesso nesta árvore de ideias, o criador deve avaliar quais os passos de uma cadeia que vale a pena prosseguir, uma questão que pode ser altamente subjectiva, especialmente em domínios com dimensões artísticas ou literárias.
Até agora, mesmo que a IA pudesse fornecer candidatos, a esperança de uma avaliação tão subjectivamente tingida estava firmemente nas mãos dos humanos. No entanto, a tecnologia emergente do modelo de base dos últimos anos (Bommasani et al., 2021) significa agora que o modelo também pode desempenhar o papel de avaliador, mesmo quando a avaliação é em parte subjetiva (Madaan et al., 2023). Desta forma, pela primeira vez, todo um processo de ideação que retorna um conjunto diversificado de artefatos interessantes pode, em princípio, ser automatizado. Este processo não pode ser executado inteiramente por LMs por conta própria, mas requer o encadeamento de um algoritmo de pesquisa com chamadas de modelo de uma forma diferenciada. Este artigo destaca uma maneira de alcançar esse potencial: combinar LMs com o campo da diversidade de qualidade (QD) (Mouret & Clune, 2015), que se concentra em como projetar processos de busca que produzam soluções de alta qualidade que abranjam um espaço de design. .
O principal insight nos algoritmos de QD é manter e buscar explicitamente respostas diversas de alta qualidade. Normalmente, esses algoritmos de busca exigem medidas de diversidade e qualidade projetadas manualmente, bem como uma forma de gerar variação significativa. No entanto, os domínios mais interessantes e complexos quase sempre envolvem noções de desempenho, diversidade e variação que são subjetivas ou difíceis de especificar por meio de algoritmos. Estendendo o trabalho que gera variação por meio de LMs (Lehman et al., 2022; Meyerson et al., 2023) e avalia a qualidade de soluções potenciais por meio de LMs (Ahn et al., 2022), mostramos que LMs também podem ser usados para avaliar aspectos qualitativos da diversidade. Dessa forma, os LMs podem instanciar os três ingredientes principais da pesquisa QD, permitindo assim novos algoritmos QD poderosos que podem acompanhar os avanços contínuos do LM, que chamamos de Qualidade-Diversidade por meio de Feedback de IA (QDAIF). Esse QDAIF pode explorar e retornar respostas diversas e de alta qualidade a um prompt de LM por meio de medidas de diversidade mais intuitivas, sem a necessidade de ajuste fino do modelo (embora também possa ser usado para que os LMs se auto-aperfeiçoem, gerando ajustes finos). dados (Lehman et al., 2022; Chen et al., 2023)), uma direção interessante para ambientes de aprendizagem eficazes autocurados por meio de dados gerados, em direção a algoritmos de geração de IA (Clune, 2019)).
Avaliamos o QDAIF em três domínios de escrita criativa: redação de opinião, contos e poesia. A ideia é que, nesses domínios criativos, os usuários muitas vezes gostem de ver uma ampla gama de histórias ou poemas possíveis para escolher ou se inspirar. Os resultados quantitativos indicam que o QDAIF supera significativamente as linhas de base existentes. Além disso, através da avaliação humana, observamos um forte alinhamento entre o feedback humano e o gerado pela IA, fornecendo provas empíricas de que o feedback da IA é fundamentado e de que o método pode funcionar na prática (ou seja, produz melhor qualidade e diversidade conforme medido pelos seres humanos). No geral, o QDAIF aproxima-nos dos modelos de IA que podem pesquisar e inovar de forma independente, uma das capacidades fundamentais dos seres humanos que lhes permite criar cultura e ciência (Stanley et al., 2017).
[1] Página do projeto: https://qdaif.github.io/
Este artigo está disponível no arxiv sob licença CC 4.0.