Auteurs:
(1) Herbie Bradley, CarperAI, CAML Lab, Université de Cambridge et EleutherAI ;
(2) Andrew Dai, Aleph Alpha ;
(3) Hannah Teufel, Aleph Alpha;
(4) Jenny Zhang, 5e Département d'informatique, Université de la Colombie-Britannique et Vector Institute;
(5) Koen Oostermeijer, Aleph Alpha;
(6) Marco Bellagente, Stabilité AI ;
(7) Jeff Clune, Département d'informatique, Université de la Colombie-Britannique, Vector Institute et Chaire d'IA Canada-CIFAR ;
(8) Kenneth Stanley, Maven ;
(9) Grégory Schott, Aleph Alpha ;
(10) Joel Lehman, Stochastic Labs.
Résumé et introduction
Contexte et travaux connexes
Approche
Expériences sur le domaine de l'écriture créative
Discussion et conclusion
Une annexe
Dans de nombreux problèmes de génération de texte, les utilisateurs peuvent préférer non seulement une réponse unique, mais également une gamme diversifiée de résultats de haute qualité parmi lesquels choisir. Les algorithmes de recherche qualité-diversité (QD) visent de tels résultats, en améliorant et en diversifiant continuellement une population de candidats. Cependant, l’applicabilité du QD aux domaines qualitatifs, comme l’écriture créative, a été limitée par la difficulté de spécifier algorithmiquement des mesures de qualité et de diversité. Il est intéressant de noter que les développements récents des modèles de langage (LM) ont permis de guider la recherche grâce aux commentaires de l'IA, dans lesquels les LM sont invités en langage naturel à évaluer les aspects qualitatifs du texte. Tirant parti de ce développement, nous introduisons la qualité-diversité via la rétroaction AI (QDAIF), dans laquelle un algorithme évolutif applique des LM pour à la fois générer des variations et évaluer la qualité et la diversité du texte candidat. Lorsqu'il est évalué sur des domaines d'écriture créative, QDAIF couvre une plus grande partie d'un espace de recherche spécifié avec des échantillons de haute qualité que les contrôles non QD. De plus, l’évaluation humaine des textes créatifs générés par QDAIF valide un accord raisonnable entre l’IA et l’évaluation humaine. Nos résultats mettent ainsi en évidence le potentiel du retour d’information de l’IA pour guider la recherche ouverte de solutions créatives et originales, fournissant ainsi une recette qui semble se généraliser à de nombreux domaines et modalités. De cette manière, QDAIF est une étape vers des systèmes d'IA capables de rechercher, de se diversifier, d'évaluer et d'améliorer de manière indépendante, qui font partie des compétences de base qui sous-tendent la capacité d'innovation de la société humaine.[1]
L’innovation humaine n’est pas seulement une capacité génératrice de créativité, mais inclut également la capacité d’évaluer la qualité subjective des nouvelles idées et des nouveaux artefacts. Les grandes idées sont rarement générées d’un coup, de toutes pièces, mais émergent plutôt progressivement à travers des chaînes divergentes d’élaboration et de révision (Stanley et Lehman, 2015). Pour réussir à naviguer dans un tel arbre d’idées, le créateur doit évaluer quelles étapes de la chaîne méritent d’être approfondies, une question qui peut être très subjective, en particulier dans les domaines à dimension artistique ou littéraire.
Jusqu’à présent, même si l’IA pouvait fournir des candidats, l’espoir d’une telle évaluation subjective reposait fermement sur les humains. Cependant, la technologie émergente des modèles de fondation de ces dernières années (Bommasani et al., 2021) signifie désormais que le modèle peut également jouer le rôle d'évaluateur, même lorsque l'évaluation est en partie subjective (Madaan et al., 2023). De cette manière, pour la première fois, un processus d’idéation complet qui renvoie un ensemble diversifié d’artefacts intéressants peut en principe être automatisé. Ce processus ne peut pas être exécuté entièrement par les LM seuls, mais nécessite d’enchaîner de manière nuancée un algorithme de recherche avec des appels de modèle. Cet article met en évidence une façon d'atteindre ce potentiel : combiner les LM avec le domaine de la qualité-diversité (QD) (Mouret & Clune, 2015), qui se concentre sur la façon de concevoir des processus de recherche qui produisent des solutions de haute qualité qui couvrent un espace de conception. .
L’objectif principal des algorithmes QD est de maintenir et de rechercher explicitement des réponses diverses et de haute qualité. Généralement, ces algorithmes de recherche nécessitent des mesures de diversité et de qualité conçues à la main, ainsi qu’un moyen de générer une variation significative. Pourtant, les domaines les plus intéressants et les plus complexes impliquent presque toujours des notions de performance, de diversité et de variation qui sont subjectives ou difficiles à spécifier algorithmiquement. En prolongeant les travaux qui génèrent des variations via les LM (Lehman et al., 2022 ; Meyerson et al., 2023) et évaluent la qualité des solutions potentielles via les LM (Ahn et al., 2022), nous montrons que les LM peuvent également être utilisés pour évaluer aspects qualitatifs de la diversité. De cette manière, les LM peuvent instancier les trois principaux ingrédients de la recherche QD, permettant ainsi de créer de nouveaux algorithmes QD puissants qui peuvent s'appuyer sur les progrès continus du LM, que nous appelons Qualité-Diversité via le retour d'IA (QDAIF). Un tel QDAIF peut explorer et renvoyer des réponses diverses et de haute qualité à une invite de LM grâce à des mesures de diversité plus intuitives, sans avoir besoin d'un réglage fin du modèle (bien qu'il puisse également être utilisé pour que les LM s'améliorent eux-mêmes en générant des réglages fins). données (Lehman et al., 2022 ; Chen et al., 2023)), une direction intéressante pour des environnements d'apprentissage efficaces auto-organisés via des données générées, vers des algorithmes générateurs d'IA (Clune, 2019)).
Nous évaluons QDAIF dans trois domaines d'écriture créative : la rédaction d'opinions, les nouvelles et la poésie. L’idée est que dans de tels domaines créatifs, les utilisateurs aiment souvent voir un large éventail d’histoires ou de poèmes possibles parmi lesquels choisir ou s’inspirer. Les résultats quantitatifs indiquent que QDAIF surpasse considérablement les références existantes. De plus, grâce à l’évaluation humaine, nous observons un fort alignement entre les commentaires humains et générés par l’IA, fournissant des preuves empiriques que les commentaires de l’IA sont fondés et que la méthode peut fonctionner dans la pratique (c’est-à-dire qu’elle produit une qualité et une diversité améliorées telles que mesurées par les humains). Dans l’ensemble, QDAIF nous rapproche des modèles d’IA capables de rechercher et d’innover de manière indépendante, l’une des capacités clés des humains qui leur permettent de créer une culture et une science (Stanley et al., 2017).
[1] Page du projet : https://qdaif.github.io/
Ce document est disponible sur arxiv sous licence CC 4.0.