paint-brush
Calidad-Diversidad a través de la retroalimentación de IA (QDAIF): un paso hacia la creatividad autónoma de la IApor@feedbackloop
485 lecturas
485 lecturas

Calidad-Diversidad a través de la retroalimentación de IA (QDAIF): un paso hacia la creatividad autónoma de la IA

Demasiado Largo; Para Leer

Calidad-Diversidad a través de AI Feedback (QDAIF) es un enfoque de vanguardia que fusiona modelos de lenguaje y algoritmos de búsqueda de calidad-diversidad para generar de forma autónoma texto creativo diverso y de alta calidad. Este método, presentado en los ámbitos de la escritura creativa, supera las líneas de base existentes, lo que demuestra un paso significativo hacia la creatividad independiente de la IA.
featured image - Calidad-Diversidad a través de la retroalimentación de IA (QDAIF): un paso hacia la creatividad autónoma de la IA
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

Autores:

(1) Herbie Bradley, CarperAI, CAML Lab, Universidad de Cambridge y EleutherAI;

(2) Andrew Dai, Aleph Alfa;

(3) Hannah Teufel, Aleph Alfa;

(4) Jenny Zhang, 5 Departamento de Ciencias de la Computación, Universidad de Columbia Británica y Vector Institute;

(5) Koen Oostermeijer, Aleph Alpha;

(6) Marco Bellagente, Estabilidad AI;

(7) Jeff Clune, Departamento de Ciencias de la Computación, Universidad de Columbia Británica, Instituto Vector y Cátedra de IA CIFAR de Canadá;

(8) Kenneth Stanley, experto;

(9) Grégory Schott, Aleph Alfa;

(10) Joel Lehman, Laboratorios Estocásticos.

Tabla de enlaces

Resumen e introducción

Antecedentes y trabajos relacionados

Acercarse

Experimentos en el dominio de la escritura creativa

Discusión y conclusión

Un apéndice

ABSTRACTO

En muchos problemas de generación de texto, los usuarios pueden preferir no sólo una única respuesta, sino una amplia gama de resultados de alta calidad entre los cuales elegir. Los algoritmos de búsqueda de calidad-diversidad (QD) apuntan a tales resultados, mejorando y diversificando continuamente una población de candidatos. Sin embargo, la aplicabilidad de la QD a dominios cualitativos, como la escritura creativa, se ha visto limitada por la dificultad de especificar algorítmicamente medidas de calidad y diversidad. Curiosamente, los desarrollos recientes en modelos de lenguaje (LM) han permitido guiar la búsqueda a través de retroalimentación de IA, donde se solicita a los LM en lenguaje natural que evalúen aspectos cualitativos del texto. Aprovechando este desarrollo, presentamos Calidad-Diversidad a través de AI Feedback (QDAIF), en el que un algoritmo evolutivo aplica LM para generar variación y evaluar la calidad y diversidad del texto candidato. Cuando se evalúa en dominios de escritura creativa, QDAIF cubre más de un espacio de búsqueda específico con muestras de alta calidad que los controles que no son QD. Además, la evaluación humana de los textos creativos generados por QDAIF valida un acuerdo razonable entre la IA y la evaluación humana. Por lo tanto, nuestros resultados resaltan el potencial de la retroalimentación de la IA para guiar la búsqueda abierta de soluciones creativas y originales, proporcionando una receta que aparentemente se generaliza a muchos dominios y modalidades. De esta manera, QDAIF es un paso hacia sistemas de IA que pueden buscar, diversificar, evaluar y mejorar de forma independiente, que se encuentran entre las habilidades centrales que subyacen a la capacidad de innovación de la sociedad humana.[1]

1. INTRODUCCIÓN

La innovación humana no es sólo una capacidad generativa de creatividad, sino que también incluye la capacidad de evaluar la calidad subjetiva de nuevas ideas y artefactos. Las grandes ideas rara vez se generan de una vez y de la nada, sino que emergen gradualmente a través de cadenas divergentes de elaboración y revisión (Stanley & Lehman, 2015). Para navegar con éxito en ese árbol de ideas, el creador debe evaluar qué pasos de una cadena vale la pena seguir, una cuestión que puede ser muy subjetiva, especialmente en ámbitos con dimensiones artísticas o literarias.


Hasta ahora, incluso si la IA pudiera proporcionar candidatos, la esperanza de una evaluación tan subjetivamente teñida recaía firmemente en los humanos. Sin embargo, la tecnología de modelos básicos emergente de los últimos años (Bommasani et al., 2021) ahora significa que el modelo también puede desempeñar el papel de evaluador, incluso cuando la evaluación es en parte subjetiva (Madaan et al., 2023). De esta manera, por primera vez, se puede, en principio, automatizar todo un proceso de ideación que devuelva un conjunto diverso de artefactos interesantes. Este proceso no lo pueden ejecutar los LM por sí solos, sino que requiere encadenar un algoritmo de búsqueda con llamadas al modelo de manera matizada. Este artículo destaca una forma de lograr este potencial: combinar LM con el campo de calidad-diversidad (QD) (Mouret & Clune, 2015), que se centra en cómo diseñar procesos de búsqueda que produzcan soluciones de alta calidad que abarquen un espacio de diseño. .


Figura 1: QDAIF (izquierda) cubre más el espacio de búsqueda con historias diversas y de alta calidad en comparación con la línea de base (derecha). La línea de base es LMX, Quality-Only (Meyerson et al., 2023), que optimiza solo la calidad de las soluciones. QDAIF descubrió historias más interesantes sobre un espía y un político, que abarcan desde historias románticas con final feliz hasta historias de terror con final trágico. La línea de base produjo una historia (posición central derecha, comenzando con "Jason") con un puntaje de calidad más bajo debido a la falta de un personaje espía deseado (indicado por el contenedor de color rojo, para una historia con un final neutral, e inclinado al horror). QDAIF descubrió una historia mejor y más relevante (posición media inferior, comenzando con "un político rico") para este mismo contenedor neutral.


La principal idea de los algoritmos QD es mantener y buscar explícitamente respuestas diversas de alta calidad. Normalmente, estos algoritmos de búsqueda requieren medidas de diversidad y calidad diseñadas manualmente, así como una forma de generar variaciones significativas. Sin embargo, los dominios más interesantes y complejos casi siempre involucran nociones de desempeño, diversidad y variación que son subjetivas o difíciles de especificar algorítmicamente. Ampliando el trabajo que genera variación a través de LM (Lehman et al., 2022; Meyerson et al., 2023) y evalúa la calidad de soluciones potenciales a través de LM (Ahn et al., 2022), mostramos que los LM también se pueden utilizar para evaluar aspectos cualitativos de la diversidad. De esta manera, los LM pueden crear instancias de los tres ingredientes principales de la búsqueda QD, permitiendo así nuevos y poderosos algoritmos QD que pueden aprovechar los avances continuos de LM, que llamamos Calidad-Diversidad a través de la retroalimentación de IA (QDAIF). Dicho QDAIF puede explorar y devolver respuestas diversas y de alta calidad a un mensaje de LM a través de medidas de diversidad más intuitivas, sin la necesidad de ajustar el modelo (aunque también podría usarse para que los LM se automejoren generando ajustes). datos (Lehman et al., 2022; Chen et al., 2023)), una dirección interesante para entornos de aprendizaje efectivos autocurados a través de datos generados, hacia algoritmos de generación de IA (Clune, 2019)).


Evaluamos QDAIF en tres dominios de escritura creativa: redacción de opiniones, cuentos y poesía. La idea es que en estos ámbitos creativos, los usuarios suelen disfrutar viendo una amplia gama de posibles historias o poemas entre los que elegir o inspirarse. Los resultados cuantitativos indican que QDAIF supera significativamente las líneas de base existentes. Además, a través de la evaluación humana, observamos una fuerte alineación entre la retroalimentación generada por humanos y la IA, lo que proporciona evidencia empírica de que la retroalimentación de la IA está fundamentada y que el método puede funcionar en la práctica (es decir, produce una mejor calidad y diversidad medidas por humanos). En general, QDAIF nos acerca un paso más a los modelos de IA que pueden buscar e innovar de forma independiente, una de las habilidades clave de los humanos que les permite crear cultura y ciencia (Stanley et al., 2017).




[1] Página del proyecto: https://qdaif.github.io/


Este documento está disponible en arxiv bajo licencia CC 4.0.