Autores:
(1) Prerak Gandhi, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, [email protected], y estos autores contribuyeron igualmente a este trabajo;
(2) Vishal Pramanik, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai, vishalpramanik,[email protected], y estos autores contribuyeron igualmente a este trabajo;
(3) Pushpak Bhattacharyya, Departamento de Ingeniería y Ciencias de la Computación, Instituto Indio de Tecnología de Bombay, Mumbai.
Para la generación de argumentos de películas, hemos tomado los argumentos de Wikipedia. Las indicaciones para esta tarea se han tomado de IMDb. En IMDb, este mensaje puede ser de dos tipos. La primera es una breve descripción (de 15 a 40 palabras) de la película, mientras que la segunda es una historia larga, que varía entre 30 y 200 palabras y contiene muchos más detalles sobre los diferentes personajes y eventos de la película. También hemos recopilado los géneros de cada película de IMDb. Luego dividimos las tramas usando una estructura de 4 actos. Para la generación de escenas, tomamos los guiones de IMSDb y los anotamos con los elementos clave de una escena.
Hemos creado un conjunto de datos de 1000 argumentos que consisten en argumentos de Bollywood y Hollywood, extraídos de Wikipedia utilizando el módulo de Wikipedia en Python. Los argumentos recopilados tienen una extensión media de unas 700 palabras.
Anotamos las tramas dividiéndolas manualmente en 4 partes usando la estructura de 4 actos descrita en el apéndice A.5. Colocamos una única etiqueta al final de cada acto: 〈uno〉 (Acto 1), 〈dos-a〉 (Acto 2 Parte A), 〈dos-b〉 (Acto 2 Parte B) y 〈tres〉 (Acto 3). ) como delimitadores. En el apéndice se proporciona un ejemplo de anotación de la trama (Figura 6).
Para brindar cierta controlabilidad a las tramas generadas por el modelo, hemos introducido los géneros de las películas en el conjunto de datos junto con la trama. Concatenamos los géneros al comienzo de la historia. La Figura 2 muestra las distribuciones de géneros en el conjunto de datos.
Los guiones de las películas son muy largos. Una película de dos horas equivale a unas 30.000 palabras. Los modelos de lenguaje utilizados para la generación de texto creativo, como GPT-2 y GPT-3, tienen límites de tokens de 1024 y 2048, respectivamente, lo que hace imposible manejar un script completo de una sola vez. Por lo tanto, dividimos los guiones en escenas y creamos manualmente sus breves descripciones. Esto permite entrenar las escenas de forma independiente en lugar de depender de escenas anteriores.
Los guiones de películas se componen de múltiples elementos descritos en el apéndice A.4. Los diferentes elementos aumentan la dificultad que enfrentan los modelos para aprender a distinguir cada elemento. Para superar este obstáculo, etiquetamos cuatro elementos principales a lo largo del guión: líneas breves, líneas de acción, diálogos y nombres de personajes.
Mantenemos los cuatro elementos principales presentes en cada guión ( sluglines, líneas de acción, nombre de personaje y diálogos ) y eliminamos cualquier otro tipo de información como número de página, transiciones o fechas de escenas. El etiquetado de los cuatro elementos principales se realiza mediante etiquetas de inicio y fin que se envuelven alrededor de los elementos, como se muestra a continuación:
• Sluglines: 〈bsl〉...〈esl〉
• Líneas de Acción: 〈bal〉...〈eal〉
• Nombre del personaje: 〈bcn〉...〈ecn〉
• Diálogo:〈bd〉...〈ed〉
En la figura 3 se ve un ejemplo de una escena comentada.
Este documento está disponible en arxiv bajo licencia CC 4.0 DEED.