Autoren:
(1) Prerak Gandhi, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, [email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Vishal Pramanik, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, vishalpramanik,[email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(3) Pushpak Bhattacharyya, Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology Bombay, Mumbai.
Wir präsentieren unsere Beobachtungen und Bewertungen. Aufgrund der Art unserer Aufgabe hat die menschliche Bewertung Vorrang vor der automatischen Bewertung (es geht schließlich um die automatische Drehbucherstellung!). Die qualitative Analyse unserer generierten Plots und Szenen basiert auf dem Feedback von 5 professionellen Drehbuchautoren unseres Industriepartners, der bekannten Medienplattform.
Tabelle 1 zeigt die Auto-Evaluierungsergebnisse für die verschiedenen GPT-3-Plotgenerierungsmodelle.
Wir haben eine menschliche Evaluierung des annotierten Hollywood-Kurzeingabemodells durchgeführt. Die Evaluierung wurde von fünf Gruppen zu je drei Personen durchgeführt, wobei jede Gruppe
10 einzigartige Plots wurden zugewiesen. Die Bewertungen für die 5 Merkmale sind in Abbildung 5 dargestellt. Die Durchschnittswerte für Flüssigkeit, Kreativität, Sympathie, Kohärenz und Relevanz betragen 3,98, 3,29, 2,97, 2,65 bzw. 2,55 . Eine Flüssigkeit von fast 4 ist ein Indikator für die Leistungsfähigkeit von GPT-3 als Sprachmodell. Kreativität und Sympathie sind mit einem Wert von etwa 3,0 respektabel. Die niedrigen BLEU-Werte stützen den durchschnittlichen Kreativitätswert (Tabelle 1). Abbildung 5 zeigt, dass bei Kohärenz und Relevanz noch viel Raum für Verbesserungen besteht.
Der MAUVE-Wert (Pillutla et al., 2021) misst die Lücke zwischen neuronalem Text und menschlichem Text. Wir haben die MAUVE-Werte für 20 und 50 Diagramme separat berechnet. Der gewichtete Durchschnitt der MAUVE-Werte für die beiden Experimente beträgt 0,48 , was recht gut ist.
Professionelle Drehbuchautoren unseres Industriepartners haben folgende Beobachtungen gemacht:
Nicht kommentierte Hollywood-Plots
• Der Aufbau ist kreativ und interessant, aber das Ende wird unzusammenhängend.
• Einige Charaktere, die am Anfang eingeführt werden, werden nie wieder erwähnt.
• Die Ausgabe stellt nicht die Kernpunkte oder das in der Eingabe erwähnte Thema dar.
Kommentierte Hollywood-Plots
• Die Handlungen sind viel kohärenter und die Enden logisch.
• Es sind immer noch Halluzinationen vorhanden (ein gemeinsames Merkmal aller Modelle).
• Durch die längeren Beiträge wurden die wesentlichen Punkte in den Diagrammen stärker betont.
Kommentierte Hollywood-Handlungen mit Genres
• Zusätzlich zu den oben genannten Punkten orientieren sich die generierten Handlungen nun stärker am Genre oder den Genres des Films, den der Autor erstellen möchte.
• Durch das Hinzufügen eines Genres haben Sie eine gewisse Kontrolle über die Art der vom Modell generierten Handlung.
Kommentierte Bollywood-Handlungen
• Die Ergebnisse zeigen Inkohärenz in den letzten beiden Absätzen und eine Wiederholung derselben Charaktere in der gesamten Handlung.
• Der Handlungsfluss ist nicht schnell genug, d. h. die Handlung kommt nicht viel voran.
• Viele der Ausgaben haben ein Thema aus den 1990er Jahren, in dem die Charaktere getrennt werden und sich später wiederfinden. Dies liegt an einem verzerrten Datensatz mit weniger modernen Plots.
Wir haben GPT-3 mit unserem Datensatz für die Szenengenerierung optimiert. Wir haben zehn Szenen mit den in 5.1 genannten Modellen generiert. Abbildung 7 im Anhang zeigt ein Beispiel einer vollständig generierten Szene.
Wir haben 10 Szenen, die mit dem obigen Modell generiert wurden, einer menschlichen Bewertung unterzogen. 5 Personen bewerteten die Szenen mithilfe der Likert-Skala. Die Bewertungen für die fünf Merkmale sind in Abbildung 5 zu sehen. Die Durchschnittswerte für Flüssigkeit, Kreativität, Sympathie, Kohärenz und Relevanz betragen 4,48, 3,9, 3,48, 3,46 bzw. 3,86 . Alle Werte liegen über der neutralen Marke und bedeuten, dass die generierten Szenen nahe an von Menschen geschriebenen Szenen liegen.
In diesem Abschnitt analysieren wir die Qualität der vom GPT-3-Modell generierten Szenen. Diese Analyse wurde von professionellen Drehbuchautoren des zuvor erwähnten Medienunternehmens durchgeführt.
• Das Modell erzeugt eine gut strukturierte Szene.
• Es können neue Charaktere erstellt und Dialoge erdacht werden, auch wenn diese unwichtig sind.
• Die wichtigsten Punkte aus der Eingabe finden Sie in der Ausgabe.
• Einige Zeilen wiederholen sich.
• Die Ausgabe ist nicht völlig kohärent.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .