著者:
(1) Herbie Bradley、CarperAI、CAML Lab、ケンブリッジ大学、EleutherAI;
(2) アンドリュー・ダイ、アレフ・アルファ。
(3) ハンナ・トイフェル、アレフ・アルファ。
(4) Jenny Zhang、5 ブリティッシュコロンビア大学コンピュータサイエンス学部およびベクトル研究所。
(5) コーエン・オースターマイヤー、アレフ・アルファ。
(6) マルコ・ベラジェンテ、安定性AI。
(7) Jeff Clune 氏、ブリティッシュ コロンビア大学コンピューター サイエンス学部、Vector Institute およびカナダ CIFAR AI 委員長。
(8) ケネス・スタンレー、メイブン。
(9) グレゴリー・ショット、アレフ・アルファ。
(10) ジョエル・リーマン、Stochastic Labs。
要約と紹介
背景と関連作品
アプローチ
クリエイティブライティング領域の実験
考察と結論
付録
多くのテキスト生成問題では、ユーザーは 1 つの応答だけではなく、さまざまな高品質の出力を選択することを好む場合があります。品質多様性 (QD) 検索アルゴリズムは、候補者の母集団を継続的に改善および多様化することで、そのような結果を目指します。しかし、クリエイティブライティングなどの定性的領域への QD の適用性は、品質と多様性の尺度をアルゴリズムで指定することが難しいため制限されてきました。興味深いことに、言語モデル (LM) の最近の開発により、AI フィードバックによるガイド検索が可能になり、LM は自然言語でテキストの定性的側面を評価するように促されます。この開発を活用して、AI フィードバックによる品質多様性 (QDAIF) を導入します。QDAIF では、進化的アルゴリズムが LM を適用して、バリエーションの生成と候補テキストの品質と多様性の評価の両方を行います。クリエイティブ ライティング ドメインで評価されると、QDAIF は非 QD コントロールよりも高品質のサンプルで指定された検索スペースをより多くカバーします。さらに、QDAIF が生成したクリエイティブ テキストを人間が評価することで、AI と人間の評価が合理的に一致していることが検証されます。したがって、私たちの結果は、創造的で独創的なソリューションの無制限の探索を導き、一見多くの領域やモダリティに一般化できるレシピを提供するAIフィードバックの可能性を強調しています。このように、QDAIF は、人間社会のイノベーション能力の基礎となるコアスキルの 1 つである、独立して探索、多様化、評価、改善できる AI システムへの一歩となります。[1]
人間のイノベーションには、創造性を生み出す能力だけでなく、新しいアイデアや成果物の主観的な品質を評価する能力も含まれます。優れたアイデアが全体から一度に生み出されることはほとんどなく、精緻化と修正の分岐の連鎖を通じて徐々に出現します (Stanley & Lehman、2015)。このようなアイデアのツリーをうまくナビゲートするには、クリエイターはチェーン内のどのステップをさらに追求する価値があるかを評価する必要がありますが、この問題は、特に芸術的または文学的な側面を持つ領域では非常に主観的になる可能性があります。
これまでは、たとえAIが候補を提示できたとしても、そのような主観的な評価を期待するのは人間の側にありました。しかし、近年出現した基礎モデル技術 (Bommasani et al., 2021) により、評価が部分的に主観的である場合でも、モデルが評価者の役割も果たせるようになりました (Madaan et al., 2023)。このようにして、興味深いアーティファクトの多様なセットを返すアイデア作成プロセス全体を原理的に初めて自動化できます。このプロセスは LM だけで完全に実行することはできませんが、検索アルゴリズムとモデル呼び出しを微妙な方法で連鎖させる必要があります。この論文では、この可能性を実現するための 1 つの方法に焦点を当てています。それは、LM を品質多様性 (QD) の分野と組み合わせることであり (Mouret & Clune、2015)、設計空間にわたる高品質のソリューションを生成する検索プロセスを設計する方法に焦点を当てています。 。
QD アルゴリズムの主な洞察は、高品質で多様な応答を明示的に維持し、追求することです。通常、このような検索アルゴリズムには、多様性と品質の手作業で設計された尺度と、意味のあるバリエーションを生成する方法が必要です。しかし、最も興味深く複雑な領域には、ほぼ常に、主観的であるか、アルゴリズム的に指定するのが難しいパフォーマンス、多様性、バリエーションの概念が含まれています。 LM を通じてバリエーションを生成し (Lehman et al., 2022; Meyerson et al., 2023)、LM を通じて潜在的な解決策の品質を評価する作業を拡張し (Ahn et al., 2022)、我々は LM を評価にも使用できることを示します。多様性の質的側面。このようにして、LM は QD 検索の 3 つの主要な要素をインスタンス化できるため、継続的な LM の進歩の後追いに乗ることができる強力な新しい QD アルゴリズムが可能になります。これを AI フィードバックによる品質多様性 (QDAIF) と名付けています。このような QDAIF は、モデルの微調整を必要とせずに、より直観的な多様性測定を通じて、LM プロンプトに対する多様で高品質な応答を探索して返すことができます (ただし、微調整を生成することで LM が自己改善するために使用することもできます)データ (Lehman et al., 2022; Chen et al., 2023))、AI 生成アルゴリズム (Clune, 2019)) に向けて、生成されたデータを介して自己キュレーションされた効果的な学習環境の興味深い方向性です。
私たちは QDAIF を、オピニオン ライティング、短編小説、詩という 3 つのクリエイティブ ライティングの領域にわたって評価します。そのような創造的な領域では、ユーザーは多くの場合、選択したりインスピレーションを受ける可能性のある幅広い物語や詩を見ることを楽しむという考えです。定量的な結果は、QDAIF が既存のベースラインを大幅に上回っていることを示しています。さらに、人間による評価を通じて、人間によるフィードバックと AI によって生成されたフィードバックの間に強い整合性があることが観察され、AI フィードバックが根拠に基づいており、この方法が実際に機能することができる(つまり、人間によって測定された品質と多様性が向上する)という経験的証拠が得られます。全体として、QDAIF は、文化と科学を創造することを可能にする人間の重要な能力の 1 つである、独立して探索および革新できる AI モデルに一歩近づきます (Stanley et al., 2017)。
[1] プロジェクトページ:https://qdaif.github.io/
この文書は、CC 4.0 ライセンスに基づいてarxiv で入手できます。