著者:
(1) Clemencia Siro, University of Amsterdam, Amsterdam, The Netherlands;
(2) Mohammad Aliannejadi, University of Amsterdam, Amsterdam, The Netherlands;
(3) Maarten de Rijke, University of Amsterdam, Amsterdam, The Netherlands.
著者:
著者:(1) Clemencia Siro, University of Amsterdam, Amsterdam, The Netherlands;
(2) Mohammad Aliannejadi, University of Amsterdam, Amsterdam, The Netherlands;
(3) Maarten de Rijke, University of Amsterdam, アムステルダム, オランダ.
Table of Links
抽象と1の紹介2 方法と 2.1 実験データとタスク2.2 さまざまな対話コンテキストの自動生成2.3 Crowdsourceの実験2.4 実験条件2.5 参加者3 結果と分析と 3.1 データ統計3.2 RQ1:対話の文脈の変化の影響3.3 RQ2:自動的に生成された対話文脈の効果4 議論と影響5 関連作品6 結論、制限、倫理的考慮事項7 評価と参照A. サプリメント抽象
コンテキストソースのラベルは、タスク指向の対話システム(TDS)を評価する上で重要な役割を果たします。注釈者から高品質で一貫した基本的真実のタグを取得することは課題です。 TDS を評価する際に、注釈者は、判断を提供する前に対話を完全に理解する必要があります。以前の研究では、注釈プロセスにおける対話コンテキストの一部のみを使用することを示唆しています。しかし、このラベル品質への制限の影響は未だに調査されていません。この研究では、注釈の品質に対する対話コンテキストの影響を調査し、関連性と有用性のための割り切ったコンテキストを考慮に入れています。我々はさらに、対話コンテキストの大きな言語モデ
1 入門
事前訓練された言語モデルや大規模言語モデル(LLM)の最近の進歩により、タスク指向の対話システム(TDS)は、人々が情報を求める方法を再定義し、ユーザーが情報源と関わるためのより自然なアプローチを提示しています(Budzianowski and Vulic ́, 2019; Wu et al., 2020)。TDSが情報検索プロセスにますます不可欠になってきているので、そのパフォーマンスを正確かつ効果的に評価する方法の問題が重要になります。自動メトリクスとヒューマン生成ラベル(Deriu et al., 2021)との間の相関性の低下のために、TDSの評価は、ユーザーのランキングやマウントソースのラベルを基礎的な真実の測定措置として使用する
さまざまなクラウドソーシング・テクニックが、シェアリング・ラベルリング(Sun et al., 2021)などの基本的な真実のラベルを収集するために使用されており、このアプローチは、アナウンテーションプロセスに特定のリスクを導入し、アナウンテーションの疲労や長い対話における高い認知負荷など、アナウンテーションの状態を記憶し、対話の状態を追跡する必要があります(Siro et al., 2022).アナウンテーションの状況を追跡し理解することは重要であり、アナウンテーションの評価に影響を与える可能性がありますが、非常に長い対話の読み取りと理解は、パフォーマンスの低下につながります。
この問題に対処するために、別の研究ラインは、注釈される各対話のいくつかの発言(Mehri and Eskenazi, 2020; Siro et al., 2022, 2023)をランダムにサンプルすることを提案します。高い認知負荷と疲労に対処する一方で、注釈者の対話の理解を制限することは、明らかなリスクを引き起こします(Schmitt and Ultes, 2015; Siro et al., 2022)。 特に、対話の文脈の量は偏見を引き起こす可能性があります。 例えば、豊かな文脈がない注釈者は、意図せずポジティブまたはネガティブな評価に傾き、反応のより広い品質を無視することができます。 したがって、注釈者にあまりにも少ない文脈を提供することは、誤った判断を
Prior work has investigated factors that affect the quality and consistency of crowdsourced evaluation labels, including annotator characteristics, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 task design, cognitive load, and evaluation protocols (see, e.g., Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020). However, no previous work studies the effect of random sampling and the number of sampled utterances on the annotation quality.
この研究では、さまざまなコンテキスト情報の量がTDSのクラウドソースラベルの品質と一貫性にどのように影響するかを調査することで、この研究のギャップを解決することを目指し、そのような設計選択の影響を理解するのに貢献しています。
ターンレベルの不十分な文脈の課題に対処するために、私たちはユーザの情報需要と対話概要を生成するために、ヘウリスティックな方法とLLMを使用することを提案します。LLMは、対話の文脈のより効率的かつ効果的な理解を促進し、対話の歴史をまとめ、対話の歴史をまとめることによって、注釈の役割を果たすことができます(Faggioli et al., 2023) この目的のために、対話の文脈概要のためにGPT-4を使用し、異なる条件の下での注釈者のパフォーマンスと異なる文脈サイズを比較します。これらの実験を通じて、我々は2つの主な質問に答えます: (RQ1)対話の文脈の異なる量がどのようにTDSの群衆
当社の調査結果は、以前の対話コンテキストの可用性が注釈者の評価に著しい影響を与え、その品質に顕著な影響を及ぼすことを明らかにしています。以前のコンテキストがなければ、注釈者はシステム反応により肯定的な評価を割り当てる傾向にあり、おそらく罰のための証拠が不足しているため、ポジティブな偏見を導入します。それとは対照的に、対話コンテキスト全体を紹介することは、より高い関連性の評価を生成します。有用性に関しては、対話コンテキスト全体を紹介することは曖昧さを生み、注釈者の合意をわずかに低下させます。これは評価に提供される文脈情報の微妙なバランスを強調します。自動的に生成された対話コンテキ
当社の発見は、会話検索や好みの誘導などの他のタスク指向の会話タスクにまで広がっており、両方ともシステムのパフォーマンスを評価するためにクラウドソース実験に依存しています。
この論文は for archiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
arxiv で利用できます「hr」[1] この分野の研究を促進するために、私たちは私たちのデータを https://github.com/Clemenciah/ Effects-of-Dialogue-Context
で公開します。