133 skaitymai

Kai žymimi AI pokalbių robotai, kontekstas yra dvigubas kardas

pateikė Model Tuning5m2025/04/07
Read on Terminal Reader

Per ilgai; Skaityti

Per daug ar per mažai dialogo konteksto iškreipia, kaip anotatoriai vertina AI sistemas.
featured image - Kai žymimi AI pokalbių robotai, kontekstas yra dvigubas kardas
Model Tuning HackerNoon profile picture
0-item

Autoriai:

(1) Clemencia Siro, Amsterdamo universitetas, Nyderlandai;

(2) Mohammad Aliannejadi, Amsterdamo universitetas, Nyderlandai;

(3) Maarten de Rijke, Amsterdamo universitetas, Nyderlandai.

Autoriai:

Žymos archyvas:

(1) Clemencia Siro, Amsterdamo universitetas, Amsterdamas, Nyderlandai;

(2) Mohammad Aliannejadi, Amsterdamo universitetas, Amsterdamas, Nyderlandai;

(3) Maarten de Rijke, Amsterdamo universitetas, Nyderlandai.

Linksčių lentelė

Abstraktas ir 1 Įvadas

Abstraktas ir 1 Įvadas

2 Metodika ir 2.1 Eksperimentiniai duomenys ir užduotys

2 Metodika ir 2.1 Eksperimentiniai duomenys ir užduotys

2.2 Automatinis įvairių dialogų kontekstų kūrimas

2.2 Automatinis įvairių dialogų kontekstų kūrimas

2.3 Crowdsource eksperimentai

2.3 Crowdsource eksperimentai

2.4 Eksperimentinės sąlygos

2.4 Eksperimentinės sąlygos

2.5 Dalyviai

2 Dalyviai

3 Rezultatai ir analizė ir 3.1 Duomenų statistika

3 Rezultatai ir analizė ir 3.1 Duomenų statistika

3.2 RQ1: skirtingo dialogo konteksto poveikis

3.2 RQ1: skirtingo dialogo konteksto poveikis

3.3 RQ2: automatinio dialogo konteksto poveikis

3.3 RQ2: Automatinio dialogo konteksto poveikis

4 Diskusijos ir pasekmės

4 Diskusijos ir pasekmės

5 Susiję Darbas

5 Susiję Darbas

6 Išvados, apribojimai ir etiniai aspektai

6 Išvada, apribojimai ir etiniai aspektai

7 Atsiliepimai ir nuorodos

7 Pripažinimai ir nuorodos

A. Priedas

A. Priedas

Atsakymas

Konteksto šaltinių etiketės atlieka lemiamą vaidmenį vertinant užduočių dialogo sistemas (TDS). Aukštos kokybės ir nuoseklaus pagrindinės tiesos etikečių gavimas iš anotatorių kelia iššūkių. Vertinant TDS, anotatoriai turi visiškai suprasti dialogą prieš pateikdami sprendimus. Ankstesni tyrimai siūlo naudoti tik dalį dialogo konteksto anotacijos procese. Tačiau šio apribojimo poveikis etiketės kokybei išlieka neištirtas. Šiame tyrime nagrinėjamas dialogo konteksto poveikis anotacijos kokybei, atsižvelgiant į sutrumpintą kontekstą dėl aktualumo ir naudingumo ženklinimo. Mes taip pat siūlome naudoti didelius kalbos modelius (MLL) apibendrinti dialogo

1 Įvadas

Su naujausiais iš anksto apmokytų kalbų modelių ir didelių kalbų modelių (LLM) pažanga, užduočių dialogo sistemos (TDS) iš naujo apibrėžė, kaip žmonės ieško informacijos, pateikdamos natūralesnį požiūrį vartotojams bendrauti su informacijos šaltiniais (Budzianowski ir Vulic ́, 2019; Wu et al., 2020). Kadangi TDS tampa vis labiau integruotos į informacijos paieškos procesus, klausimas, kaip tiksliai ir veiksmingai įvertinti jų našumą, tampa labai svarbus. Dėl prastos automatinių matricų ir žmogaus sukurtų etikečių koreliacijos (Deriu et al., 2021), TDS vertinimas pasikeitė link remiantis naudotojų reitingais ar miniatiūrinėmis etiketėmis kaip pamatinėmis tiesos priemonėmis (Li


Įvairūs kolektyvinės rinkodaros metodai buvo naudojami norint surinkti pagrindines tiesos etiketes, pvz., Sekvencinį ženklinimą (Sun et al., 2021), kur anotatoriai peržiūri kiekvieną sakinį ir užsirašo juos po vieną.Šis metodas į anotacijos procesą įveda tam tikrą riziką, pvz., anotatorių nuovargį ir didelę pažintinę apkrovą per ilgus dialogus, reikalaujant, kad jie prisimintų ir sektų dialogo būseną, kai jie užsirašo sakinius (Siro et al., 2022).


Norint išspręsti šią problemą, kita mokslinių tyrimų linija siūlo atsitiktinai atrinkti tik kelis pareiškimus kiekviename dialoge, kuris turi būti užrašytas (Mehri ir Eskenazi, 2020; Siro ir kt., 2022, 2023). Sprendžiant didelę pažinimo apkrovą ir nuovargį, anotatorių supratimo apie dialogą apribojimas kelia akivaizdžią riziką, pvz., nepatikimus ir šališkus ženklus (Schmitt ir Ultes, 2015; Siro ir kt., 2022). Visų pirma, dialogo konteksto apimtis gali sukelti šališkumą. Pavyzdžiui, anotatoriai, kuriems trūksta turtingo konteksto, gali netyčia nukreipti į teigiamus ar neigiamus re


Ankstesnis darbas ištyrė veiksnius, turinčius įtakos visuotinio vertinimo etikečių kokybei ir nuoseklumui, įskaitant anotatorių charakteristikas, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 užduočių projektavimas, pažinimo apkrova ir vertinimo protokolai (žr., pvz., Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020).


Šiame tyrime siekiame išspręsti šį mokslinių tyrimų trūkumą, tiriant, kaip skirtingas kontekstinės informacijos kiekis veikia TDS grupės etikečių kokybę ir nuoseklumą, prisidedant prie tokių dizaino pasirinkimų poveikio supratimo. eksperimentuojame su grupės etikečiais dėl dviejų pagrindinių vertinimo aspektų, būtent, aktualumo ir naudingumo skirtingomis sąlygomis, kur palyginame anotacijos kokybę pagal skirtingas dialogo konteksto trunkavimo strategijas.


Išsprendžiant nepakankamo konteksto iššūkį posūkio lygmeniu, siūlome naudoti heuristinius metodus ir LLM, kad būtų sukurtas vartotojo informacijos poreikis ir dialogo santrauka. LLM gali atlikti anotacijos padėjėjų vaidmenį (Faggioli et al., 2023) apibendrinant dialogo istoriją, palengvinant efektyvesnį ir veiksmingesnį dialogo konteksto supratimą prieš anotavimą. Šiuo tikslu mes naudojame GPT-4 dialogo konteksto santraukoje ir palyginame anotacijų atlikimą skirtingomis sąlygomis, taip pat skirtingais konteksto dydžiais. Per šiuos eksperimentus atsakome į du pagrindinius klausimus: (RQ1) Kaip skirtingas dialogo konteksto kiekis veikia TDS vertinimą?


Mūsų išvados rodo, kad ankstesnio dialogo konteksto prieinamumas reikšmingai veikia anotatorių reitingus, turint pastebimą poveikį jų kokybei. Be ankstesnio konteksto anotatoriai linkę priskirti daugiau teigiamų reitingų sistemos atsakymams, galbūt dėl nepakankamo įrodymų baudimui, įvedant pozityvumo šališkumą. Priešingai, pateikiant visą dialogo kontekstą gaunamas didesnis aktualumo reitingas. Kalbant apie naudingumą, pateikiant visą dialogo kontekstą atsiranda dviprasmiškumas ir šiek tiek sumažėja anotatoriaus sutarimas. Tai pabrėžia subtilų kontekstinės informacijos pusiausvyrą, teikiamą vertinimui. Automatinio dialogo konteksto įtrauk


Mūsų išvados apima kitas užduotis orientuotas pokalbių užduotis, pvz., Pokalbių paiešką ir pageidavimų kreipimąsi, abu remiantis visuomenės eksperimentais, kad būtų galima įvertinti sistemos našumą.


Šis dokumentas yra galimas archive pagal CC BY 4.0 DEED licenciją.

Šis straipsnis yra galima rasti archive pagal CC BY 4.0 DEED licenciją.

galima rasti archive„HR“

[1] Norėdami skatinti mokslinius tyrimus šioje srityje, mes skelbiame savo duomenis viešai adresu https://github.com/Clemenciah/ Effects-of-Dialogue-Context

L O A D I N G
. . . comments & more!

About Author

Model Tuning HackerNoon profile picture
Model Tuning@modeltuning
Transferring the essence of optimal performance, and saving the model from the abyss of underfitting.

PABAIGTI ŽYMES

ŠIS STRAIPSNIS BUVO PRISTATYMAS...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks