Auttajat:
(1) Clemencia Siro, Amsterdamin yliopisto, Amsterdam, Alankomaat;
(2) Mohammad Aliannejadi, Amsterdamin yliopisto, Amsterdam, Alankomaat;
(3) Maarten de Rijke, Amsterdamin yliopisto, Amsterdam, Alankomaat.
Kirjailija:
Kirjoittajat(1) Clemencia Siro, Amsterdamin yliopisto, Amsterdam, Alankomaat;
(2) Mohammad Aliannejadi, Amsterdamin yliopisto, Amsterdam, Alankomaat;
(3) Maarten de Rijke, Amsterdamin yliopisto, Alankomaat.
Taulukko linkkejä
Abstrakti ja 1 Johdanto2 Menetelmät ja 2.1 Kokeelliset tiedot ja tehtävät
2 Menetelmä ja 2.1 Kokeelliset tiedot ja tehtävät2.2 Monipuolisen vuoropuhelun automaattinen luominen
2.2 Automaattinen monipuolisen vuoropuhelun luominen2.3 Crowdsource kokeilut2.4 Kokeelliset olosuhteet2 Osallistujat3 Tulokset ja analyysi ja 3.1 Tietotilastot
3 Tulokset ja analyysi ja 3.1 Tietotilastot3.2 RQ1: Vaihtelevan määrän vuoropuhelun konteksti
3.2 RQ1: Vaihtelevan määrän vuoropuhelun konteksti3.3 RQ2: Automaattisesti luodun vuoropuhelun kontekstin vaikutus
3.3 RQ2: Automaattisesti luodun vuoropuhelun kontekstin vaikutus4 Keskustelu ja vaikutukset5 Aiheeseen liittyvä työ6 Päätelmät, rajoitukset ja eettiset näkökohdat
6 Päätelmät, rajoitukset ja eettiset näkökohdat7 Tunnustukset ja viittauksetA. LiiteLisätiedot
Kontekstiin perustuvat merkinnät ovat ratkaisevassa asemassa arvioitaessa tehtävälähtöisiä vuoropuhelujärjestelmiä (TDS). Korkealaatuisten ja johdonmukaisten perustotuusmerkintöjen hankkiminen huomauttajilta aiheuttaa haasteita. Kun arvioidaan TDS:ää, huomauttajien on täysin ymmärrettävä vuoropuhelu ennen tuomioiden antamista. Aikaisemmat tutkimukset ovat ehdottaneet, että käytetään vain osaa vuoropuheluympäristöstä huomautusprosessissa. Kuitenkin tämän rajoituksen vaikutusta merkinnän laatuun ei ole tutkittu. Tässä tutkimuksessa tutkitaan vuoropuheluympäristön vaikutusta huomautuksen laatuun, kun otetaan huomioon merkityksellisyyden ja hyödyllisyyden merkityksellisyyden katkaikkinen konte
1 Johdanto
Viimeaikaisten edistysaskeleiden myötä ennalta koulutettujen kielimallien ja suurten kielimallien (LLM) avulla tehtävälähtöiset vuoropuhelujärjestelmät (TDS) ovat määritelleet uudelleen, miten ihmiset etsivät tietoa, ja tarjoavat käyttäjille luonnollisemman lähestymistavan vuorovaikutukseen tietolähteiden kanssa (Budzianowski ja Vulic ́, 2019; Wu et al., 2020). Kun TDS:istä tulee yhä tärkeämpiä tiedonhakuprosesseissa, kysymys siitä, miten niiden suorituskykyä arvioidaan tarkasti ja tehokkaasti, tulee kriittiseksi. Automatisoitujen mittareiden ja ihmisen luomien etikettien (Deriu et al., 2021) huonon yhteyden vuoksi TDS:ien arviointi on siirtynyt käyttäjien luok
Erilaisia joukkorahoitustekniikoita on käytetty keräämään perustavanlaatuisia merkintöjä, kuten peräkkäistä merkintöjä (Sun et al., 2021), joissa huomauttajat käyvät läpi jokaisen lauseen ja merkitsevät ne yksi kerrallaan.Tämä lähestymistapa tuo merkintöjen prosessiin tiettyjä riskejä, kuten huomauttajien väsymystä ja korkeaa kognitiivista kuormitusta erittäin pitkissä vuoropuheluissa, mikä edellyttää, että he muistavat ja seuraavat vuoropuhelun tilaa, kun he huomauttavat lauseet (Siro et al., 2022). Vaikka vuoropuhelun kontekstin seuraaminen ja ymmärtäminen on ratkaisevan tärkeää ja voi vaikuttaa huomauttajien luokituksiin, hyvin pitkien vuoropuhelujen
Tämän ongelman ratkaisemiseksi toinen tutkimuslinja ehdottaa, että satunnaisesti otetaan vain muutamia lausuntoja jokaisessa viittauksessa (Mehri ja Eskenazi, 2020; Siro et al., 2022, 2023). Kun puututaan korkeaan kognitiiviseen kuormitukseen ja väsymykseen, viittaajien ymmärryksen rajoittaminen vuoropuhelusta aiheuttaa ilmeisiä riskejä, kuten epäluotettavia ja ennakkoluuloisia merkintöjä (Schmitt ja Ultes, 2015; Siro et al., 2022). Erityisesti vuoropuhelun kontekstin määrä voi johtaa ennakkoluuloihin. Esimerkiksi viittaajat, joilla ei ole rikas konteksti, voivat tahattomasti kallistua myönteisiin tai kielteisiin luokituksiin, jättämällä huomiotta vastauksen laajemman laad
Ensimmäisessä työssä on tutkittu tekijöitä, jotka vaikuttavat joukkorahoitettujen arviointimerkintöjen laatuun ja johdonmukaisuuteen, mukaan lukien merkintöjen ominaisuudet, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 tehtävän suunnittelu, kognitiivinen kuormitus ja arviointiprotokollat (ks. esim. Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020).
Tässä tutkimuksessa pyrimme ratkaisemaan tämän tutkimuksen aukon tutkimalla, miten erilaiset kontekstuaalisen tiedon määrät vaikuttavat TDS:iden joukkotiedostojen laatuun ja johdonmukaisuuteen, mikä auttaa ymmärtämään tällaisten suunnitteluvaihtoehtojen vaikutuksia.Kokeilemme joukkotiedostojen etikettejä kahdella tärkeällä arviointikysymyksellä, nimittäin merkityksellisyydellä ja hyödyllisyydellä eri olosuhteissa, jossa verrataan muistiinpanon laatua eri vuoropuhelun kontekstin truncation-strategioissa.
Kääntymistason puutteellisen kontekstin haasteeseen vastaamiseksi ehdotamme heurististen menetelmien ja LLM-menetelmien käyttämistä käyttäjän tietotarpeiden ja vuoropuhelun yhteenvedon tuottamiseksi. LLM: t voivat toimia huomautusavustajina (Faggioli et al., 2023) tiivistämällä vuoropuhelun historiaa helpottamalla vuoropuhelun kontekstin tehokkaampaa ja tehokkaampaa ymmärtämistä ennen lauseen merkitsemistä. Tätä varten käytämme GPT-4: tä vuoropuhelun kontekstin yhteenvedon tuottamiseen ja vertaamme huomautuksen tekijöiden suorituskykyä eri olosuhteissa sekä erilaisten kontekstin koon kautta. Näiden kokeiden avulla vastaamme kahteen pääkysymykseen: (RQ1) Miten vuoropuhelun kontekstin vaiht
Tuloksemme paljastavat, että aiemman vuoropuheluympäristön saatavuus vaikuttaa merkittävästi merkittävästi huomauttajien luokituksiin, mikä vaikuttaa merkittävästi niiden laatuun. Ilman aiempaa kontekstia huomauttajat pyrkivät antamaan positiivisempia luokituksia järjestelmävasteille, mahdollisesti rangaistusta koskevien todisteiden puuttumisen vuoksi, mikä johtaa positiivisuuden ennakkoluuloon. Sitä vastoin koko vuoropuheluympäristön esittäminen tuottaa korkeampia merkityksellisyyden luokituksia. Hyödyllisyyden osalta koko vuoropuheluympäristön esittäminen tuo esiin epäselvyyttä ja pienentää hieman huomauttajan suostumusta. Tämä korostaa arviointia varten annettujen asiayhteystietojen herkkää tasapainoa
Tulokset ulottuvat muihin tehtävälähtöisiin keskustelutehtäviin, kuten keskusteluhaun ja mieltymysten herättämiseen, jotka molemmat luottavat joukkorekisterikokeisiin järjestelmän suorituskyvyn arvioimiseksi.
Tämä paperi on käytettävissä arkivilla CC BY 4.0 DEED -lisenssillä.
Tämä artikkeli on käytettävissä osoitteessa arxiv CC BY 4.0 DEED -lisenssin alaisuudessa.
saatavilla osoitteessa arkiv”hr”[1] Tämän alan tutkimuksen edistämiseksi julkaisemme tiedot julkisesti osoitteessa https://github.com/Clemenciah/ Effects-of-Dialogue-Context