131 lukemat Uusi historia

Kun AI-chatbotteja merkitään, konteksti on kaksiteräinen miekka

kirjoittaja Model Tuning5m2025/04/07
Read on Terminal Reader

Liian pitkä; Lukea

Liian paljon tai liian vähän vuoropuhelua käsittelevä konteksti vääristää sitä, miten merkinnät arvioivat AI-järjestelmiä.
featured image - Kun AI-chatbotteja merkitään, konteksti on kaksiteräinen miekka
Model Tuning HackerNoon profile picture
0-item

Auttajat:

(1) Clemencia Siro, Amsterdamin yliopisto, Amsterdam, Alankomaat;

(2) Mohammad Aliannejadi, Amsterdamin yliopisto, Amsterdam, Alankomaat;

(3) Maarten de Rijke, Amsterdamin yliopisto, Amsterdam, Alankomaat.

Kirjailija:

Kirjoittajat

(1) Clemencia Siro, Amsterdamin yliopisto, Amsterdam, Alankomaat;

(2) Mohammad Aliannejadi, Amsterdamin yliopisto, Amsterdam, Alankomaat;

(3) Maarten de Rijke, Amsterdamin yliopisto, Alankomaat.

Taulukko linkkejä

Avoin ja 1 Johdanto

Abstrakti ja 1 Johdanto

2 Menetelmät ja 2.1 Kokeelliset tiedot ja tehtävät

2 Menetelmä ja 2.1 Kokeelliset tiedot ja tehtävät

2.2 Monipuolisen vuoropuhelun automaattinen luominen

2.2 Automaattinen monipuolisen vuoropuhelun luominen

2.3 Crowdsource kokeilut

2.3 Crowdsource kokeilut

2.4 Kokeelliset olosuhteet

2.4 Kokeelliset olosuhteet

2.5 Osallistujat

2 Osallistujat

3 Tulokset ja analyysi ja 3.1 Tietotilastot

3 Tulokset ja analyysi ja 3.1 Tietotilastot

3.2 RQ1: Vaihtelevan määrän vuoropuhelun konteksti

3.2 RQ1: Vaihtelevan määrän vuoropuhelun konteksti

3.3 RQ2: Automaattisesti luodun vuoropuhelun kontekstin vaikutus

3.3 RQ2: Automaattisesti luodun vuoropuhelun kontekstin vaikutus

4 Keskustelu ja vaikutukset

4 Keskustelu ja vaikutukset

5 Liittyvä työ

5 Aiheeseen liittyvä työ

6 Päätelmät, rajoitukset ja eettiset näkökohdat

6 Päätelmät, rajoitukset ja eettiset näkökohdat

7 Tunnustukset ja viittaukset

7 Tunnustukset ja viittaukset

A. Liite

A. Liite

Lisätiedot

Kontekstiin perustuvat merkinnät ovat ratkaisevassa asemassa arvioitaessa tehtävälähtöisiä vuoropuhelujärjestelmiä (TDS). Korkealaatuisten ja johdonmukaisten perustotuusmerkintöjen hankkiminen huomauttajilta aiheuttaa haasteita. Kun arvioidaan TDS:ää, huomauttajien on täysin ymmärrettävä vuoropuhelu ennen tuomioiden antamista. Aikaisemmat tutkimukset ovat ehdottaneet, että käytetään vain osaa vuoropuheluympäristöstä huomautusprosessissa. Kuitenkin tämän rajoituksen vaikutusta merkinnän laatuun ei ole tutkittu. Tässä tutkimuksessa tutkitaan vuoropuheluympäristön vaikutusta huomautuksen laatuun, kun otetaan huomioon merkityksellisyyden ja hyödyllisyyden merkityksellisyyden katkaikkinen konte

1 Johdanto

Viimeaikaisten edistysaskeleiden myötä ennalta koulutettujen kielimallien ja suurten kielimallien (LLM) avulla tehtävälähtöiset vuoropuhelujärjestelmät (TDS) ovat määritelleet uudelleen, miten ihmiset etsivät tietoa, ja tarjoavat käyttäjille luonnollisemman lähestymistavan vuorovaikutukseen tietolähteiden kanssa (Budzianowski ja Vulic ́, 2019; Wu et al., 2020). Kun TDS:istä tulee yhä tärkeämpiä tiedonhakuprosesseissa, kysymys siitä, miten niiden suorituskykyä arvioidaan tarkasti ja tehokkaasti, tulee kriittiseksi. Automatisoitujen mittareiden ja ihmisen luomien etikettien (Deriu et al., 2021) huonon yhteyden vuoksi TDS:ien arviointi on siirtynyt käyttäjien luok


Erilaisia joukkorahoitustekniikoita on käytetty keräämään perustavanlaatuisia merkintöjä, kuten peräkkäistä merkintöjä (Sun et al., 2021), joissa huomauttajat käyvät läpi jokaisen lauseen ja merkitsevät ne yksi kerrallaan.Tämä lähestymistapa tuo merkintöjen prosessiin tiettyjä riskejä, kuten huomauttajien väsymystä ja korkeaa kognitiivista kuormitusta erittäin pitkissä vuoropuheluissa, mikä edellyttää, että he muistavat ja seuraavat vuoropuhelun tilaa, kun he huomauttavat lauseet (Siro et al., 2022). Vaikka vuoropuhelun kontekstin seuraaminen ja ymmärtäminen on ratkaisevan tärkeää ja voi vaikuttaa huomauttajien luokituksiin, hyvin pitkien vuoropuhelujen


Tämän ongelman ratkaisemiseksi toinen tutkimuslinja ehdottaa, että satunnaisesti otetaan vain muutamia lausuntoja jokaisessa viittauksessa (Mehri ja Eskenazi, 2020; Siro et al., 2022, 2023). Kun puututaan korkeaan kognitiiviseen kuormitukseen ja väsymykseen, viittaajien ymmärryksen rajoittaminen vuoropuhelusta aiheuttaa ilmeisiä riskejä, kuten epäluotettavia ja ennakkoluuloisia merkintöjä (Schmitt ja Ultes, 2015; Siro et al., 2022). Erityisesti vuoropuhelun kontekstin määrä voi johtaa ennakkoluuloihin. Esimerkiksi viittaajat, joilla ei ole rikas konteksti, voivat tahattomasti kallistua myönteisiin tai kielteisiin luokituksiin, jättämällä huomiotta vastauksen laajemman laad


Ensimmäisessä työssä on tutkittu tekijöitä, jotka vaikuttavat joukkorahoitettujen arviointimerkintöjen laatuun ja johdonmukaisuuteen, mukaan lukien merkintöjen ominaisuudet, arXiv:2404.09980v1 [cs.CL] 15 Apr 2024 tehtävän suunnittelu, kognitiivinen kuormitus ja arviointiprotokollat (ks. esim. Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020).


Tässä tutkimuksessa pyrimme ratkaisemaan tämän tutkimuksen aukon tutkimalla, miten erilaiset kontekstuaalisen tiedon määrät vaikuttavat TDS:iden joukkotiedostojen laatuun ja johdonmukaisuuteen, mikä auttaa ymmärtämään tällaisten suunnitteluvaihtoehtojen vaikutuksia.Kokeilemme joukkotiedostojen etikettejä kahdella tärkeällä arviointikysymyksellä, nimittäin merkityksellisyydellä ja hyödyllisyydellä eri olosuhteissa, jossa verrataan muistiinpanon laatua eri vuoropuhelun kontekstin truncation-strategioissa.


Kääntymistason puutteellisen kontekstin haasteeseen vastaamiseksi ehdotamme heurististen menetelmien ja LLM-menetelmien käyttämistä käyttäjän tietotarpeiden ja vuoropuhelun yhteenvedon tuottamiseksi. LLM: t voivat toimia huomautusavustajina (Faggioli et al., 2023) tiivistämällä vuoropuhelun historiaa helpottamalla vuoropuhelun kontekstin tehokkaampaa ja tehokkaampaa ymmärtämistä ennen lauseen merkitsemistä. Tätä varten käytämme GPT-4: tä vuoropuhelun kontekstin yhteenvedon tuottamiseen ja vertaamme huomautuksen tekijöiden suorituskykyä eri olosuhteissa sekä erilaisten kontekstin koon kautta. Näiden kokeiden avulla vastaamme kahteen pääkysymykseen: (RQ1) Miten vuoropuhelun kontekstin vaiht


Tuloksemme paljastavat, että aiemman vuoropuheluympäristön saatavuus vaikuttaa merkittävästi merkittävästi huomauttajien luokituksiin, mikä vaikuttaa merkittävästi niiden laatuun. Ilman aiempaa kontekstia huomauttajat pyrkivät antamaan positiivisempia luokituksia järjestelmävasteille, mahdollisesti rangaistusta koskevien todisteiden puuttumisen vuoksi, mikä johtaa positiivisuuden ennakkoluuloon. Sitä vastoin koko vuoropuheluympäristön esittäminen tuottaa korkeampia merkityksellisyyden luokituksia. Hyödyllisyyden osalta koko vuoropuheluympäristön esittäminen tuo esiin epäselvyyttä ja pienentää hieman huomauttajan suostumusta. Tämä korostaa arviointia varten annettujen asiayhteystietojen herkkää tasapainoa


Tulokset ulottuvat muihin tehtävälähtöisiin keskustelutehtäviin, kuten keskusteluhaun ja mieltymysten herättämiseen, jotka molemmat luottavat joukkorekisterikokeisiin järjestelmän suorituskyvyn arvioimiseksi.


Tämä paperi on käytettävissä arkivilla CC BY 4.0 DEED -lisenssillä.

Tämä artikkeli on käytettävissä osoitteessa arxiv CC BY 4.0 DEED -lisenssin alaisuudessa.

saatavilla osoitteessa arkiv”hr”

[1] Tämän alan tutkimuksen edistämiseksi julkaisemme tiedot julkisesti osoitteessa https://github.com/Clemenciah/ Effects-of-Dialogue-Context

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks