Auteurs:
(1) Clemencia Siro, Universiteit van Amsterdam, Amsterdam, Nederland;
(2) Mohammad Aliannejadi, Universiteit van Amsterdam, Amsterdam, Nederland;
(3) Maarten de Rijke, Universiteit van Amsterdam, Amsterdam, Nederland.
Tabel met links
2 Methodologie en 2.1 Experimentele gegevens en taken
2.2 Automatische generatie van diverse dialoogcontexten
2.4 Experimentele omstandigheden
3 Resultaten en analyse en 3.1 Datastatistieken
3.2 RQ1: Effect van wisselende hoeveelheid dialoogcontext
3.3 RQ2: Effect van automatisch gegenereerde dialoogcontext
6 Conclusie, beperkingen en ethische overwegingen
7 Dankbetuigingen en referenties
Abstract
Crowdsourced labels spelen een cruciale rol bij het evalueren van taakgerichte dialoogsystemen (TDS's). Het verkrijgen van hoogwaardige en consistente groundtruth-labels van annotators brengt uitdagingen met zich mee. Bij het evalueren van een TDS moeten annotators de dialoog volledig begrijpen voordat ze oordelen vellen. Eerdere studies suggereren om slechts een deel van de dialoogcontext te gebruiken in het annotatieproces. De impact van deze beperking op de labelkwaliteit blijft echter onontgonnen. Deze studie onderzoekt de invloed van dialoogcontext op annotatiekwaliteit, waarbij rekening wordt gehouden met de afgekapte context voor relevantie- en bruikbaarheidslabels. We stellen verder voor om grote taalmodellen (LLM's) te gebruiken om de dialoogcontext samen te vatten om een rijke en korte beschrijving van de dialoogcontext te geven en de impact hiervan op de prestaties van de annotator te bestuderen. Het verminderen van context leidt tot positievere beoordelingen. Omgekeerd levert het verstrekken van de volledige dialoogcontext relevantiebeoordelingen van hogere kwaliteit op, maar introduceert het dubbelzinnigheid in bruikbaarheidsbeoordelingen. Het gebruiken van de eerste gebruikersuiting als context leidt tot consistente beoordelingen, vergelijkbaar met die verkregen met behulp van de gehele dialoog, met aanzienlijk verminderde annotatie-inspanning. Onze bevindingen laten zien hoe taakontwerp, met name de beschikbaarheid van dialoogcontext, de kwaliteit en consistentie van crowdsourced evaluatielabels beïnvloedt.[1]
1 Inleiding
Met recente ontwikkelingen in vooraf getrainde taalmodellen en grote taalmodellen (LLM's) hebben taakgerichte dialoogsystemen (TDS's) opnieuw gedefinieerd hoe mensen informatie zoeken, wat een meer natuurlijke benadering biedt voor gebruikers om met informatiebronnen om te gaan (Budzianowski en Vulic´, 2019; Wu et al., 2020). Naarmate TDS's steeds meer een integraal onderdeel worden van informatiezoekprocessen, wordt de vraag hoe hun prestaties nauwkeurig en effectief kunnen worden geëvalueerd cruciaal. Vanwege de slechte correlatie van automatische statistieken met door mensen gegenereerde labels (Deriu et al., 2021), is de evaluatie van TDS's verschoven naar het vertrouwen op gebruikersbeoordelingen of crowdsourced labels als grondwaarheidsmetingen (Li et al., 2019).
Verschillende crowdsourcingtechnieken zijn gebruikt om ground-truth labels te verzamelen, zoals sequentiële labeling (Sun et al., 2021), waarbij de annotators elke uiting doorlopen en ze één voor één annoteren. Deze aanpak introduceert bepaalde risico's in het annotatieproces, zoals vermoeidheid van annotators en een hoge cognitieve belasting in extra lange dialogen, waardoor ze de status van de dialoog moeten onthouden en volgen terwijl ze de uitingen annoteren (Siro et al., 2022). Hoewel het volgen en begrijpen van de dialoogcontext cruciaal is en de beoordelingen van de annotators kan beïnvloeden, kan het lezen en begrijpen van zeer lange dialogen leiden tot slechtere prestaties.
Om dit probleem aan te pakken, stelt een andere onderzoekslijn voor om willekeurig slechts een paar uitingen in elke dialoog te bemonsteren die geannoteerd moeten worden (Mehri en Eskenazi, 2020; Siro et al., 2022, 2023). Terwijl de hoge cognitieve belasting en vermoeidheid worden aangepakt, brengt het beperken van het begrip van de dialoog door annotators duidelijke risico's met zich mee, zoals onbetrouwbare en bevooroordeelde labels (Schmitt en Ultes, 2015; Siro et al., 2022). Met name de hoeveelheid dialoogcontext kan leiden tot vooroordelen. Annotators die bijvoorbeeld geen rijke context hebben, kunnen onbedoeld neigen naar positieve of negatieve beoordelingen, waarbij ze de bredere kwaliteit van de respons verwaarlozen. Als annotators te weinig context wordt aangeboden, bestaat het risico dat er misleidende oordelen worden geveld, wat mogelijk leidt tot onnauwkeurige of inconsistente labels. Omgekeerd kan het overspoelen van annotators met overmatige informatie hen overweldigen, wat kan leiden tot lagere rendementen in termen van labelkwaliteit.
Eerder werk heeft factoren onderzocht die de kwaliteit en consistentie van crowdsourced evaluatielabels beïnvloeden, waaronder annotatorkenmerken, taakontwerp, cognitieve belasting en evaluatieprotocollen (zie bijvoorbeeld Parmar et al., 2023; Roitero et al., 2021, 2020; Santhanam et al., 2020). Er is echter geen eerder werk dat het effect van willekeurige steekproeven en het aantal bemonsterde uitingen op de annotatiekwaliteit bestudeert.
In deze studie willen we deze onderzoekskloof aanpakken door te onderzoeken hoe verschillende hoeveelheden contextuele informatie de kwaliteit en consistentie van crowdsourced labels voor TDS's beïnvloeden, wat bijdraagt aan het begrijpen van de impact van dergelijke ontwerpkeuzes. We experimenteren met crowdsourcinglabels voor twee belangrijke evaluatieaspecten, namelijk relevantie en bruikbaarheid onder verschillende omstandigheden, waarbij we de annotatiekwaliteit vergelijken onder verschillende dialoogcontext-afkappingsstrategieën.
Om de uitdaging van onvoldoende context op beurtniveau aan te pakken, stellen we voor om heuristische methoden en LLM's te gebruiken om de informatiebehoefte van de gebruiker en dialoogsamenvatting te genereren. LLM's kunnen de rol van annotatie-assistenten spelen (Faggioli et al., 2023) door de dialooggeschiedenis samen te vatten, wat een efficiënter en effectiever begrip van de dialoogcontext mogelijk maakt voordat een uiting wordt geannoteerd. Hiervoor gebruiken we GPT-4 voor dialoogcontextsamenvatting en vergelijken we de prestaties van annotators onder verschillende omstandigheden, evenals verschillende contextgroottes. Door middel van deze experimenten beantwoorden we twee hoofdvragen: (RQ1) Hoe beïnvloedt het variëren van de hoeveelheid dialoogcontext de crowdsourced evaluatie van TDS's? (RQ2) Kan de consistentie van crowdsourced labels worden verbeterd met automatisch gegenereerde aanvullende context?
Onze bevindingen laten zien dat de beschikbaarheid van eerdere dialoogcontext de beoordelingen van annotators aanzienlijk beïnvloedt, met een merkbare impact op hun kwaliteit. Zonder eerdere context hebben annotators de neiging om meer positieve beoordelingen toe te kennen aan systeemreacties, mogelijk vanwege onvoldoende bewijs voor bestraffing, wat een positiviteitsbias introduceert. Daarentegen levert het presenteren van de volledige dialoogcontext hogere relevantiebeoordelingen op. Wat betreft bruikbaarheid introduceert het presenteren van de volledige dialoogcontext dubbelzinnigheid en verlaagt het de annotatorovereenkomst enigszins. Dit benadrukt de delicate balans in contextuele informatie die wordt verstrekt voor evaluaties. De opname van automatisch gegenereerde dialoogcontext verbetert de annotatorovereenkomst in de no-context (C0) conditie terwijl de annotatietijd wordt verkort in vergelijking met de full-context (C7) conditie, wat een ideale balans biedt tussen annotatorinspanning en prestatie.
Onze bevindingen gelden ook voor andere taakgerichte conversatietaken, zoals conversatiezoekopdrachten en het achterhalen van voorkeuren. Beide zijn gebaseerd op crowdsourced experimenten om de systeemprestaties te beoordelen.
Dit artikel is beschikbaar op arxiv onder de CC BY 4.0 DEED-licentie.
[1] Om onderzoek op dit gebied te bevorderen, maken we onze gegevens openbaar op https://github.com/Clemenciah/ Effects-of-Dialogue-Context