Nuwe geskiedenis

Fine-tuning AI-modelle om geslag en ras in stories beter te erken

Te lank; Om te lees

Die studie verfineer 'n taalmodel om die uitvinding van geslags- en rasverwysings in AI-genereerde stories te outomatiser, om vooroordele soos onderprestasie met nie-binêre voorvoegsel aan te spreek.
featured image - Fine-tuning AI-modelle om geslag en ras in stories beter te erken
Algorithmic Bias (dot tech) HackerNoon profile picture
0-item
die

Die skrywers:

die

(1) Evan Shieh, Young Data Scientists League ([email protected]);

die

(2) Faye-Marie Vassel, Universiteit van Stanford;

die

(3) Cassidy Sugimoto, Skool vir Openbare Beleid, Georgië Instituut vir Tegnologie;

die

(4) Thema Monroe-White, Schar Skool van Beleid en Regering & Departement van Informatiese Wetenskap, George Mason Universiteit ([email protected]).

die

Authors:

(1) Evan Shieh, Young Data Scientists League ([email protected]);

(2) Faye-Marie Vassel, Universiteit van Stanford;

(3) Cassidy Sugimoto, Skool vir Openbare Beleid, Georgië Instituut vir Tegnologie;

(4) Thema Monroe-White, Schar Skool van Beleid en Regering & Departement van Informatiese Wetenskap, George Mason Universiteit ([email protected]).

Tabel van links

Abstract en 1 Inleiding

1.1 Gerelateerde werk en bydraes

2 Methode en data versameling

2.1 Textuele identiteitsproksieë en sosio-psigologiese skade

2.2 Model geslag, seksuele oriëntasie en ras

3 Analiseer

3.1 Skade van verwaarloosing

3.2 Skade van onderwerping

3.3 Skade van stereotipes

4 Diskusie, erkennings en verwysings


SUPPLEMENTAL MATERIALS

'N Operationaliserende krag en interseksionaliteit

B Uitgebreide tegniese besonderhede

B.1 Modeling van geslag en seksuele oriëntasie

B.2 Modelleer wedloop

B.3 Geautomatiseerde data-mining van teksbewyse

B.4 Verteenwoordigingsverhouding

B.5 Onderheersingsverhouding

B.6 Mediane Racialiseerde Onderheersingsverhouding

B.7 Uitgebreide wenke vir stereotipiese analise

B.8 Statistiese metodes

C Aanvullende voorbeelde

C.1 Die mees algemene name gegenereer deur LM per ras

C.2 Aanvullende geselekte voorbeelde van volledige sintetiese tekste

D Datasheet en openbare gebruik openbaarmaking

D.1 Datasheet vir Laissez-Faire Prompts Dataset

B.3 Geautomatiseerde data-mining van teksbewyse

Om die skade van verwaarloosing te meet (sien Aanvullende B.4) versamel ons 1000 generasies per taalmodel per prompt om 'n voldoende aantal totale monsters te produseer wat nodig is vir die modeling van "small-N" populasies [35]. Op die resulterende dataset van 500K stories, is dit onhandig om teksvinkels hand-uit te haal uit die lees van elke individuele storie.


Eerstens, ons hand-label afgelei geslag (gebaseer op geslag verwysings) en naam op 'n evaluering stel van 4,600 ewe-monster-down-verhaal generasies van al die vyf modelle, verseker dat al die drie domeine en beide krag toestande gelyk verteenwoordig word.


Dan gebruik ons ChatGPT 3.5 (gpt-3.5-turbo) om outomatiese etikettering uit te voer met behulp van die prompt sjablone wat in Tabel S7 getoon word, wat gekies word na die herhaling deur middel van kandidaat prompts en die keuse gebaseer op akkuraatheid en terugroep.


Vir elke label reaksie wat ons ontvang, probeer ons dan om die teruggekeerde JSON reaksie te parseer om programmatiese post-verwerking uit te voer om hallusinasies te verwyder (soos verwysings of name wat nie in die storie tekste bestaan nie).


Ons sien resultate in ooreenstemming met vorige gerelateerde studies van ko-referensie resolusie wat wys dat outomatiese stelsels minderpresteer op mindervoudige identiteitsgroepe [58]. Byvoorbeeld, ons sien dat die vooraf opgeleide gpt-3.5-turbo model nie goed werk vir nie-binêre pronomme soos hulle, dikwels moeilik is om onderskeid te maak tussen resolusies vir individuele karakters versus groepe.


Om sulke probleme aan te spreek, het ons verder hand-label 150 stories (buite die evaluering dataset) met 'n spesifieke fokus op die gevalle wat ons gevind het die aanvanklike model om te sukkel met, insluitend nie-binêre voornaam in die Love domein.


Ons let daarop dat die fine-tuning van 'n geslote bronmodel soos ChatGPT potensiële nadele het, insluitend 'n gebrek aan bewustheid as die onderliggende modelle verander nie.Daarbenewens het OpenAI nie gedetailleerde inligting vrygestel oor die algoritmes wat hulle vir fine-tuning gebruik nie.


Table S7: Prompts Used for Automated Labeling


Table S8: Co-reference Precision and Recall for Autolabeling


B.4 Verteenwoordigingsverhouding

Met behulp van waargenome ras en geslag, kwantifiseer ons statistiese verhoudings wat ooreenstem met skade van verwaarlozing en onderwerping.representation ratioAs die verhoudingpvan karakters met die waargenome demografiese gedeel deur die verhouding van die waargenome demografiese in 'n vergelyking verspreidingp* die





Die keuse van vergelyking verspreiding p* wissel afhangende van die gewenste konteks van studie. Byvoorbeeld, dit kan gebruik word om te vergelyk teen onderwerp of beroep-spesifieke persentasie (sien Tabel S1 en S2). Gegewe voorgaande navorsing waarneem hoe definisies van "regverdigheid" kan verduister stelsel uitdagings wat deur interseksioneel minderheidsgroepe [37], ons fokus in plaas daarvan op die relatiewe mate waarin ons demografie van studie verlaat of oorverteer buite sosiologiese faktore wat reeds vorm demografiese samestelling om ongelyk te wees.



Table S9: Calculations for Mapping Census Baselines for Gender and Sexual Orientation



Zes van die sewe raskategorieë word 'n waarskynlikheid toegewys in die 2022 Census [83], behalwe MENA aangesien dit slegs deur die OMB in 2023 voorgestel is. Daarom baseline ons MENA met behulp van algehele verteenwoordiging in die Wikipedia-dataset [57]. Om p* vir seksuele oriëntasie en geslagsidentiteit (SOGI) te bereken, gebruik ons die US Census 2021 Household Pulse Survey (HPS) [85], wat studies getoon het om bekende probleme van ondertelling van LGBTQ+ identiteite [60] te verminder.


die

Hierdie artikel is beskikbaar op archiv onder CC BY 4.0 DEED lisensie.

die

Hierdie papier isbeskikbaar in die archiefonder die CC BY 4.0 DEED lisensie.

beskikbaar in die archief


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks