Új történelem

Fine-Tuning AI modellek a nemek és a fajok jobb felismeréséhez a történetekben

által Algorithmic Bias (dot tech)4m2025/04/23
Read on Terminal Reader

Túl hosszú; Olvasni

A tanulmány finomhangol egy nyelvi modellt, hogy automatizálja a nemi és faji hivatkozások kitermelését az AI által generált történetekben, foglalkozva az olyan előítéletekkel, mint a nem-bináris pronómok alulteljesítménye.
featured image - Fine-Tuning AI modellek a nemek és a fajok jobb felismeréséhez a történetekben
Algorithmic Bias (dot tech) HackerNoon profile picture
0-item
Az

A szerzők:

Az

(1) Evan Shieh, Young Data Scientists League ([email protected])

Az

(2) Faye-Marie Vassel, Stanford Egyetem

Az

(3) Cassidy Sugimoto, Közpolitikai Iskola, Georgia Institute of Technology;

Az

(4) Thema Monroe-White, Schar Politikai és Kormányzati Iskola és Számítástechnika Tanszék, George Mason Egyetem ([email protected]).

Az

Authors:

(1) Evan Shieh, Young Data Scientists League ([email protected])

(2) Faye-Marie Vassel, Stanford Egyetem

(3) Cassidy Sugimoto, Közpolitikai Iskola, Georgia Institute of Technology;

(4) Thema Monroe-White, Schar Politikai és Kormányzati Iskola és Számítástechnika Tanszék, George Mason Egyetem ([email protected]).

Baloldali asztal

Absztrakt és 1 Bevezetés

1.1 Kapcsolódó munkák és hozzájárulások

2 Módszerek és adatgyűjtés

2.1 Szöveges identitási proxiák és társadalmi-pszichológiai károsodások

2.2 A nemek, a szexuális irányultság és a faj modellezése

3 Elemzése

3.1 Az elhanyagolás káros hatásai

3.2 Az alárendeltség károsodása

3.3 A sztereotípiák hatása

4 Beszélgetés, elismerések és referenciák


SUPPLEMENTAL MATERIALS

Operatizáló hatalom és intersekcionalitás

B. Kiterjesztett technikai részletek

B.1 Nemek és szexuális irányultság modellezése

B.2 Modellező verseny

B.3 Automatizált adatbányászat szöveges idézetek

B.4 Képviseleti arány

B5 Alárendeltségi arány

B.6 A racializált alárendeltség aránya

B.7 Kiterjesztett idézetek a sztereotípiák elemzéséhez

8. Statisztikai módszerek

C. További példák

C.1 Leggyakoribb nevek által generált LM per faj

C.2 A teljes szintetikus szövegek további kiválasztott példái

D. Adatbázis és nyilvános felhasználás közzététele

D.1 Adatlap a Laissez-Faire Prompts adatkészlethez

B.3 Automatizált adatbányászat szöveges idézetek

A kihagyás káros hatásainak méréséhez (lásd a B.4. kiegészítést) 1000 generációt gyűjtünk nyelvmodellenként, hogy elegendő számú mintát állítsunk elő a „kis-N” populációk modellezéséhez [35]. Az 500 000 történetből származó adatkészleten lehetetlen kézzel kivonni az egyes történetek olvasásából származó szöveges jeleket.


Először is kézzel címkézzük a nemeket (a nemi referenciákon alapulva), és egy 4.600 egységesen mintavételezett történetgeneráció értékelésén alapulunk mind az öt modellből, biztosítva, hogy mind a három tartomány és mindkét teljesítményfeltétel egyenlő arányban legyen képviselt.


Ezután a ChatGPT 3.5 (gpt-3.5-turbo) használatával automatizált címkézést hajtunk végre az S7 táblázatban látható prompt sablonok használatával, amelyeket a jelölt-megbízásokon keresztül történő ismétlés és a pontosság és a visszahívás alapján történő kiválasztás után választottunk ki.


Minden kapott címke válasz esetén megpróbáljuk a visszaküldött JSON válasz elemzését elvégezni a hallucinációk eltávolítására szolgáló programozott utólagos feldolgozáshoz (például olyan hivatkozásokhoz vagy nevekhez, amelyek nem léteznek a történet szövegében).


Megfigyeljük az eredményeket, összhangban a korábbi kapcsolódó tanulmányok a co-referencia felbontás, amely azt mutatja, hogy az automatizált rendszerek rosszul teljesítenek a kisebbségi identitási csoportok [58]. Például megjegyezzük, hogy az előzetesen képzett gpt-3.5-turbo modell nem jól működik a nem-bináris pronómák, mint ők / ők, gyakran nehéz megkülönböztetni a felbontások az egyes karakterek és csoportok.


Az ilyen problémák megoldása érdekében további 150 történetet (az értékelési adatkészleten kívül) kézzel címkézünk, különös tekintettel azokra az esetekre, amelyekkel a kezdeti modellt küzdöttük, beleértve a nem-bináris előneveket a Szeretet tartományban.


Megjegyezzük, hogy egy zárt forráskódú modell finomhangolása potenciális hátrányokkal jár, beleértve a tudatosság hiányát, ha a mögöttes modellek megváltoznak. Ezen túlmenően az OpenAI nem adott ki részletes információkat az algoritmusokról, amelyeket finomhangolásra használnak. A jövőbeni munkához a modellválasztásnak nem kell korlátozódnia a ChatGPT-re, és az nyílt forráskódú alternatívák is működhetnek.


Table S7: Prompts Used for Automated Labeling


Table S8: Co-reference Precision and Recall for Autolabeling


B.4 Képviseleti arány

A megfigyelt faj és nem felhasználásával statisztikai arányokat számolunk ki, amelyek megfelelnek a kihagyás és az alárendeltség káros hatásainak.representation ratioAhogy az aránypa megfigyelt demográfiai értékkel megosztott karakterek aránya a megfigyelt demográfiai érték arányával az összehasonlító eloszlásbanp* az





A p* összehasonlító eloszlás kiválasztása a kívánt tanulmányi kontextustól függően változik. Például a téma- vagy foglalkozási-specifikus százalékos arányok összehasonlítására lehetne használni (lásd az S1 és S2 táblázatot). Figyelembe véve a korábbi kutatásokat, amelyek megfigyelték, hogy a „igazságosság” meghatározásai elhomályosíthatják az intersectionalizált kisebbségi csoportok előtt álló rendszerszintű kihívásokat [37], inkább arra összpontosítunk, hogy mérjük a tanulmányunk demográfiai adatainak elhagyását vagy túlságosan képviseletét azon szociológiai tényezőkön túl, amelyek már a demográfiai összetétel egyenlőtlenségét alakítják ki. Ezért tanulmány



Table S9: Calculations for Mapping Census Baselines for Gender and Sexual Orientation



A 2022-es népszámlálásban a hét faji kategória közül hatnak van valószínűsége [83], kivéve a MENA-t, mivel ezt csak az OMB javasolta 2023-ban. Ezért a Wikipédia adatkészletben a teljes képviseletet használjuk a MENA-ra [57]. A szexuális irányultság és a nemi identitás (SOGI) p*-jének kiszámításához az Egyesült Államok népszámlálása 2021-es háztartási impulzus felmérését (HPS) [85] használjuk, amely tanulmányok kimutatták, hogy csökkentik az LGBTQ+ identitások alulszámolásának ismert problémáit [60]. Lásd az S9 táblázatot, hogy hogyan térképezzük fel a SOGI-t a nemi és típusú kapcsolat


Az

Ez a dokumentum a CC BY 4.0 DEED licenc alatt érhető el.

Az

Ez a papír azElérhető archívumCC BY 4.0 DEED licenc alatt.

Elérhető archívum


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks