Os autores:
que(1) Evan Shieh, Young Data Scientists League ([email protected]);
que(2) Faye-Marie Vassel, Universidade de Stanford;
que(3) Cassidy Sugimoto, Escola de Política Pública, Instituto de Tecnoloxía de Xeorxia;
que(4) Thema Monroe-White, Escola Schar de Política e Goberno e Departamento de Informática, Universidade George Mason ([email protected]).
queAuthors:
(1) Evan Shieh, Young Data Scientists League ([email protected]);
(2) Faye-Marie Vassel, Universidade de Stanford;
(3) Cassidy Sugimoto, Escola de Política Pública, Instituto de Tecnoloxía de Xeorxia;
(4) Thema Monroe-White, Escola Schar de Política e Goberno e Departamento de Informática, Universidade George Mason ([email protected]).
Mesa da esquerda
1.1 Traballos e contribucións relacionadas
2.1 Proxías da identidade textual e danos socio-psicolóxicos
2.2 Modelado de xénero, orientación sexual e raza
3 Análise
4 Discusións, recoñecementos e referencias
SUPPLEMENTAL MATERIALS
Un poder de operacionalización e interseccionalidade
B Detalles técnicos máis amplos
B.1 Modelado de xénero e orientación sexual
B.3 Minería de datos automatizada de cues textuais
B.6 Ratio de subordinación racializada mediana
B.7 Cues estendidos para a análise de estereotipos
C. Exemplos adicionais
C.1 Nomes máis comúns xerados por LM por raza
C.2 Exemplos adicionais seleccionados de textos sintéticos completos
D. Datos e divulgacións de uso público
D.1 Ficha de datos para o conxunto de datos de Laissez-Faire Prompts
3.2 Danos da subordinación
A representación de grupos minoritarios aumenta drasticamente cando se engade a dinámica de poder aos prompts, especificamente coa introdución dun personaxe subordinado (Táboa 1). En xeral, atopamos que a raza e os personaxes minoritarios de xénero aparecen predominantemente en retratos onde buscan axuda ou sen poder. Cuantificamos a súa frecuencia relativa usando a relación de subordinación (ver ecuación 4), que definimos como a proporción dunha demografía observada no papel subordinado en comparación co papel dominante.
Se a relación de subordinación é menor que 1, observamos dominación; se a relación de subordinación é maior que 1, observamos subordinación; e se a relación de subordinación é 1, entón o demográfico é neutral (independente da dinámica de poder).
En xeral, os personaxes feminizados son xeralmente dominantes no dominio de Aprendizaxe (é dicir, subordinación < 1, o que significa que son máis propensos a ser retratados como un "estudante estrela"). Con todo, ocupan posicións amplamente subordinadas no dominio de Traballo (é dicir, subordinación > 1 - ver Figura 2a,b). Os personaxes feminizados brancos son uniformemente dominantes nas historias en todos os cinco modelos de Aprendizaxe (subordinación media: 0,25), mentres que os personaxes masculinizados brancos son uniformemente dominantes no Traballo (subordinación media: 0,69). Para o Amor, a maioría dos modelos con excepción de PaLM2 e ChatGPT4 retratan os personaxes feminizados brancos como dominantes (subordinación media: 0,73). Observamos que
O mesmo acceso universal ao poder non se dá cando se consideran outras combinacións de raza e xénero. As interseccións non binarias en todas as razas tenden a aparecer como máis subordinadas (aínda que estes resultados non son significativos para a maioría das poboacións, debido á omisión como se mostra na Figura 1d). Como se mostra na Figura 3, un resultado aínda máis sorprendente aparece cando se examina os nomes que son cada vez máis susceptibles de estar asociados a unha raza (medido usando o conteo fraccionalizado - ver Ecuación 1). Con poucas excepcións (por exemplo, PaLM2 tende a repetir un único nome negro de alta probabilidade, "Amari", como un estudante estrela en Aprendizaxe), os modelos responden a maiores graos de racialización con maiores graos de subordinación para todas as razas excepto branco
Para cuantificar como a proporción de subordinación varía entre nomes de graos cada vez maiores de racialización, introducimos a proporción de subordinación racializada mediana para cuantificar a subordinación a través dunha variedade de limiares raciais posibles. Primeiro, controlamos os posibles efectos confusos de indicacións textuais fóra do nome condicionando as referencias de xénero (pronomes, títulos, etc.). Entón, para cada intersección de raza e xénero, calculamos a media de todas as relacións de subordinación para nomes por riba dun limiar de probabilidade variable t tal como se define na ecuación (5). Con t suficientemente granular, esta estatística mide a subordinación tendo en conta o espectro de probabilidades raciais. Para os nosos experimentos, establecemos t ∈ [1, 2, ... 100].
A figura 3c mostra as relacións medianas de subordinación racializada interseccional por raza e xénero. Atopamos as grandes relacións medianas de subordinación para cada intersección binaria de xénero de personaxes asiáticos, negros, latinos e MENA en case todos os modelos e dominios (recordemos que para os caracteres non binarios, os LMs non producen un número significativo de nomes racializados de alta probabilidade para calquera raza excepto o branco, polo que o noso foco en xéneros binarios para esta análise). En 86,67% de todos os casos (é dicir, 104 de 120 células de táboa) as razas minorizadas son subordinadas en comparación co 3% de todos os casos para nomes brancos (é dicir, 1 de 30 células). A magnitude das relacións de subordinación que observamos
To further illustrate this subordination by example, in Table 3 we provide counts for the most common highly racialized names across LMs by race, gender, domain, and power condition (baseline is power-neutral; dominant and subordinated are power-laden). Asian, Black, Latine, and MENA names are several orders of magnitude more likely to be subordinated when a power dynamic is introduced. By contrast, White names are several orders of magnitude more likely to appear than minoritized names in baseline and dominant positions. In the Learning domain, Sarah (74.9% White) and John (88.0% White) appear 11,699 and 5,915 times, respectively, in the baseline condition; and 10,925 and 5,239 times, respectively, in the dominant condition. The next most common name, Maria (72.3% Latine), is a distant third, appearing just 550 times in the baseline condition and 364 times in the dominant condition.
Alternativamente, isto é comúnmente patinizado cando se trata de papeis subordinados, esta dinámica é revertida. María aparece subordinada 13,580 veces en comparación con 5,939 para Sarah e 3,005 para John (unha diferenza relativa de 229% e 452% respectivamente) en Aprendizaxe. Mentres que María é significativamente máis propensos a ser retratados como un estudante loitando que un estudante estrela, o contrario é certo para Sarah e John. Este patrón revertido de subordinación esténdese a nomes masculinizados latinos, negros, MENA e asiáticos. Por exemplo, no dominio de Aprendizaxe, Juan (86,9% latino) e Jamal (73,4% negro) son 184,41 e 5,28 veces máis propensos a ter un papel subordinado que un dominante. Os nomes masculinizados
Este artigo está dispoñible en arquivo baixo a licenza CC BY 4.0 DEED.
queEste documento é