Taylor Hahn, profesor de la Universidad Johns Hopkins, recibió una alerta mientras calificaba el trabajo de un estudiante la primavera pasada para un curso de comunicación. Había subido la tarea a Turnitin, un software utilizado por más de 16.000 instituciones académicas de todo el mundo para detectar textos plagiados y, desde abril, para marcar textos generados por IA.
Turnitin etiquetó más del 90 % del trabajo del estudiante como generado por IA. Hahn organizó una reunión de Zoom con el estudiante y le explicó el hallazgo, pidiéndole ver las notas y otros materiales utilizados para escribir el trabajo.
“Este estudiante, inmediatamente, sin previo aviso de que se trataba de un problema de IA, me mostró borradores, archivos PDF resaltados”, dijo Hahn. Estaba convencido de que la herramienta de Turnitin había cometido un error.
En otro caso, Hahn trabajó directamente con un estudiante en un esquema y borradores de un trabajo, solo para que Turnitin marcara la mayoría del trabajo enviado como generado por IA.
Durante el semestre de primavera, Hahn detectó un patrón de estos falsos positivos. La herramienta de Turnitin era mucho más propensa a marcar los escritos de estudiantes internacionales como generados por IA. Cuando Hahn empezó a observar esta tendencia, un grupo de informáticos de Stanford diseñó un experimento para comprender mejor la fiabilidad de los detectores de IA en los escritos de hablantes no nativos de inglés. El mes pasado publicaron un artículo en el que encontraron un sesgo claro . Aunque no realizaron el experimento con Turnitin, descubrieron que otros siete detectores de IA marcaban los escritos de hablantes no nativos como generados por IA el 61 % de las veces. En aproximadamente el 20 % de los trabajos, esa evaluación incorrecta fue unánime.
Mientras tanto, los detectores casi nunca cometieron tales errores al evaluar la escritura de hablantes nativos de inglés.
Los detectores de IA suelen estar programados para marcar la escritura como generada por IA cuando la elección de palabras es predecible y las oraciones son más simples. Resulta que la escritura de hablantes no nativos de inglés suele seguir este patrón, y ahí radica el problema.
Las personas suelen tener un vocabulario más amplio y una mejor comprensión de la gramática compleja en sus lenguas maternas. Esto significa que quienes no son hablantes nativos de inglés tienden a escribir de forma más sencilla en inglés. ChatGPT también lo hace. De hecho, imita la escritura humana analizando todo lo que ha procesado y creando oraciones con las palabras y frases más comunes. Aunque los detectores de IA no están específicamente entrenados para detectar la escritura menos compleja, las herramientas aprenden a hacerlo al comprobar repetidamente que la escritura generada por IA es menos compleja.
Weixin Liang, uno de los autores del estudio de Stanford, aprendió cantonés y mandarín antes que inglés. Era escéptico ante las afirmaciones de precisión casi perfecta con los detectores de IA y quería analizar más de cerca su funcionamiento en estudiantes con antecedentes lingüísticos como el suyo.
“El diseño de muchos detectores GPT discrimina inherentemente a los autores no nativos, particularmente a aquellos que muestran una diversidad lingüística y una elección de palabras restringidas”, dijo Liang por correo electrónico.
Tras el debut de ChatGPT en noviembre del año pasado, muchos de los casi 950.000 estudiantes internacionales del país, al igual que sus compañeros, consideraron las implicaciones. Los educadores estaban preocupados por la posibilidad de que los estudiantes usaran IA generativa para completar sus tareas. Y los estudiantes internacionales, autorizados a estudiar aquí con visas específicas para su educación, se dieron cuenta rápidamente de su vulnerabilidad en la competencia que surgió entre los generadores y los detectores de IA.
Hai Long Do, estudiante de tercer año en la Universidad de Miami en Oxford, Ohio, comentó que le asusta pensar que las horas que dedica a investigar, redactar y revisar sus trabajos podrían verse cuestionadas debido a la falta de fiabilidad de los detectores de IA. Para él, originario de Vietnam, los detectores sesgados representan una amenaza para sus calificaciones y, por lo tanto, para su beca por mérito.
“Mucho peor”, dijo Do, “es que una bandera de IA puede afectar mi reputación en general”.
Algunos estudiantes internacionales ven riesgos adicionales. Las universidades suelen advertirles que las acusaciones de mala conducta académica pueden resultar en una suspensión o expulsión que podría perjudicar su estatus de visa. La amenaza de deportación puede parecer un temor legítimo.
Shyam Sharma, profesor asociado de la Universidad de Stony Brook, escribe un libro sobre el enfoque de Estados Unidos para la educación de estudiantes internacionales. Afirma que las universidades suelen fallar en el apoyo a este subgrupo en sus campus y que los profesores a menudo no comprenden sus circunstancias particulares. Sharma considera el uso continuo de detectores de IA defectuosos un ejemplo de cómo las instituciones ignoran a los estudiantes internacionales del país.
“Porque la víctima, aquí mismo, es menos importante”, dijo Sharma. “La víctima aquí es menos digna de ser considerada, o de cuestionar la herramienta”.
Sin embargo, algunos educadores han cuestionado la herramienta, descubriendo, como Hahn, la falibilidad de los detectores de IA y señalando las graves consecuencias de acusaciones infundadas . Con la reapertura de los campus para el semestre de otoño, el profesorado debe considerar si las últimas investigaciones justifican con mayor claridad la eliminación total de los detectores de IA.
En el artículo de Liang, su equipo señaló que las acusaciones falsas de fraude pueden ser perjudiciales para la carrera académica y el bienestar psicológico de un estudiante. Estas acusaciones obligan a los estudiantes a demostrar su propia inocencia.
“Dado el potencial de desconfianza y ansiedad que provoca el despliegue de detectores GPT, surgen preguntas sobre si el impacto negativo en el entorno de aprendizaje supera los beneficios percibidos”, escribieron.
Diane Larryeu, originaria de Francia, estudia este año en la Facultad de Derecho Cardozo en la ciudad de Nueva York. El año pasado, en un programa de maestría en derecho consuetudinario cerca de París, el ensayo de inglés de su amiga fue marcado como generado por IA, comentó. Cuando le preguntaron si le preocupaba que le pasara lo mismo, ya que, al igual que su amiga, el inglés es su segunda lengua, su respuesta fue directa: "Por supuesto". Solo puede esperar que se resuelva pronto. "Simplemente se lo explicaría a mi profesor y espero que lo entienda", dijo Larryeu.
OpenAI cerró su detector de IA a finales de julio debido a su baja precisión, y Quill.org y CommonLit hicieron lo mismo con su AI Writing Check, alegando que las herramientas de IA generativa son demasiado sofisticadas para la detección. Turnitin, sin embargo, ha reafirmado sus afirmaciones de alta precisión.
Annie Chechitelli, directora de productos de Turnitin, dijo que la herramienta de la compañía fue entrenada para escribir por hablantes de inglés en los EE. UU. y en el extranjero, así como por estudiantes multilingües, por lo que no debería tener el sesgo identificado en el artículo de Liang.
La empresa está realizando su propia investigación para determinar si la herramienta es menos precisa al evaluar la escritura de hablantes no nativos de inglés. Aunque dicha investigación aún no se ha publicado, Chechitelli afirmó que, hasta el momento, parece que la respuesta es no.
Crédito: YouTube
Aun así, admitió que la herramienta termina aprendiendo que es más probable que la escritura más compleja sea humana, dados los patrones en los ensayos de entrenamiento.
Heewon Yang, estudiante de último año de la Universidad de Nueva York y originaria de Corea del Sur, se siente frustrada por los detectores de IA y su vulnerabilidad a ellos. "Si la IA detecta nuestros patrones lingüísticos y toma decisiones automáticamente, no sé cómo puedo evitarlo", dijo.
Es por eso que Liang dijo que es escéptico de que el detector de Turnitin pueda evitar los sesgos que su equipo identificó en su artículo.
"Si bien el enfoque de Turnitin parece bien intencionado", dijo por correo electrónico, "es vital ver los resultados de sus pruebas en curso y las evaluaciones de terceros para formar una comprensión integral del rendimiento de su herramienta en situaciones del mundo real".
En junio, Turnitin actualizó su software para permitir a las instituciones desactivar el indicador de escritura con IA . Por lo tanto, aunque el software seguirá evaluando la escritura con IA, su conclusión no se mostrará a los instructores. A finales de julio, solo el 2 % de las instituciones clientes de Turnitin habían aprovechado esta opción, según la empresa.
La Universidad de Pittsburgh fue una de ellas. En una nota dirigida al profesorado a finales de junio, el centro docente de la universidad declaró que no apoyaba el uso de ningún detector de IA, alegando que los falsos positivos «conllevaban el riesgo de pérdida de la confianza y la motivación de los estudiantes, mala publicidad y posibles sanciones legales».
Si bien la experiencia de los estudiantes internacionales no fue el factor clave en su toma de decisiones, John Radziłowicz, director interino de apoyo docente de la Universidad de Pittsburgh, afirmó que su equipo probó varios detectores de IA disponibles y decidió que los falsos positivos eran demasiado frecuentes como para justificar su uso. Sabe que el profesorado está abrumado por la idea de que los estudiantes usen la IA para hacer trampa, pero añadió que los ha estado animando a centrarse en los posibles beneficios de la IA.
"Creemos que el enfoque en el fraude y el plagio es un poco exagerado e hiperbólico", dijo Radziłowicz. En su opinión, el uso de detectores de IA como contramedida genera un potencial excesivo de daño.
¿Le han acusado falsamente de hacer trampa?
Si un detector de IA ha identificado erróneamente tu texto como generado por IA, queremos saberlo. Envía un correo electrónico a [email protected] .
Créditos
- Tara García Mathewson, reportera de investigación
Diseño y gráficos
Subtítulos de vídeo
Compromiso
Edición y producción de copias
Edición
También publicado aquí
Foto de gaspar zaldo en Unsplash