paint-brush
Tu escritura tiene una huella digital y este modelo de inteligencia artificial de vanguardia puede detectarlapor@authoring
Nueva Historia

Tu escritura tiene una huella digital y este modelo de inteligencia artificial de vanguardia puede detectarla

por Authoring5m2025/03/07
Read on Terminal Reader

Demasiado Largo; Para Leer

Esta investigación presenta un nuevo método de detección de autoría que utiliza estructuras gramaticales de analizadores de lenguaje natural. Al analizar patrones sintácticos basados en árboles, el enfoque supera las técnicas de estilometría tradicionales y ofrece una forma sólida de distinguir a los autores genuinos del texto generado o imitado por IA.
featured image - Tu escritura tiene una huella digital y este modelo de inteligencia artificial de vanguardia puede detectarla
Authoring HackerNoon profile picture
0-item

Autores:

(1) Todd K. Moon, Departamento de Ingeniería Eléctrica y Computación, Universidad Estatal de Utah, Logan, Utah;

(2) Jacob H. Gunther, Departamento de Ingeniería Eléctrica y Computación, Universidad Estatal de Utah, Logan, Utah.

Tabla de enlaces

Resumen y 1 Introducción y antecedentes

2 Análisis estadístico y características extraídas

3 Características del árbol de análisis

4 Clasificador

Reducción de 5 dimensiones

6 Los Documentos Federalistas

6.1 Sanditon

7 Conclusiones, discusión y trabajo futuro

A. Una breve introducción al análisis estadístico

B. Reducción de dimensión: algunos detalles matemáticos

Referencias

Abstracto

A lo largo de los años ha habido un interés constante en detectar la autoría de un texto basándose en las propiedades estadísticas del texto, como por ejemplo mediante el uso de tasas de aparición de palabras no contextuales. En trabajos anteriores, estas técnicas se han utilizado, por ejemplo, para determinar la autoría de todos los Documentos Federalistas. Dichos métodos pueden ser útiles en tiempos más modernos para detectar autorías falsas o de IA. El progreso en los analizadores estadísticos de lenguaje natural introduce la posibilidad de utilizar la estructura gramatical para detectar la autoría. En este artículo exploramos una nueva posibilidad para detectar la autoría utilizando información estructural gramatical extraída utilizando un analizador estadístico de lenguaje natural. Este artículo proporciona una prueba de concepto, probando la clasificación de autores basada en la estructura gramatical en un conjunto de "textos de prueba", los Documentos Federalistas y Sanditon, que han sido casos de prueba en estudios previos de detección de autoría. Se exploraron varias características extraídas del analizador estadístico de lenguaje natural: todos los subárboles de cierta profundidad de cualquier nivel; subárboles enraizados de cierta profundidad, parte del discurso y parte del discurso por nivel en el árbol de análisis. Se ha comprobado que resulta útil proyectar las características en un espacio de menor dimensión. Los experimentos estadísticos realizados con estos documentos demuestran que la información de un analizador estadístico puede, de hecho, ayudar a distinguir a los autores.

1 Introducción y antecedentes

A lo largo de los años se ha hecho un esfuerzo considerable en relación con el uso de métodos estadísticos para identificar la autoría de textos, basándose en ejemplos de autores candidatos, en lo que a veces se denomina “estilometría” o “identificación del autor”. El análisis estadístico de documentos se remonta a Augustus de Morgan en 1851 [1, p. 282], [2, p. 166], quien propuso que las estadísticas de longitud de palabra podrían usarse para determinar la autoría de las epístolas paulinas. La estilometría se empleó ya en 1901 para explorar la autoría de Shakespeare [3]. Desde entonces, se ha empleado en una variedad de estudios literarios (véase, por ejemplo, [4, 5, 6]), incluidos doce de los Documentos Federalistas que eran de autoría incierta [7] —que reexaminamos aquí— y una novela inacabada de Jane Austen —que también reexaminamos aquí. Las técnicas de teoría de la información también se han utilizado más recientemente [8]. Los trabajos anteriores en estilometría se han basado en “palabras no contextuales”, palabras que no transmiten el significado principal del texto, pero que actúan en el fondo del texto para proporcionar estructura y fluidez. Las palabras no contextuales son al menos plausibles, ya que un autor puede abordar una variedad de temas, por lo que las palabras distintivas particulares no necesariamente revelan la autoría. En los estudios de palabras no contextuales, se selecciona un conjunto de las palabras no contextuales más comunes [2], y los documentos se representan mediante recuentos de palabras, o proporciones de recuentos de palabras con respecto a la longitud del documento. En [9] se incluye una revisión de los métodos estadísticos. Como variación, también se emplean conjuntos de proporciones de recuentos de patrones de palabras no contextuales con respecto a otros patrones de palabras [10]. También se ha explorado el análisis estadístico basado en el tamaño del vocabulario del autor frente a la longitud del documento (la “riqueza del vocabulario”) [11]. Para otros trabajos relacionados, consulte [12, 13, 14, 15].

Un artículo más reciente [16] considera la efectividad de una amplia variedad de conjuntos de características. Los conjuntos de características considerados allí incluyen: vectores que comprenden frecuencias de pronombres; palabras funcionales (es decir, artículos, pronombres, partículas, expletivos); partes del discurso (POS); palabras más comunes; características sintácticas (como frases nominales o frases verbales); o tiempo (por ejemplo, uso del tiempo presente o pasado); voz (activa o pasiva). En [16], los vectores de características se forman a partir de combinaciones de histogramas, luego se reducen en dimensionalidad utilizando un proceso de dos etapas de análisis de componentes principales [17] seguido de reducción de dimensión utilizando análisis discriminante lineal (LDA). En su LDA, la matriz de dispersión dentro del grupo es singular (debido a la alta dimensión de los vectores de características en relación con el número de vectores de entrenamiento disponibles), por lo que su matriz de dispersión está regularizada. Para probar esto, los autores consideran una gama de parámetros de regularización, seleccionando uno que brinde el mejor rendimiento.


Un trabajo más reciente [18] menciona la encuesta en [15] en la que las características comúnmente utilizadas en el campo de la autoría son los n-gramas de palabras y caracteres. Como se ha señalado, existen riesgos de que los métodos estadísticos puedan estar sesgados por patrones relacionados con el tema. Como observa [18], “un clasificador de autoría (incluso uno aparentemente bueno) podría terminar realizando involuntariamente una identificación de temas si se utilizan características dependientes del dominio. ... Para evitar esto, los investigadores podrían limitar su alcance a características que son claramente independientes del tema, como palabras funcionales o características sintácticas”. El trabajo presentado aquí cae en la última categoría, haciendo uso de estructuras gramaticales extraídas estadísticamente del texto. Estas parecen ser difíciles de falsificar. El examen de otros trabajos recientes [19, 20] indica que existe un interés continuo en los métodos de identificación de autores, pero ninguno hace uso de las estructuras gramaticales utilizadas aquí; hay una tendencia a confiar más en los n-gramas tradicionales.


En este trabajo, los vectores de características se obtienen utilizando información de árboles de análisis sintáctico de una herramienta de análisis sintáctico de lenguaje natural [21]. Estas características no estaban entre las características consideradas en [16]. Las estructuras gramaticales son, al parecer, más sutiles que los simples recuentos de clases de palabras y, por lo tanto, pueden estar menos sujetas a la suplantación o al sesgo temático, ya que parece poco probable que un autor que intente imitar a otro sea capaz de rastrear de manera coherente patrones de uso complicados, y las características no incluyen ninguna palabra de los documentos. Se encontró que las características basadas en árboles funcionan mejor que las características POS en los datos de prueba considerados.


Los vectores de características así obtenidos pueden ser de dimensión muy alta, por lo que aquí también se realiza una reducción de dimensión. Sin embargo, para lidiar con la singularidad de la matriz de dispersión dentro del grupo, se utiliza un enfoque SVD generalizado, que evita la necesidad de seleccionar un parámetro de regularización.


Este artículo ofrece una prueba de concepto de estas características basadas en árboles para distinguir la autoría aplicándolas a documentos que se han examinado previamente, como The Federalist Papers y Sanditon. Se explora la capacidad de clasificar por autoría para varios vectores de características obtenidos a partir de la información analizada.


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.