Autores:
(1) Todd K. Moon, Departamento de Engenharia Elétrica e de Computação, Universidade Estadual de Utah, Logan, Utah;
(2) Jacob H. Gunther, Departamento de Engenharia Elétrica e de Computação, Universidade Estadual de Utah, Logan, Utah.
Resumo e 1 Introdução e Contexto
2 Análise Estatística e Recursos Extraídos
3 Recursos da árvore de análise
7 Conclusões, Discussão e Trabalho Futuro
A. Uma breve introdução à análise estatística
B. Redução de Dimensão: Alguns Detalhes Matemáticos
Ao longo dos anos, tem havido interesse contínuo em detectar a autoria de um texto com base em propriedades estatísticas do texto, como usar taxas de ocorrência de palavras não contextuais. Em trabalhos anteriores, essas técnicas foram usadas, por exemplo, para determinar a autoria de todos os The Federalist Papers. Esses métodos podem ser úteis em tempos mais modernos para detectar autoria falsa ou de IA. O progresso em analisadores estatísticos de linguagem natural introduz a possibilidade de usar estrutura gramatical para detectar autoria. Neste artigo, exploramos uma nova possibilidade de detectar autoria usando informações estruturais gramaticais extraídas usando um analisador estatístico de linguagem natural. Este artigo fornece uma prova de conceito, testando a classificação do autor com base na estrutura gramatical em um conjunto de "textos de prova", The Federalist Papers e Sanditon, que foram como casos de teste em estudos anteriores de detecção de autoria. Vários recursos extraídos do analisador estatístico de linguagem natural foram explorados: todas as subárvores de alguma profundidade de qualquer nível; subárvores enraizadas de alguma profundidade, classe gramatical e classe gramatical por nível na árvore de análise. Foi descoberto que é útil projetar as características em um espaço de menor dimensão. Experimentos estatísticos nesses documentos demonstram que informações de um analisador estatístico podem, de fato, auxiliar na distinção de autores.
Houve um esforço considerável ao longo dos anos relacionado ao uso de métodos estatísticos para identificar a autoria de textos, com base em exemplos de autores candidatos, no que às vezes é chamado de “estilometria” ou “identificação do autor”. A análise estatística de documentos remonta a Augustus de Morgan em 1851 [1, p. 282], [2, p. 166], que propôs que estatísticas de comprimento de palavra poderiam ser usadas para determinar a autoria das epístolas paulinas. A estilometria foi empregada já em 1901 para explorar a autoria de Shakespeare [3]. Desde então, ela tem sido empregada em uma variedade de estudos literários (veja, por exemplo, [4, 5, 6]), incluindo doze dos The Federalist Papers que eram de autoria incerta [7] — que reexaminamos aqui — e um romance inacabado de Jane Austen — que também reexaminamos aqui. Técnicas teóricas da informação também foram usadas mais recentemente [8]. Trabalhos anteriores em estilometria foram baseados em “palavras não contextuais”, palavras que não transmitem o significado primário do texto, mas que agem no fundo do texto para fornecer estrutura e fluxo. Palavras não contextuais são pelo menos plausíveis, uma vez que um autor pode abordar uma variedade de tópicos, então palavras distintivas particulares não são necessariamente reveladoras de autoria. Em estudos de palavras não contextuais, um conjunto de palavras não contextuais mais comuns é selecionado [2], e os documentos são representados por contagens de palavras, ou proporções de contagens de palavras para o comprimento do documento. Uma revisão dos métodos estatísticos está em [9]. Como uma variação, conjuntos de proporções de contagens de padrões de palavras não contextuais para outros padrões de palavras também são empregados [10]. A análise estatística baseada no tamanho do vocabulário do autor vs. comprimento do documento — a “riqueza do vocabulário” — também foi explorada [11]. Para outros trabalhos relacionados, veja [12, 13, 14, 15]
Um artigo mais recente [16] considera a eficácia de uma ampla variedade de conjuntos de características. Os conjuntos de características considerados incluem: vetores que compreendem frequências de pronomes; palavras funcionais (isto é, artigos, pronomes, partículas, palavrões); classe gramatical (POS); palavras mais comuns; características sintáticas (como sintagma nominal ou sintagma verbal); ou tempo (por exemplo, uso do presente ou do passado); voz (ativa ou passiva). Em [16], os vetores de características são formados a partir de combinações de histogramas, então reduzidos em dimensionalidade usando um processo de dois estágios de análise de componentes principais [17] seguido por redução de dimensão usando análise discriminante linear (LDA). Em sua LDA, a matriz de dispersão dentro do cluster é singular (devido à alta dimensão dos vetores de características em relação ao número de vetores de treinamento disponíveis), então sua matriz de dispersão é regularizada. Para testar isso, os autores consideram uma gama de parâmetros de regularização, selecionando um que fornece o melhor desempenho.
Um trabalho mais recente [18] menciona a pesquisa em [15] na qual os recursos comumente usados no campo de autoria são n-gramas de palavras e caracteres. Conforme observado, há riscos de que os métodos estatísticos possam ser tendenciosos por padrões relacionados ao tópico. Como [18] observa, “um classificador de autoria (mesmo um aparentemente bom) pode acabar realizando involuntariamente a identificação do tópico se recursos dependentes do domínio forem usados. ... Para evitar isso, os pesquisadores podem limitar seu escopo a recursos que são claramente independentes do tópico, como palavras funcionais ou recursos sintáticos.” O trabalho apresentado aqui se enquadra na última categoria, fazendo uso de estruturas gramaticais extraídas estatisticamente do texto. Elas parecem ser difíceis de falsificar. O exame de outros trabalhos recentes [19, 20] indica que há um interesse contínuo em métodos de identificação de autores, mas nenhum fazendo uso das estruturas gramaticais usadas aqui; há uma tendência a confiar mais nos n-gramas tradicionais.
Neste trabalho, os vetores de características são obtidos usando informações de árvore de árvores de análise sintática de uma ferramenta de análise sintática de linguagem natural [21]. Essas características não estavam entre as características consideradas em [16]. As estruturas gramaticais são, ao que parece, mais sutis do que contagens simples de classes de palavras e, portanto, podem estar menos sujeitas a falsificação ou viés de tópico, uma vez que parece improvável que um autor que pretenda imitar outro seja capaz de rastrear coerentemente padrões complicados de uso, e as características não incluem nenhuma palavra dos documentos. Foi descoberto que as características baseadas em árvore têm melhor desempenho do que as características POS nos dados de teste considerados.
Os vetores de características assim obtidos podem ser de dimensão muito alta, então a redução de dimensão também é realizada aqui. No entanto, para lidar com a singularidade da matriz de dispersão dentro do cluster, uma abordagem SVD generalizada é usada, o que evita a necessidade de selecionar um parâmetro de regularização.
Este artigo fornece uma prova de conceito desses recursos baseados em árvore para distinguir autoria aplicando-os a documentos que foram examinados anteriormente, The Federalist Papers e Sanditon. A capacidade de classificar por autoria é explorada para vários vetores de recursos obtidos a partir das informações analisadas.
Este artigo está disponível no arxiv sob a licença CC BY 4.0 DEED.