Forfattere:
(1) Todd K. Moon, Electrical and Computer Engineering Department, Utah State University, Logan, Utah;
(2) Jacob H. Gunther, Electrical and Computer Engineering Department, Utah State University, Logan, Utah.
Abstrakt og 1 Introduktion og Baggrund
2 Statistisk parsing og udtrukne funktioner
7 Konklusioner, diskussion og fremtidigt arbejde
A. En kort introduktion til statistisk parsing
B. Dimensionsreduktion: Nogle matematiske detaljer
I årenes løb har der været en løbende interesse for at opdage forfatterskab til en tekst baseret på tekstens statistiske egenskaber, såsom ved at bruge forekomstfrekvenser af ikke-kontekstuelle ord. I tidligere arbejde er disse teknikker blevet brugt, for eksempel til at bestemme forfatterskabet til alle The Federalist Papers. Sådanne metoder kan være nyttige i mere moderne tid til at opdage falske eller AI-forfatterskab. Fremskridt i statistiske parsere af naturligt sprog introducerer muligheden for at bruge grammatisk struktur til at opdage forfatterskab. I denne artikel udforsker vi en ny mulighed for at opdage forfatterskab ved hjælp af grammatisk strukturel information udvundet ved hjælp af en statistisk naturlig sprogparser. Dette papir giver et proof of concept, der tester forfatterklassificering baseret på grammatisk struktur på et sæt "bevistekster", The Federalist Papers og Sanditon, som har været testcases i tidligere forfatterskabsdetektionsundersøgelser. Adskillige træk, der er udtrukket fra den statistiske natursprog-parser, blev undersøgt: alle undertræer af en vis dybde fra ethvert niveau; rodfæstede undertræer af en vis dybde, del af tale og del af tale efter niveau i parsetræet. Det viste sig at være nyttigt at projicere funktionerne ind i et rum med lavere dimensioner. Statistiske eksperimenter på disse dokumenter viser, at information fra en statistisk parser faktisk kan hjælpe med at skelne forfattere.
Der har været en betydelig indsats gennem årene relateret til at bruge statistiske metoder til at identificere forfatterskab af tekster, baseret på eksempler fra kandidatforfattere, i det, der nogle gange kaldes "stylometri" eller "forfatteridentifikation." Statistisk analyse af dokumenter går tilbage til Augustus de Morgan i 1851 [1, s. 282], [2, s. 166], som foreslog, at ordlængdestatistikker kunne bruges til at bestemme forfatterskabet af de paulinske epistler. Stylometri blev brugt allerede i 1901 for at udforske Shakespeares forfatterskab [3]. Siden da har den været anvendt i en række litteraturstudier (se f.eks. [4, 5, 6]), herunder tolv af The Federalist Papers, som var af usikker forfatterskab [7] - som vi genovervejer her - og en ufærdig roman af Jane Austen - som vi også genbehandler her. Informationsteoretiske teknikker er også blevet brugt for nylig [8]. Tidligere arbejde i stilometri har været baseret på "ikke-kontekstuelle ord", ord som ikke formidler tekstens primære betydning, men som virker i tekstens baggrund for at give struktur og flow. Ikke-kontekstuelle ord er i det mindste plausible, eftersom en forfatter kan tage fat på en række forskellige emner, så særlige kendetegnende ord afslører ikke nødvendigvis forfatterskabet. I ikke-kontekstuelle ordstudier vælges et sæt af de mest almindelige ord ikke-kontekstuelle [2], og dokumenter er repræsenteret ved ordantal eller forhold mellem ordtal og dokumentlængde. En gennemgang af de statistiske metoder findes i [9]. Som en variation anvendes sæt af forhold mellem antallet af ikke-kontekstuelle ordmønstre og andre ordmønstre også [10]. Statistisk analyse baseret på forfatterens ordforråds størrelse vs. dokumentlængden - "ordforrådets rigdom" - er også blevet undersøgt [11]. For andet relateret arbejde, se [12, 13, 14, 15]
Et nyere dokument [16] overvejer effektiviteten af en lang række funktioner. Funktionssæt, der betragtes der, omfatter: vektorer, der omfatter frekvenser af pronominer; funktionsord (det vil sige artikler, stedord, partikler, udtryksord); orddel (POS); mest almindelige ord; syntaktiske træk (såsom navneord eller verbumssætning); eller tid (f.eks. brug af nutid eller datid); stemme (aktiv eller passiv). I [16] dannes trækvektorer ud fra kombinationer af histogrammer, der derefter reduceres i dimensionalitet ved hjælp af en to-trins proces med principiel komponentanalyse [17] efterfulgt af dimensionsreduktion ved hjælp af lineær diskriminantanalyse (LDA). I deres LDA er spredningsmatrixen inden for klyngen singulær (på grund af den høje dimension af funktionsvektorerne i forhold til antallet af tilgængelige træningsvektorer), så deres spredningsmatrix er regulariseret. For at teste dette overvejer forfatterne en række regulariseringsparametre og vælger en, der giver den bedste ydeevne.
Nyere arbejde [18] nævner undersøgelsen i [15], hvor almindeligt anvendte træk i forfatterskabsfeltet er ord og tegn n-gram. Som nævnt er der risici for, at de statistiske metoder kan være forudindtaget af emnerelaterede mønstre. Som [18] bemærker, "kan en forfatterskabsklassificerer (selv en tilsyneladende god en) ende med utilsigtet at udføre emneidentifikation, hvis domæneafhængige funktioner bruges. ... For at undgå dette kan forskerne begrænse deres omfang til funktioner, der er klart emneagnostiske, såsom funktionsord eller syntaktiske træk.” Det arbejde, der præsenteres her, falder i den sidstnævnte kategori og gør brug af grammatiske strukturer, der er statistisk udtrukket fra teksten. Disse ser ud til at være svære at forfalske. Undersøgelse af andre nyere værker [19, 20] viser, at der er vedvarende interesse for forfatteridentifikationsmetoder, men ingen gør brug af de grammatiske strukturer, der bruges her; der er en tendens til at stole mere på traditionelle n-gram.
I dette arbejde opnås funktionsvektorerne ved hjælp af træinformation fra parsetræer fra et parsingværktøj for naturligt sprog [21]. Disse funktioner var ikke blandt de funktioner, der blev behandlet i [16]. De grammatiske strukturer er, tilsyneladende, mere subtile end simple optællinger af ordklasser og kan derfor være mindre genstand for spoofing eller emnebias, da det virker usandsynligt, at en forfatter, der har til hensigt at efterligne en anden, ville være i stand til sammenhængende at spore komplicerede brugsmønstre, og funktionerne inkluderer ingen ord fra dokumenterne. Det har vist sig, at de træbaserede funktioner klarer sig bedre end POS-funktionerne på de overvejede testdata.
De således opnåede egenskabsvektorer kan være af meget høj dimension, så dimensionsreduktion udføres også her. For at håndtere singulariteten af spredningsmatricen inden for klyngen anvendes en generaliseret SVD-tilgang, som undgår behovet for at vælge en regulariseringsparameter.
Dette papir giver et proof-of-concept af disse træbaserede funktioner for at skelne forfatterskab ved at anvende dem på dokumenter, der tidligere er blevet undersøgt, The Federalist Papers og Sanditon. Evnen til at klassificere efter forfatterskab undersøges for adskillige funktionsvektorer opnået fra den parsede information.
Dette papir er tilgængeligt på arxiv under CC BY 4.0 DEED-licens.