Pengarang:
(1) Todd K. Moon, Jabatan Kejuruteraan Elektrik dan Komputer, Universiti Negeri Utah, Logan, Utah;
(2) Jacob H. Gunther, Jabatan Kejuruteraan Elektrik dan Komputer, Universiti Negeri Utah, Logan, Utah.
Abstrak dan 1 Pengenalan dan Latar Belakang
2 Penghuraian Statistik dan Ciri yang Diekstrak
7 Kesimpulan, Perbincangan, dan Kerja Masa Depan
A. Pengenalan Ringkas kepada Penghuraian Statistik
B. Pengurangan Dimensi: Beberapa Butiran Matematik
Selama bertahun-tahun terdapat minat berterusan untuk mengesan kepengarangan teks berdasarkan sifat statistik teks, seperti dengan menggunakan kadar kejadian perkataan bukan kontekstual. Dalam kerja sebelumnya, teknik ini telah digunakan, sebagai contoh, untuk menentukan pengarang semua The Federalist Papers. Kaedah sedemikian mungkin berguna pada zaman yang lebih moden untuk mengesan pengarang palsu atau AI. Kemajuan dalam penghurai bahasa semula jadi statistik memperkenalkan kemungkinan menggunakan struktur tatabahasa untuk mengesan kepengarangan. Dalam makalah ini kami meneroka kemungkinan baharu untuk mengesan kepengarangan menggunakan maklumat struktur tatabahasa yang diekstrak menggunakan penghurai bahasa semula jadi statistik. Makalah ini menyediakan bukti konsep, menguji klasifikasi pengarang berdasarkan struktur tatabahasa pada satu set "teks bukti," The Federalist Papers dan Sanditon yang telah menjadi kes ujian dalam kajian pengesanan pengarang sebelum ini. Beberapa ciri yang diekstrak daripada penghurai bahasa semula jadi statistik telah diterokai: semua subpokok dengan kedalaman tertentu dari mana-mana peringkat; subpokok berakar pada kedalaman tertentu, sebahagian daripada pertuturan, dan sebahagian daripada pertuturan mengikut tahap dalam pokok huraian. Ia didapati membantu untuk menayangkan ciri ke dalam ruang dimensi yang lebih rendah. Eksperimen statistik pada dokumen ini menunjukkan bahawa maklumat daripada penghurai statistik boleh, sebenarnya, membantu dalam membezakan pengarang.
Terdapat banyak usaha selama bertahun-tahun yang berkaitan dengan menggunakan kaedah statistik untuk mengenal pasti kepengarangan teks, berdasarkan contoh daripada calon pengarang, dalam apa yang kadangkala dipanggil "stilometri" atau "pengenalan pengarang." Analisis statistik dokumen kembali kepada Augustus de Morgan pada tahun 1851 [1, hlm. 282], [2, hlm. 166], yang mencadangkan bahawa statistik panjang perkataan boleh digunakan untuk menentukan pengarang surat-surat Pauline. Stylometry telah digunakan seawal tahun 1901 untuk meneroka kepengarangan Shakespeare [3]. Sejak itu, ia telah digunakan dalam pelbagai kajian sastera (lihat, cth [4, 5, 6]), termasuk dua belas The Federalist Papers yang mempunyai kepengarangan yang tidak pasti [7] — yang kami periksa semula di sini — dan novel yang belum selesai oleh Jane Austen — yang juga kami periksa semula di sini. Teknik teori maklumat juga telah digunakan baru-baru ini [8]. Kerja terdahulu dalam stilometri telah berdasarkan "perkataan bukan kontekstual," perkataan yang tidak menyampaikan makna utama teks, tetapi bertindak di latar belakang teks untuk menyediakan struktur dan aliran. Kata-kata bukan kontekstual sekurang-kurangnya munasabah, memandangkan pengarang boleh menangani pelbagai topik, jadi perkataan yang membezakan tertentu tidak semestinya mendedahkan kepengarangan. Dalam kajian perkataan bukan kontekstual, satu set perkataan bukan kontekstual yang paling biasa dipilih [2], dan dokumen diwakili oleh bilangan perkataan, atau nisbah bilangan perkataan kepada panjang dokumen. Kajian semula kaedah statistik adalah dalam [9]. Sebagai variasi, set nisbah kiraan pola kata bukan kontekstual kepada pola perkataan lain juga digunakan [10]. Analisis statistik berdasarkan saiz perbendaharaan kata pengarang vs. panjang dokumen — “kekayaan kosa kata” — juga telah diterokai [11]. Untuk kerja lain yang berkaitan, lihat [12, 13, 14, 15]
Makalah yang lebih terkini [16] mempertimbangkan keberkesanan pelbagai jenis set ciri. Set ciri yang dipertimbangkan di sana termasuk: vektor yang terdiri daripada frekuensi kata ganti nama; kata fungsi (iaitu, rencana, kata ganti nama, partikel, kata-kata kasar); bahagian ucapan (POS); perkataan yang paling biasa; ciri sintaksis (seperti frasa nama, atau frasa kerja); atau kala (cth penggunaan kala kini atau masa lampau); suara (aktif daripada pasif). Dalam [16], vektor ciri dibentuk daripada gabungan histogram, kemudian dikurangkan dalam dimensi menggunakan proses dua peringkat analisis komponen prinsip [17] diikuti dengan pengurangan dimensi menggunakan analisis diskriminasi linear (LDA). Dalam LDA mereka, matriks serakan dalam kelompok adalah tunggal (disebabkan oleh dimensi tinggi vektor ciri berbanding bilangan vektor latihan yang tersedia), jadi matriks serakan mereka diselaraskan. Untuk menguji ini, penulis mempertimbangkan julat parameter regularisasi, memilih satu yang memberikan prestasi terbaik.
Kerja yang lebih baru [18] menyebut tinjauan dalam [15] di mana ciri yang biasa digunakan dalam bidang kepengarangan ialah perkataan dan aksara n-gram. Seperti yang dinyatakan, terdapat risiko kaedah statistik mungkin berat sebelah oleh corak berkaitan topik. Seperti yang [18] perhatikan, "pengelas kepengarangan (walaupun yang kelihatan baik) mungkin akhirnya melakukan pengenalan topik secara tidak sengaja jika ciri bergantung domain digunakan. ... Untuk mengelakkan perkara ini, penyelidik mungkin mengehadkan skop mereka kepada ciri yang jelas topik-agnostik, seperti perkataan fungsi atau ciri sintaksis. Kerja yang dibentangkan di sini termasuk dalam kategori terakhir, menggunakan struktur tatabahasa yang diekstrak secara statistik daripada teks. Ini nampaknya sukar untuk ditipu. Pemeriksaan karya terbaru yang lain [19, 20] menunjukkan bahawa terdapat minat berterusan dalam kaedah pengenalan pengarang, tetapi tidak ada yang menggunakan struktur tatabahasa yang digunakan di sini; terdapat kecenderungan untuk lebih bergantung pada n-gram tradisional.
Dalam kerja ini, vektor ciri diperoleh menggunakan maklumat pokok daripada pokok parse daripada alat penghuraian bahasa semula jadi [21]. Ciri-ciri ini bukan antara ciri yang dipertimbangkan dalam [16]. Struktur tatabahasa, nampaknya, lebih halus daripada kiraan mudah kelas perkataan, dan oleh itu mungkin kurang tertakluk kepada pemalsuan atau kecenderungan topik, kerana nampaknya tidak mungkin seorang pengarang yang berhasrat untuk meniru orang lain akan dapat menjejaki pola penggunaan yang rumit secara koheren, dan ciri tersebut tidak termasuk sebarang perkataan daripada dokumen. Didapati bahawa ciri berasaskan pokok berprestasi lebih baik daripada ciri POS pada data ujian yang dipertimbangkan.
Vektor ciri yang diperolehi boleh mempunyai dimensi yang sangat tinggi, jadi pengurangan dimensi juga dilakukan di sini. Walau bagaimanapun, untuk menangani kekhususan matriks serakan dalam kelompok, pendekatan SVD umum digunakan, yang mengelakkan keperluan untuk memilih parameter regularisasi.
Kertas kerja ini menyediakan bukti konsep ciri berasaskan pokok ini untuk membezakan kepengarangan dengan mengaplikasikannya pada dokumen yang telah diperiksa sebelum ini, The Federalist Papers dan Sanditon. Keupayaan untuk mengklasifikasikan mengikut kepengarangan diterokai untuk beberapa vektor ciri yang diperoleh daripada maklumat yang dihuraikan.
Kertas kerja ini boleh didapati di arxiv di bawah lesen CC BY 4.0 DEED.