ผู้แต่ง:
(1) ท็อดด์ เค. มูน ภาควิชาวิศวกรรมไฟฟ้าและคอมพิวเตอร์ มหาวิทยาลัยรัฐยูทาห์ โลแกน ยูทาห์
(2) Jacob H. Gunther ภาควิชาวิศวกรรมไฟฟ้าและคอมพิวเตอร์ มหาวิทยาลัย Utah State เมืองโลแกน รัฐ Utah
2 การแยกวิเคราะห์ทางสถิติและคุณลักษณะการแยกข้อมูล
7 บทสรุป การอภิปราย และการทำงานในอนาคต
ก. บทนำสั้น ๆ เกี่ยวกับการแยกวิเคราะห์สถิติ
B. การลดมิติ: รายละเอียดทางคณิตศาสตร์บางประการ
ในช่วงหลายปีที่ผ่านมา มีความสนใจอย่างต่อเนื่องในการตรวจจับผู้ประพันธ์ข้อความโดยอิงจากคุณสมบัติทางสถิติของข้อความ เช่น การใช้อัตราการเกิดของคำที่ไม่เกี่ยวข้องกับบริบท ในงานก่อนหน้านี้ เทคนิคเหล่านี้ถูกนำมาใช้ ตัวอย่างเช่น เพื่อระบุผู้ประพันธ์ของ The Federalist Papers ทั้งหมด วิธีการดังกล่าวอาจมีประโยชน์ในยุคสมัยใหม่ในการตรวจจับผู้ประพันธ์ปลอมหรือ AI ความก้าวหน้าของตัวแยกวิเคราะห์ภาษาธรรมชาติเชิงสถิติทำให้สามารถใช้โครงสร้างไวยากรณ์เพื่อตรวจจับผู้ประพันธ์ได้ ในบทความนี้ เราจะสำรวจความเป็นไปได้ใหม่ในการตรวจจับผู้ประพันธ์โดยใช้ข้อมูลโครงสร้างไวยากรณ์ที่สกัดโดยใช้ตัวแยกวิเคราะห์ภาษาธรรมชาติเชิงสถิติ บทความนี้นำเสนอการพิสูจน์แนวคิด โดยทดสอบการจำแนกผู้ประพันธ์ตามโครงสร้างไวยากรณ์ของ "ข้อความพิสูจน์" ชุดหนึ่ง The Federalist Papers และ Sanditon ซึ่งเป็นกรณีทดสอบในการศึกษาการตรวจจับผู้ประพันธ์ก่อนหน้านี้ มีการสำรวจคุณลักษณะหลายอย่างที่สกัดจากตัวแยกวิเคราะห์ภาษาธรรมชาติเชิงสถิติ ได้แก่ ซับทรีทั้งหมดที่มีความลึกในระดับใดก็ได้ ซับทรีที่ฝังรากลึกในระดับความลึก ส่วนของคำพูด และส่วนของคำพูดตามระดับในทรีการแยกวิเคราะห์ พบว่าการฉายคุณลักษณะลงในพื้นที่มิติที่ต่ำกว่านั้นมีประโยชน์ การทดลองทางสถิติกับเอกสารเหล่านี้แสดงให้เห็นว่าข้อมูลจากตัวแยกวิเคราะห์ทางสถิติสามารถช่วยแยกแยะผู้เขียนได้จริง
ในช่วงหลายปีที่ผ่านมา มีความพยายามอย่างมากในการใช้วิธีการทางสถิติเพื่อระบุผู้ประพันธ์ข้อความ โดยอาศัยตัวอย่างจากผู้ประพันธ์ที่เสนอ ซึ่งบางครั้งเรียกว่า "สไตโลเมทรี" หรือ "การระบุผู้ประพันธ์" การวิเคราะห์ทางสถิติของเอกสารย้อนกลับไปถึงออกัสตัส เดอ มอร์แกนในปี 1851 [1, หน้า 282], [2, หน้า 166] ซึ่งเสนอว่าสถิติความยาวของคำอาจใช้ในการระบุผู้ประพันธ์จดหมายของนักบุญเปาโล สไตโลเมทรีถูกนำมาใช้ตั้งแต่ปี 1901 เพื่อสำรวจผู้ประพันธ์ของเชกสเปียร์ [3] ตั้งแต่นั้นมา สไตโลเมทรีก็ถูกนำมาใช้ในงานศึกษาวรรณกรรมต่างๆ (ดู เช่น [4, 5, 6]) รวมถึงเอกสาร The Federalist Papers จำนวน 12 ฉบับที่ระบุว่าผู้ประพันธ์ไม่แน่ชัด [7] ซึ่งเราจะตรวจสอบใหม่อีกครั้งที่นี่ และนวนิยายที่ยังไม่เสร็จของเจน ออสเตน ซึ่งเราจะตรวจสอบใหม่อีกครั้งที่นี่ เทคนิคทางทฤษฎีสารสนเทศยังถูกนำมาใช้เมื่อไม่นานนี้ [8] งานก่อนหน้านี้ในด้านการเขียนแบบสไตโลเมตรีนั้นอิงจาก "คำที่ไม่เกี่ยวข้องกับบริบท" ซึ่งเป็นคำที่ไม่สามารถสื่อความหมายหลักของข้อความได้ แต่ทำหน้าที่เป็นพื้นหลังของข้อความเพื่อสร้างโครงสร้างและการไหล คำที่ไม่เกี่ยวข้องกับบริบทนั้นมีความสมเหตุสมผลอย่างน้อย เนื่องจากผู้เขียนอาจกล่าวถึงหัวข้อต่างๆ ดังนั้น คำเฉพาะที่แยกแยะได้จึงไม่จำเป็นต้องเปิดเผยถึงผู้ประพันธ์เสมอไป ในการศึกษาคำที่ไม่เกี่ยวข้องกับบริบท จะเลือกชุดคำทั่วไปที่ไม่ใช่ตามบริบท [2] และเอกสารจะแสดงด้วยจำนวนคำหรืออัตราส่วนของจำนวนคำต่อความยาวของเอกสาร การตรวจสอบวิธีการทางสถิติอยู่ใน [9] นอกจากนี้ ยังมีการใช้ชุดอัตราส่วนของจำนวนรูปแบบคำที่ไม่เกี่ยวข้องกับบริบทกับรูปแบบคำอื่นๆ อีกด้วย [10] นอกจากนี้ ยังมีการสำรวจการวิเคราะห์ทางสถิติโดยอิงจากขนาดคำศัพท์ของผู้เขียนเทียบกับความยาวของเอกสาร ซึ่งก็คือ "ความอุดมสมบูรณ์ของคำศัพท์" [11] สำหรับผลงานที่เกี่ยวข้องอื่นๆ โปรดดู [12, 13, 14, 15]
เอกสารฉบับล่าสุด [16] พิจารณาถึงประสิทธิภาพของชุดคุณลักษณะที่หลากหลาย ชุดคุณลักษณะที่พิจารณานั้นได้แก่ เวกเตอร์ที่ประกอบด้วยความถี่ของสรรพนาม คำฟังก์ชัน (นั่นคือ คำนำหน้านาม อนุภาค คำหยาบคาย) ส่วนของคำพูด (POS) คำที่ใช้บ่อยที่สุด คุณลักษณะทางวากยสัมพันธ์ (เช่น วลีนามหรือวลีกริยา) หรือกาล (เช่น การใช้กาลปัจจุบันหรืออดีต) เสียงพูด (กริยากรรมหรือกริยากรรม) ในเอกสาร [16] เวกเตอร์คุณลักษณะถูกสร้างขึ้นจากการรวมกันของฮิสโทแกรม จากนั้นจึงลดขนาดลงโดยใช้กระบวนการสองขั้นตอนของการวิเคราะห์องค์ประกอบหลัก [17] ตามด้วยการลดขนาดลงโดยใช้การวิเคราะห์การแยกแยะเชิงเส้น (LDA) ในเอกสาร LDA เมทริกซ์กระจัดกระจายภายในคลัสเตอร์จะเป็นเอกพจน์ (เนื่องจากเวกเตอร์คุณลักษณะมีมิติสูงเมื่อเทียบกับจำนวนเวกเตอร์ฝึกที่มีอยู่) ดังนั้นเมทริกซ์กระจัดกระจายจึงได้รับการปรับให้เหมาะสม เพื่อทดสอบสิ่งนี้ ผู้เขียนจะพิจารณาพารามิเตอร์การปรับให้เหมาะสมหลายช่วง โดยเลือกพารามิเตอร์ที่ให้ประสิทธิภาพที่ดีที่สุด
งานล่าสุด [18] กล่าวถึงการสำรวจใน [15] ซึ่งคุณลักษณะที่ใช้กันทั่วไปในสาขาผู้ประพันธ์คือ n-grams ของคำและอักขระ ดังที่สังเกต มีความเสี่ยงที่วิธีการทางสถิติอาจลำเอียงเนื่องจากรูปแบบที่เกี่ยวข้องกับหัวข้อ ดังที่สังเกต [18] “ตัวจำแนกผู้ประพันธ์ (แม้จะดูเหมือนดี) อาจลงเอยด้วยการระบุหัวข้อโดยไม่ได้ตั้งใจหากใช้คุณลักษณะที่ขึ้นอยู่กับโดเมน ... เพื่อหลีกเลี่ยงสิ่งนี้ นักวิจัยอาจจำกัดขอบเขตให้เฉพาะคุณลักษณะที่ไม่เกี่ยวข้องกับหัวข้ออย่างชัดเจน เช่น คำฟังก์ชันหรือคุณลักษณะทางวากยสัมพันธ์” งานที่นำเสนอในที่นี้จัดอยู่ในประเภทหลัง โดยใช้โครงสร้างไวยากรณ์ที่สกัดมาจากข้อความทางสถิติ ซึ่งดูเหมือนว่าจะปลอมแปลงได้ยาก การตรวจสอบงานล่าสุดอื่นๆ [19, 20] บ่งชี้ว่ามีผู้สนใจวิธีการระบุผู้ประพันธ์อย่างต่อเนื่อง แต่ไม่มีการใช้โครงสร้างไวยากรณ์ที่ใช้ในที่นี้ มีแนวโน้มที่จะพึ่งพา n-grams แบบดั้งเดิมมากขึ้น
ในงานนี้ เวกเตอร์คุณลักษณะจะได้รับโดยใช้ข้อมูลต้นไม้จากต้นไม้ที่แยกวิเคราะห์จากเครื่องมือแยกวิเคราะห์ภาษาธรรมชาติ [21] คุณลักษณะเหล่านี้ไม่ได้อยู่ในคุณลักษณะที่พิจารณาใน [16] โครงสร้างไวยากรณ์ดูเหมือนจะละเอียดอ่อนกว่าการนับคลาสของคำอย่างง่าย และด้วยเหตุนี้จึงอาจตกอยู่ภายใต้การหลอกลวงหรืออคติของหัวข้อน้อยกว่า เนื่องจากดูเหมือนว่าผู้เขียนที่ตั้งใจจะเลียนแบบผู้อื่นจะไม่สามารถติดตามรูปแบบการใช้งานที่ซับซ้อนได้อย่างสอดคล้องกัน และคุณลักษณะเหล่านี้ไม่มีคำใดๆ จากเอกสาร พบว่าคุณลักษณะที่ใช้ต้นไม้ทำงานได้ดีกว่าคุณลักษณะ POS ในข้อมูลทดสอบที่พิจารณา
เวกเตอร์คุณลักษณะที่ได้อาจมีมิติสูงมาก ดังนั้นจึงต้องทำการลดมิติในกรณีนี้ด้วย อย่างไรก็ตาม เพื่อจัดการกับความแปลกประหลาดของเมทริกซ์กระเจิงภายในคลัสเตอร์ จะใช้แนวทาง SVD ทั่วไป ซึ่งหลีกเลี่ยงความจำเป็นในการเลือกพารามิเตอร์การปรับให้เป็นมาตรฐาน
เอกสารนี้นำเสนอแนวคิดการพิสูจน์ของคุณลักษณะตามโครงสร้างต้นไม้เหล่านี้เพื่อแยกแยะผู้ประพันธ์โดยนำไปใช้กับเอกสารที่ได้รับการตรวจสอบก่อนหน้านี้แล้ว ได้แก่ The Federalist Papers และ Sanditon ความสามารถในการจำแนกตามผู้ประพันธ์ได้รับการสำรวจสำหรับเวกเตอร์คุณลักษณะหลายตัวที่ได้จากข้อมูลที่แยกวิเคราะห์
เอกสารนี้ เผยแพร่บน arxiv ภายใต้ใบอนุญาต CC BY 4.0 DEED