paint-brush
לכתיבה שלך יש טביעת אצבע - ודגם הבינה המלאכותית החדיש הזה יכול לזהות אותהעל ידי@authoring
היסטוריה חדשה

לכתיבה שלך יש טביעת אצבע - ודגם הבינה המלאכותית החדיש הזה יכול לזהות אותה

על ידי Authoring5m2025/03/07
Read on Terminal Reader

יותר מדי זמן; לקרוא

מחקר זה מציג שיטת זיהוי מחברים חדשה באמצעות מבנים דקדוקיים ממנתחי שפה טבעית. על ידי ניתוח דפוסים תחביריים מבוססי עץ, הגישה עולה על טכניקות הסטיילומטריה המסורתיות, ומציעה דרך חזקה להבחין בין מחברים אמיתיים לבין טקסט שנוצר בינה מלאכותית או חיקוי.
featured image - לכתיבה שלך יש טביעת אצבע - ודגם הבינה המלאכותית החדיש הזה יכול לזהות אותה
Authoring HackerNoon profile picture
0-item

מחברים:

(1) טוד ק. מון, המחלקה להנדסת חשמל ומחשבים, אוניברסיטת יוטה, לוגן, יוטה;

(2) ג'ייקוב ה' גונתר, המחלקה להנדסת חשמל ומחשבים, אוניברסיטת יוטה, לוגן, יוטה.

טבלת קישורים

תקציר ו-1 מבוא ורקע

2 תכונות ניתוח סטטיסטי וחילוץ

3 תכונות ניתוח עץ

4 מסווג

הפחתת מימדים 5

6 המסמכים הפדרליסטים

6.1 סנדיטון

7 מסקנות, דיון ועבודה עתידית

א. מבוא קצר לניתוח סטטיסטי

ב. הפחתת מימד: כמה פרטים מתמטיים

הפניות

תַקצִיר

במהלך השנים היה עניין מתמשך בזיהוי מחבר של טקסט על סמך מאפיינים סטטיסטיים של הטקסט, כגון שימוש בשיעורי התרחשות של מילים לא-קונטקסטואליות. בעבודות קודמות, נעשה שימוש בטכניקות אלה, למשל, כדי לקבוע את המחבר של כל המסמכים הפדרליסטים. שיטות כאלה עשויות להיות שימושיות בזמנים מודרניים יותר כדי לזהות מחבר מזויף או בינה מלאכותית. התקדמות במנתחי שפה טבעית סטטיסטית מציגה את האפשרות להשתמש במבנה דקדוקי כדי לזהות מחבר. במאמר זה אנו בוחנים אפשרות חדשה לזיהוי מחבר באמצעות מידע מבני דקדוקי המופק באמצעות מנתח סטטיסטי של שפה טבעית. מאמר זה מספק הוכחה לקונספט, בודק סיווג מחבר על בסיס מבנה דקדוקי על קבוצה של "טקסטים הוכחה", The Federalist Papers ו-Sanditon שהיו כמקרי מבחן במחקרי זיהוי מחברים קודמים. נחקרו מספר תכונות שחולצו ממנתח השפה הטבעית הסטטיסטית: כל תת-העצים בעומק כלשהו מכל רמה; תת-עצים מושרשים של עומק מסוים, חלק מהדיבור וחלק מהדיבור לפי רמה בעץ הניתוח. נמצא שזה מועיל להקרין את התכונות לתוך חלל ממדי נמוך יותר. ניסויים סטטיסטיים על מסמכים אלה מוכיחים שמידע ממנתח סטטיסטי יכול, למעשה, לסייע בהבחנה בין מחברים.

1 מבוא ורקע

היה מאמץ ניכר במהלך השנים הקשורות לשימוש בשיטות סטטיסטיות לזיהוי מחבר של טקסטים, בהתבסס על דוגמאות מחברים מועמדים, במה שנקרא לפעמים "סטיילומטריה" או "זיהוי מחבר". ניתוח סטטיסטי של מסמכים חוזר לאוגוסטוס דה מורגן ב-1851 [1, עמ'. 282], [2, עמ'. 166], שהציע שניתן להשתמש בסטטיסטיקה של אורך מילים כדי לקבוע את מחברן של האיגרות הפאוליניות. הסטילומטריה הופעלה כבר בשנת 1901 כדי לחקור את מחברו של שייקספיר [3]. מאז, היא הועסקה במגוון מחקרים ספרותיים (ראה, למשל [4, 5, 6]), כולל שנים-עשר מהמסמכים הפדרליסטים שהיו בעלי סופר לא ודאי [7] - אותם אנו בוחנים מחדש כאן - ורומן לא גמור מאת ג'יין אוסטן - שגם אותו אנו בוחנים מחדש כאן. לאחרונה נעשה שימוש גם בטכניקות תיאורטיות של מידע [8]. עבודה קודמת בסטיילומטריה התבססה על "מילים לא-קונטקסטואליות", מילים שאינן מעבירות את המשמעות העיקרית של הטקסט, אך פועלות ברקע של הטקסט כדי לספק מבנה וזרימה. מילים לא-קונטקסטואליות הן לפחות סבירות, מכיוון שמחבר עשוי להתייחס למגוון נושאים, כך שמילים מיוחדות המבדילות אינן בהכרח חושפות את המחבר. במחקרי מילים לא-קונטקסטואליים, נבחרה קבוצה של המילים הנפוצות ביותר שאינן הקשריות [2], ומסמכים מיוצגים על ידי ספירת מילים, או יחסים של ספירת מילים לאורך המסמך. סקירה של השיטות הסטטיסטיות נמצאת ב- [9]. כווריאציה, קבוצות של יחסים של ספירות של דפוסי מילים לא-קונטקסטואליים לתבניות מילים אחרות משמשות גם כן [10]. ניתוח סטטיסטי המבוסס על גודל אוצר המילים של המחבר לעומת אורך המסמך - "עושר אוצר המילים" - נחקר גם הוא [11]. לעבודה קשורה אחרת, ראה [12, 13, 14, 15]

מאמר עדכני יותר [16] שוקל את היעילות של מגוון רחב של ערכות תכונות. ערכות תכונות הנחשבות שם כוללות: וקטורים הכוללים תדרים של כינויים; מילות פונקציה (כלומר, מאמרים, כינויים, חלקיקים, ביטויים); חלק מהדיבור (POS); המילים הנפוצות ביותר; תכונות תחביריות (כגון ביטוי עצם, או ביטוי פועל); או זמן (למשל שימוש בזמן הווה או עבר); קול (פעיל או פסיבי). ב-[16], וקטורים של תכונה נוצרים משילובים של היסטוגרמות, ואז מופחתים בממדיות באמצעות תהליך דו-שלבי של ניתוח רכיבים עקרוני [17] ואחריו הפחתת מימד באמצעות ניתוח מבחין ליניארי (LDA). ב-LDA שלהם, מטריצת הפיזור בתוך אשכול היא יחידה (בשל הממד הגבוה של וקטורי התכונה ביחס למספר וקטורי האימון הזמינים), ולכן מטריצת הפיזור שלהם מסודרת. כדי לבדוק זאת, המחברים שוקלים מגוון פרמטרים של רגולציה, ובוחרים אחד שנותן את הביצועים הטובים ביותר.


עבודה עדכנית יותר [18] מזכירה את הסקר ב- [15] שבו תכונות נפוצות בתחום המחבר הן מילה ותווים n-grams. כפי שצוין, ישנם סיכונים שהשיטות הסטטיסטיות עשויות להיות מוטות על ידי דפוסים הקשורים לנושא. כפי שצוין [18], "מסווג מחברים (אפילו טוב לכאורה) עלול בסופו של דבר לבצע זיהוי נושא ללא כוונה אם נעשה שימוש בתכונות תלויות תחום. ... על מנת להימנע מכך, חוקרים עשויים להגביל את היקפם לתכונות שהן בבירור אגנוסטיות לנושא, כמו מילות פונקציה או תכונות תחביריות." העבודה המוצגת כאן נכללת בקטגוריה האחרונה, תוך שימוש במבנים דקדוקיים המופקים סטטיסטית מהטקסט. נראה שקשה לזייף אותם. בדיקה של יצירות אחרונות אחרות [19, 20] מצביעות על כך שיש עניין מתמשך בשיטות זיהוי מחבר, אך אף אחת מהן לא עושה שימוש במבנים הדקדוקיים שבהם משתמשים כאן; יש נטייה להסתמך יותר על n-גרם מסורתיים.


בעבודה זו מתקבלים וקטורי התכונה באמצעות מידע עצים מעצי ניתוח מכלי ניתוח שפה טבעית [21]. תכונות אלו לא היו בין התכונות שנחשבו ב-[16]. המבנים הדקדוקיים הם, כך נראה, עדינים יותר מספירות פשוטות של מחלקות מילים, ולכן עשויים להיות פחות כפופים לזיוף או הטיית נושא, מכיוון שלא נראה סביר שמחבר המתכוון לחקות אחר יוכל לעקוב באופן קוהרנטי אחר דפוסי שימוש מסובכים, והתכונות אינן כוללות אף מילים מהמסמכים. נמצא שהתכונות מבוססות העצים מתפקדות טוב יותר מתכונות הקופה בנתוני הבדיקה הנחשבים.


וקטורי התכונה המתקבלים כך יכולים להיות בעלי מימד גבוה מאוד, כך שהפחתת מימד מבוצעת גם כאן. עם זאת, כדי להתמודד עם הייחודיות של מטריצת הפיזור בתוך אשכול, נעשה שימוש בגישת SVD כללית, המונעת את הצורך בבחירת פרמטר רגוליזציה.


מאמר זה מספק הוכחה לקונספט של מאפיינים מבוססי עצים אלה כדי להבחין בין מחברים על ידי החלתם על מסמכים שנבדקו בעבר, The Federalist Papers ו-Sanditon. היכולת לסווג לפי מחבר נבדקת עבור מספר וקטורים של תכונה המתקבלים מהמידע המנתח.


מאמר זה זמין ב-arxiv תחת רישיון CC BY 4.0 DEED.