Авторлор:
(1) Тодд К. Мун, Электр жана компьютердик инженерия бөлүмү, Юта мамлекеттик университети, Логан, Юта;
(2) Джейкоб Х. Гюнтер, Электр жана компьютердик инженерия бөлүмү, Юта мамлекеттик университети, Логан, Юта.
Аннотация жана 1 Киришүү жана фон
2 Статистикалык талдоо жана алынган өзгөчөлүктөр
3 Дарактын өзгөчөлүктөрүн талдоо
7 Корутунду, талкуу жана келечектеги иш
A. Статистикалык анализге кыскача киришүү
B. Өлчөмдү кыскартуу: Кээ бир математикалык деталдар
Көптөгөн жылдар бою тексттин статистикалык касиеттеринин негизинде, мисалы, контексттик эмес сөздөрдүн пайда болуу темптерин колдонуу менен тексттин авторлугун аныктоого кызыгуу күчөп келет. Мурунку иштерде бул ыкмалар, мисалы, федералисттик документтердин бардыгынын авторлугун аныктоо үчүн колдонулган. Мындай ыкмалар жасалма же AI авторлугун аныктоо үчүн заманбап мезгилде пайдалуу болушу мүмкүн. Статистикалык табигый тил талдоочуларынын прогресси автордукту аныктоо үчүн грамматикалык түзүлүштү колдонуу мүмкүнчүлүгүн киргизет. Бул макалада биз статистикалык табигый тил талдоочу аркылуу алынган грамматикалык структуралык маалыматты колдонуу менен автордукту аныктоонун жаңы мүмкүнчүлүгүн изилдейбиз. Бул документ концепциянын далилин камсыздайт, грамматикалык түзүлүшкө негизделген автор классификациясын "далил тексттердин" жыйындысы боюнча сынайт, The Federalist Papers жана Sanditon автордукту аныктоо боюнча мурунку изилдөөлөрдө сыноо учурлары болгон. Статистикалык табигый тил талдоочудан алынган бир нече өзгөчөлүктөр изилденген: каалаган деңгээлдеги кандайдыр бир тереңдиктеги бардык субдарактар; талдоо дарагында деңгээли боюнча кандайдыр бир тереңдиктеги тамырлуу поддарактар, сөздүн бөлүгү жана кеп бөлүгү. Өзгөчөлүктөрдү төмөнкү өлчөмдүү мейкиндикке долбоорлоо пайдалуу деп табылган. Бул документтер боюнча статистикалык эксперименттер статистикалык анализдөөчүдөн алынган маалымат чындыгында авторлорду айырмалоого жардам берерин көрсөтүп турат.
Кээде "стилометрия" же "автордун идентификациясы" деп аталып калган, талапкер авторлордун мисалдарынын негизинде тексттердин авторлугун аныктоо үчүн статистикалык ыкмаларды колдонууга байланыштуу көп жылдар бою бир топ күч-аракет жумшалды. Документтерди статистикалык талдоо 1851-жылы Август де Морганга барып такалат [1, б. 282], [2, б. 166], Паулинин каттарынын авторлугун аныктоо үчүн сөздүн узундугу статистикасын колдонууну сунуш кылган. Стилометрия 1901-жылы эле Шекспирдин авторлугун изилдөө үчүн колдонулган [3]. Ошондон бери ал ар кандай адабий изилдөөлөрдө колдонулуп келет (мисалы, [4, 5, 6]), анын ичинде автору белгисиз болгон Федералдык документтердин он экиси [7] - биз бул жерде кайра карап чыгабыз - жана Жейн Остиндин бүтө элек романы - биз бул жерде дагы кайра карап чыгабыз. Маалыматтык теориялык ыкмалар да жакында эле колдонула баштады [8]. Стилометриядагы мурунку иштер «контексттик эмес сөздөргө» негизделген, алар тексттин негизги маанисин билдирбейт, бирок тексттин фонунда структурасын жана агымын камсыз кылуу үчүн аракеттенген. Контексттик эмес сөздөр жок дегенде акылга сыярлык, анткени автор ар кандай темаларга кайрылышы мүмкүн, ошондуктан өзгөчө айырмалоочу сөздөр сөзсүз түрдө автордукту ачып бере албайт. Контексттик эмес сөздөрдү изилдөөдө контексттик эмес эң кеңири таралган сөздөрдүн жыйындысы тандалып алынат [2] жана документтер сөздүн саны же сөздүн санынын документтин узундугуна болгон катышы менен көрсөтүлөт. Статистикалык ыкмаларды карап чыгуу [9]. Вариация катары контексттик эмес сөз үлгүлөрүнүн сандарынын башка сөз калыптарына болгон катышы да колдонулат [10]. Автордун лексикасынын көлөмүнө жана документтин узундугуна негизделген статистикалык анализ — «сөз байлыгы» да изилденген [11]. Башка тиешелүү иштер үчүн караңыз [12, 13, 14, 15]
Акыркы бир кагаз [16] көп түрдүү функциялар топтомдорунун натыйжалуулугун карайт. Анда каралуучу өзгөчөлүктөр топтомуна төмөнкүлөр кирет: ат атоочтордун жыштыгын камтыган векторлор; функционалдык сөздөр (башкача айтканда, мүчөлөр, ат атоочтор, бөлүкчөлөр, билдирүүлөр); сөздүн бөлүгү (POS); эң кеңири таралган сөздөр; синтаксистик өзгөчөлүктөр (мисалы, зат атооч, же этиш сөз айкаштары); же чак (мисалы, азыркы же өткөн чактын колдонулушу); үн (активдүү пассивдүү). [16], өзгөчөлүк векторлору гистограммалардын айкалыштарынан түзүлөт, андан кийин сызыктуу дискриминанттык анализдин (LDA) жардамы менен өлчөмдү кыскартуудан кийин негизги компоненттик анализдин [17] эки этаптуу процессинин жардамы менен өлчөмдүүлүктө азайтылат. Алардын LDAда кластер ичиндеги чачыратуу матрицасы сингулярдуу (болгон окутуу векторлорунун санына салыштырмалуу өзгөчөлүк векторлорунун чоң өлчөмүнөн улам), ошондуктан алардын чачыратуу матрицасы регулярдуу. Муну сынап көрүү үчүн авторлор регуляризациялоонун бир катар параметрлерин карап чыгып, эң жакшы көрсөткүчтү тандап алышат.
Акыркы эмгекте [18] сурамжылоо [15] жөнүндө айтылат, анда автордук талаада кеңири колдонулган белгилер сөз жана символ n-грамм болуп саналат. Белгиленгендей, статистикалык методдор темага байланыштуу моделдер менен бир тараптуу болушу мүмкүн деген коркунучтар бар. [18] байкагандай, “автордук классификатор (ал тургай жакшы көрүнгөн) доменге көз каранды функциялар колдонулса, теманы идентификациялоону кокусунан аткарышы мүмкүн. ... Буга жол бербөө үчүн, изилдөөчүлөр функционалдык сөздөр же синтаксистик өзгөчөлүктөр сыяктуу так тема-агностикалык өзгөчөлүктөр менен чектелиши мүмкүн. Бул жерде берилген иш тексттен статистикалык түрдө алынган грамматикалык структураларды колдонуу менен акыркы категорияга кирет. Буларды бурмалоо кыйын окшойт. Башка акыркы эмгектерди карап чыгуу [19, 20] авторду аныктоо ыкмаларына дайыма кызыгуу бар экенин, бирок бул жерде грамматикалык структураларды колдонгондордун бири да колдонулбагандыгын көрсөтөт; салттуу н-граммаларга көбүрөөк таянуу тенденциясы бар.
Бул иште өзгөчөлүк векторлору табигый тил талдоо куралынан талдоо дарактарынан дарак маалыматын колдонуу менен алынган [21]. Бул өзгөчөлүктөр [16] каралган өзгөчөлүктөргө кирген эмес. Грамматикалык түзүлүштөр, сыягы, сөздөрдүн класстарынын жөнөкөй саноолоруна караганда кылдатыраак, демек, алдамчылыкка же темага бир жактуу мамилеге азыраак дуушар болушу мүмкүн, анткени башканы тууроого ниеттенген автор колдонуунун татаал үлгүлөрүн ырааттуу түрдө байкай алышпайт жана өзгөчөлүктөр документтердеги бир да сөздөрдү камтыбайт. Даракка негизделген функциялар каралып жаткан тесттик маалыматтар боюнча POS функцияларына караганда жакшыраак иштеши аныкталган.
Алынган өзгөчөлүк векторлору өтө чоң өлчөмдө болушу мүмкүн, ошондуктан бул жерде өлчөмдү азайтуу да аткарылат. Бирок, кластер ичиндеги чачыратуу матрицанын сингулярдуулугу менен күрөшүү үчүн регуляризация параметрин тандоонун зарылдыгынан качкан жалпыланган SVD ыкмасы колдонулат.
Бул документ автордукту айырмалоо үчүн бул даракка негизделген өзгөчөлүктөрдүн концепциясын далилдейт, аларды мурда каралып чыккан The Federalist Papers жана Sanditon документтерине колдонуу менен. Талдоодон алынган маалыматтан алынган бир нече өзгөчөлүк векторлору үчүн автордук боюнча классификациялоо мүмкүнчүлүгү изилденет.