paint-brush
ການຂຽນຂອງເຈົ້າມີລາຍນິ້ວມື - ແລະຕົວແບບ AI ທີ່ມີການຕັດແຂບນີ້ສາມາດເຫັນໄດ້ໂດຍ@authoring
ປະຫວັດສາດໃຫມ່

ການຂຽນຂອງເຈົ້າມີລາຍນິ້ວມື - ແລະຕົວແບບ AI ທີ່ມີການຕັດແຂບນີ້ສາມາດເຫັນໄດ້

ໂດຍ Authoring5m2025/03/07
Read on Terminal Reader

ຍາວເກີນໄປ; ອ່ານ

ການຄົ້ນຄວ້ານີ້ແນະນໍາວິທີການກວດຫາການປະພັນນະວະນິຍາຍໂດຍໃຊ້ໂຄງສ້າງທາງໄວຍາກອນຈາກຕົວວິເຄາະພາສາທໍາມະຊາດ. ໂດຍການວິເຄາະຮູບແບບ syntactic ທີ່ອີງໃສ່ຕົ້ນໄມ້, ວິທີການດັ່ງກ່າວໄດ້ປະຕິບັດດີກວ່າເຕັກນິກ stylometry ແບບດັ້ງເດີມ, ສະເຫນີວິທີການທີ່ເຂັ້ມແຂງເພື່ອຈໍາແນກຜູ້ຂຽນທີ່ແທ້ຈິງຈາກ AI ທີ່ສ້າງຫຼືຮຽນແບບຂໍ້ຄວາມ.
featured image - ການຂຽນຂອງເຈົ້າມີລາຍນິ້ວມື - ແລະຕົວແບບ AI ທີ່ມີການຕັດແຂບນີ້ສາມາດເຫັນໄດ້
Authoring HackerNoon profile picture
0-item

ຜູ້ຂຽນ:

(1) Todd K. Moon, ພາກວິຊາວິສະວະກຳໄຟຟ້າ ແລະຄອມພິວເຕີ, ມະຫາວິທະຍາໄລລັດຢູທາ, ໂລແກນ, ລັດຢູທາ;

(2) Jacob H. Gunther, ພະແນກວິສະວະກໍາໄຟຟ້າ ແລະຄອມພິວເຕີ, ມະຫາວິທະຍາໄລ Utah State, Logan, Utah.

ຕາຕະລາງການເຊື່ອມໂຍງ

Abstract ແລະ 1 ບົດນໍາ ແລະຄວາມເປັນມາ

2 ຄຸນສົມບັດການວິເຄາະສະຖິຕິ ແລະສະກັດ

3 ລັກສະນະຕົ້ນໄມ້ Parse

4 ປະເພດ

5 ການຫຼຸດຜ່ອນຂະຫນາດ

6 ເອກະສານ Federalist

6.1 Sanditon

7 ບົດສະຫຼຸບ, ການສົນທະນາ, ແລະການເຮັດວຽກໃນອະນາຄົດ

A. ບົດແນະນໍາສັ້ນໆກ່ຽວກັບການວິເຄາະສະຖິຕິ

B. ການຫຼຸດຜ່ອນຂະຫນາດ: ລາຍລະອຽດທາງຄະນິດສາດບາງ

ເອກະສານອ້າງອີງ

ບົດຄັດຫຍໍ້

ໃນຊຸມປີມໍ່ໆມານີ້, ມີຄວາມສົນໃຈຢ່າງຕໍ່ເນື່ອງໃນການກວດສອບການເປັນຜູ້ຂຽນຂອງຂໍ້ຄວາມໂດຍອີງໃສ່ຄຸນສົມບັດທາງສະຖິຕິຂອງຂໍ້ຄວາມ, ເຊັ່ນ: ການນໍາໃຊ້ອັດຕາການປະກົດຕົວຂອງຄໍາທີ່ບໍ່ແມ່ນສະພາບການ. ໃນການເຮັດວຽກທີ່ຜ່ານມາ, ເຕັກນິກເຫຼົ່ານີ້ໄດ້ຖືກນໍາໃຊ້, ສໍາລັບການຍົກຕົວຢ່າງ, ເພື່ອກໍານົດການເປັນຜູ້ຂຽນຂອງເອກະສານ Federalist ທັງຫມົດ. ວິທີການດັ່ງກ່າວອາດຈະເປັນປະໂຫຍດໃນຍຸກສະໄຫມໃຫມ່ເພື່ອກວດພົບການປອມແປງຫຼື AI authorship. ຄວາມຄືບຫນ້າໃນຕົວວິເຄາະພາສາທໍາມະຊາດທາງສະຖິຕິແນະນໍາຄວາມເປັນໄປໄດ້ຂອງການນໍາໃຊ້ໂຄງສ້າງທາງໄວຍາກອນເພື່ອກວດພົບການເປັນຜູ້ຂຽນ. ໃນເອກະສານນີ້, ພວກເຮົາຄົ້ນຫາຄວາມເປັນໄປໄດ້ໃຫມ່ສໍາລັບການກວດສອບການເປັນຜູ້ຂຽນໂດຍໃຊ້ຂໍ້ມູນໂຄງສ້າງທາງໄວຍາກອນທີ່ສະກັດອອກໂດຍໃຊ້ຕົວແຍກພາສາທໍາມະຊາດທາງສະຖິຕິ. ເອກະສານສະບັບນີ້ສະຫນອງຫຼັກຖານສະແດງແນວຄວາມຄິດ, ການທົດສອບການຈັດປະເພດຜູ້ຂຽນໂດຍອີງໃສ່ໂຄງສ້າງທາງໄວຍາກອນກ່ຽວກັບຊຸດຂອງ "ບົດເລື່ອງຫຼັກຖານ", Federalist Papers ແລະ Sanditon ທີ່ເປັນກໍລະນີທົດສອບໃນການສຶກສາການຄົ້ນພົບຜູ້ຂຽນທີ່ຜ່ານມາ. ລັກສະນະຫຼາຍຢ່າງທີ່ສະກັດມາຈາກຕົວວິເຄາະພາສາທໍາມະຊາດທາງສະຖິຕິໄດ້ຖືກຂຸດຄົ້ນ: ຕົ້ນໄມ້ຍ່ອຍທັງໝົດຂອງຄວາມເລິກບາງລະດັບຈາກລະດັບໃດນຶ່ງ; ຮາກຕົ້ນໄມ້ຍ່ອຍຂອງຄວາມເລິກບາງສ່ວນ, ບາງສ່ວນຂອງການປາກເວົ້າ, ແລະສ່ວນຫນຶ່ງຂອງການປາກເວົ້າໂດຍລະດັບໃນຕົ້ນໄມ້ parse. ມັນໄດ້ຖືກພົບເຫັນວ່າເປັນປະໂຫຍດທີ່ຈະສະແດງຄຸນສົມບັດເຂົ້າໄປໃນພື້ນທີ່ທີ່ມີມິຕິຕ່ໍາ. ການທົດລອງສະຖິຕິກ່ຽວກັບເອກະສານເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າຂໍ້ມູນຈາກຕົວວິເຄາະສະຖິຕິສາມາດ, ໃນຄວາມເປັນຈິງ, ຊ່ວຍເຫຼືອໃນການຈໍາແນກຜູ້ຂຽນ.

1 ບົດແນະນຳ ແລະຄວາມເປັນມາ

ມີຄວາມພະຍາຍາມຢ່າງຫຼວງຫຼາຍໃນໄລຍະປີທີ່ຜ່ານມາທີ່ກ່ຽວຂ້ອງກັບການນໍາໃຊ້ວິທີການສະຖິຕິເພື່ອກໍານົດການປະພັນຂອງບົດເລື່ອງຕ່າງໆ, ໂດຍອີງໃສ່ຕົວຢ່າງຂອງຜູ້ຂຽນຜູ້ສະຫມັກ, ໃນສິ່ງທີ່ບາງຄັ້ງເອີ້ນວ່າ "stylometry" ຫຼື "ການກໍານົດຜູ້ຂຽນ." ການວິເຄາະສະຖິຕິຂອງເອກະສານກັບຄືນໄປບ່ອນ Augustus de Morgan ໃນ 1851 [1, p. 282], [2, ຫນ້າ. 166], ຜູ້ທີ່ສະເຫນີວ່າສະຖິຕິຄວາມຍາວຄໍາສັບອາດຈະຖືກນໍາໃຊ້ເພື່ອກໍານົດການປະພັນຂອງຈົດຫມາຍ Pauline. Stylometry ໄດ້ຖືກຈ້າງໃນຕົ້ນປີ 1901 ເພື່ອຄົ້ນຫາການປະພັນຂອງ Shakespeare [3]. ຕັ້ງແຕ່ນັ້ນມາ, ມັນໄດ້ຖືກຈ້າງເຂົ້າໃນການສຶກສາວັນນະຄະດີຫຼາຍໆຢ່າງ (ເບິ່ງ, ຕົວຢ່າງ [4, 5, 6]), ລວມທັງສິບສອງເອກະສານຂອງ Federalist ທີ່ເປັນຜູ້ຂຽນທີ່ບໍ່ແນ່ນອນ [7] - ທີ່ພວກເຮົາທົບທວນຄືນທີ່ນີ້ - ແລະນະວະນິຍາຍທີ່ຍັງບໍ່ທັນໄດ້ສໍາເລັດໂດຍ Jane Austen - ເຊິ່ງພວກເຮົາຍັງທົບທວນຄືນຢູ່ທີ່ນີ້. ເຕັກນິກທິດສະດີຂໍ້ມູນຂ່າວສານຍັງໄດ້ຖືກນໍາໃຊ້ຫຼາຍບໍ່ດົນມານີ້ [8]. ການເຮັດວຽກໃນ stylometry ກ່ອນຫນ້ານີ້ແມ່ນອີງໃສ່ "ຄໍາທີ່ບໍ່ແມ່ນສະພາບການ," ຄໍາທີ່ບໍ່ສະແດງຄວາມຫມາຍຕົ້ນຕໍຂອງຂໍ້ຄວາມ, ແຕ່ເຮັດຫນ້າທີ່ຢູ່ໃນພື້ນຫລັງຂອງຂໍ້ຄວາມເພື່ອໃຫ້ໂຄງສ້າງແລະການໄຫຼ. ຄໍາເວົ້າທີ່ບໍ່ແມ່ນສະພາບການແມ່ນຢ່າງຫນ້ອຍສາມາດເຊື່ອຖືໄດ້, ເພາະວ່າຜູ້ຂຽນອາດຈະເວົ້າເຖິງຫຼາຍໆຫົວຂໍ້, ດັ່ງນັ້ນຄໍາເວົ້າທີ່ໂດດເດັ່ນແມ່ນບໍ່ຈໍາເປັນຕ້ອງເປີດເຜີຍຄວາມເປັນເຈົ້າຂອງ. ໃນການສຶກສາຄໍາທີ່ບໍ່ແມ່ນສະພາບການ, ຊຸດຂອງຄໍາທີ່ໃຊ້ທົ່ວໄປທີ່ສຸດທີ່ບໍ່ແມ່ນສະພາບການແມ່ນຖືກເລືອກ [2], ແລະເອກະສານຖືກສະແດງໂດຍການນັບຄໍາ, ຫຼືອັດຕາສ່ວນຂອງຄໍານັບກັບຄວາມຍາວຂອງເອກະສານ. ການທົບທວນຄືນວິທີການສະຖິຕິແມ່ນຢູ່ໃນ [9]. ໃນຖານະເປັນການປ່ຽນແປງ, ຊຸດຂອງອັດຕາສ່ວນການນັບຂອງຮູບແບບຄໍາທີ່ບໍ່ແມ່ນສະພາບການກັບຮູບແບບຄໍາອື່ນແມ່ນໃຊ້ [10]. ການວິເຄາະທາງສະຖິຕິໂດຍອີງໃສ່ຂະໜາດຂອງຄຳສັບຂອງຜູ້ຂຽນທຽບກັບຄວາມຍາວຂອງເອກະສານ — “ຄວາມອຸດົມສົມບູນຂອງຄຳສັບ” — ໄດ້ຖືກສຳຫຼວດເຊັ່ນກັນ [11]. ສໍາລັບວຽກງານອື່ນໆທີ່ກ່ຽວຂ້ອງ, ເບິ່ງ [12, 13, 14, 15]

ເອກະສານທີ່ຜ່ານມາຫຼາຍ [16] ພິຈາລະນາປະສິດທິພາບຂອງຊຸດຄຸນສົມບັດທີ່ຫຼາກຫຼາຍ. ຊຸດຄຸນສົມບັດທີ່ພິຈາລະນາປະກອບມີ: vectors ປະກອບດ້ວຍຄວາມຖີ່ຂອງຄໍານາມ; function ຄໍາ (ວ່າ, ບົດຄວາມ, pronouns, particles, expletives); ສ່ວນຫນຶ່ງຂອງຄໍາເວົ້າ (POS); ຄຳສັບທົ່ວໄປທີ່ສຸດ; ລັກສະນະ syntactic (ເຊັ່ນ: ປະໂຫຍກຄໍານາມ, ຫຼືປະໂຫຍກ verb); ຫຼື tense (ເຊັ່ນ: ການນໍາໃຊ້ປັດຈຸບັນຫຼືອະດີດ tense); ສຽງ (active ຂອງ passive). ໃນ [16], vector vectors ໄດ້ຖືກສ້າງຕັ້ງຂຶ້ນຈາກການປະສົມຂອງ histograms, ຫຼັງຈາກນັ້ນຫຼຸດລົງໃນມິຕິມິຕິໂດຍໃຊ້ຂະບວນການສອງຂັ້ນຕອນຂອງການວິເຄາະອົງປະກອບຫຼັກການ [17] ປະຕິບັດຕາມໂດຍການຫຼຸດຜ່ອນມິຕິໂດຍການວິເຄາະ linear discriminant (LDA). ໃນ LDA ຂອງພວກເຂົາ, ພາຍໃນກຸ່ມກະແຈກກະຈາຍ matrix ແມ່ນເປັນເອກະລັກ (ເນື່ອງຈາກມີມິຕິສູງຂອງ vectors ລັກສະນະທີ່ກ່ຽວຂ້ອງກັບຈໍານວນຂອງ vectors ການຝຶກອົບຮົມທີ່ມີຢູ່), ດັ່ງນັ້ນ matrix ກະແຈກກະຈາຍຂອງພວກເຂົາແມ່ນເປັນປົກກະຕິ. ເພື່ອທົດສອບນີ້, ຜູ້ຂຽນພິຈາລະນາຂອບເຂດຂອງຕົວກໍານົດການປົກກະຕິ, ເລືອກຫນຶ່ງທີ່ໃຫ້ການປະຕິບັດທີ່ດີທີ່ສຸດ.


ວຽກງານທີ່ຜ່ານມາຫຼາຍ [18] ກ່າວເຖິງການສໍາຫຼວດໃນ [15] ໃນລັກສະນະທີ່ໃຊ້ທົ່ວໄປໃນພາກສະຫນາມຜູ້ຂຽນແມ່ນຄໍາສັບແລະຕົວອັກສອນ n-grams. ດັ່ງທີ່ບັນທຶກໄວ້, ມີຄວາມສ່ຽງທີ່ວິທີການສະຖິຕິອາດຈະມີຄວາມລໍາອຽງໂດຍຮູບແບບທີ່ກ່ຽວຂ້ອງກັບຫົວຂໍ້. ດັ່ງທີ່ [18] ສັງເກດເຫັນ, "ຕົວຈັດປະເພດຜູ້ຂຽນ (ເຖິງແມ່ນວ່າເບິ່ງຄືວ່າດີ) ອາດຈະສິ້ນສຸດການປະຕິບັດການກໍານົດຫົວຂໍ້ໂດຍບໍ່ຕັ້ງໃຈຖ້າລັກສະນະທີ່ຂຶ້ນກັບໂດເມນຖືກນໍາໃຊ້. ... ເພື່ອຫຼີກເວັ້ນການນີ້, ນັກຄົ້ນຄວ້າອາດຈະຈໍາກັດຂອບເຂດຂອງເຂົາເຈົ້າຕໍ່ກັບລັກສະນະທີ່ຈະແຈ້ງກ່ຽວກັບຫົວຂໍ້, ເຊັ່ນ: ຄໍາສັບຫນ້າທີ່ຫຼືລັກສະນະ syntactic." ວຽກງານທີ່ນໍາສະເຫນີຢູ່ທີ່ນີ້ແມ່ນຢູ່ໃນປະເພດສຸດທ້າຍ, ເຮັດໃຫ້ການນໍາໃຊ້ໂຄງສ້າງທາງ grammatical ທີ່ສະກັດມາຈາກຂໍ້ຄວາມ. ເຫຼົ່ານີ້ເບິ່ງຄືວ່າເປັນການຍາກທີ່ຈະຫຼອກລວງ. ການກວດສອບວຽກງານທີ່ຜ່ານມາອື່ນໆ [19, 20] ຊີ້ໃຫ້ເຫັນວ່າມີຄວາມສົນໃຈຢ່າງຕໍ່ເນື່ອງໃນວິທີການກໍານົດຜູ້ຂຽນ, ແຕ່ບໍ່ມີການນໍາໃຊ້ໂຄງສ້າງທາງ grammatical ຢູ່ທີ່ນີ້; ມີແນວໂນ້ມທີ່ຈະອີງໃສ່ຫຼາຍ n-grams ແບບດັ້ງເດີມ.


ໃນການເຮັດວຽກນີ້ vectors ຄຸນນະສົມບັດແມ່ນໄດ້ຮັບໂດຍໃຊ້ຂໍ້ມູນຕົ້ນໄມ້ຈາກຕົ້ນໄມ້ parse ຈາກເຄື່ອງມືວິເຄາະພາສາທໍາມະຊາດ [21]. ລັກສະນະເຫຼົ່ານີ້ບໍ່ໄດ້ຢູ່ໃນບັນດາລັກສະນະທີ່ພິຈາລະນາໃນ [16]. ໂຄງສ້າງທາງໄວຍາກອນແມ່ນ, ມັນເບິ່ງຄືວ່າ, ມີຄວາມອ່ອນໄຫວຫຼາຍກ່ວາການນັບແບບງ່າຍໆຂອງຄໍາສັບຕ່າງໆ, ແລະເພາະສະນັ້ນອາດຈະເປັນການ spoofing ຫຼືຄວາມລໍາອຽງຫົວຂໍ້ຫນ້ອຍ, ເນື່ອງຈາກວ່າມັນເບິ່ງຄືວ່າຜູ້ຂຽນທີ່ຕັ້ງໃຈທີ່ຈະຮຽນແບບຄົນອື່ນຈະສາມາດຕິດຕາມຮູບແບບທີ່ສັບສົນຂອງການນໍາໃຊ້, ແລະລັກສະນະຕ່າງໆບໍ່ໄດ້ລວມເອົາຄໍາສັບໃດໆຈາກເອກະສານ. ມັນພົບວ່າຄຸນສົມບັດທີ່ອີງໃສ່ຕົ້ນໄມ້ປະຕິບັດໄດ້ດີກວ່າລັກສະນະ POS ໃນຂໍ້ມູນການທົດສອບທີ່ພິຈາລະນາ.


vectors ຄຸນນະສົມບັດທີ່ໄດ້ຮັບນັ້ນສາມາດມີຂະຫນາດສູງຫຼາຍ, ສະນັ້ນການຫຼຸດຜ່ອນຂະຫນາດແມ່ນປະຕິບັດຢູ່ທີ່ນີ້. ຢ່າງໃດກໍ່ຕາມ, ເພື່ອຈັດການກັບຄວາມໂດດດ່ຽວຂອງ matrix ກະແຈກກະຈາຍພາຍໃນກຸ່ມ, ວິທີການ SVD ທົ່ວໄປແມ່ນຖືກນໍາໃຊ້, ເຊິ່ງຫຼີກເວັ້ນຄວາມຕ້ອງການທີ່ຈະເລືອກເອົາຕົວກໍານົດການປົກກະຕິ.


ເອກະສານສະບັບນີ້ສະຫນອງຫຼັກຖານສະແດງແນວຄວາມຄິດຂອງລັກສະນະທີ່ອີງໃສ່ຕົ້ນໄມ້ເຫຼົ່ານີ້ເພື່ອຈໍາແນກການເປັນຜູ້ຂຽນໂດຍການນໍາໄປໃຊ້ກັບເອກະສານທີ່ໄດ້ຖືກກວດສອບກ່ອນຫນ້ານີ້, The Federalist Papers ແລະ Sanditon. ຄວາມສາມາດໃນການຈັດປະເພດໂດຍການເປັນຜູ້ຂຽນແມ່ນໄດ້ຖືກຄົ້ນຫາສໍາລັບ vectors ລັກສະນະຈໍານວນຫນຶ່ງທີ່ໄດ້ຮັບຈາກຂໍ້ມູນທີ່ວິເຄາະ.


ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.