paint-brush
ນັກຄົ້ນຄວ້າແນະ ນຳ Trick ຄະນິດສາດທີ່ສະຫລາດເພື່ອເພີ່ມຊຸດຂໍ້ມູນນ້ອຍໆໂດຍບໍ່ຕ້ອງຂົ້ວ GPU ຂອງທ່ານໂດຍ@procrustes
692 ການອ່ານ
692 ການອ່ານ

ນັກຄົ້ນຄວ້າແນະ ນຳ Trick ຄະນິດສາດທີ່ສະຫລາດເພື່ອເພີ່ມຊຸດຂໍ້ມູນນ້ອຍໆໂດຍບໍ່ຕ້ອງຂົ້ວ GPU ຂອງທ່ານ

ໂດຍ Procrustes Technologies5m2025/01/27
Read on Terminal Reader

ຍາວເກີນໄປ; ອ່ານ

ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາວິທີການໃຫມ່ເພື່ອສ້າງຈຸດຂໍ້ມູນເພີ່ມເຕີມໂດຍການນໍາໃຊ້ resampling ການກວດສອບຂ້າມແລະແບບຈໍາລອງຕົວແປ latent ເພື່ອຝຶກອົບຮົມປັນຍາປະດິດ.
featured image - ນັກຄົ້ນຄວ້າແນະ ນຳ Trick ຄະນິດສາດທີ່ສະຫລາດເພື່ອເພີ່ມຊຸດຂໍ້ມູນນ້ອຍໆໂດຍບໍ່ຕ້ອງຂົ້ວ GPU ຂອງທ່ານ
Procrustes Technologies HackerNoon profile picture
0-item

ຜູ້ຂຽນ:

(1) Sergey Kucheryavskiy, ພາກວິຊາເຄມີສາດແລະຊີວະວິທະຍາ, ມະຫາວິທະຍາໄລ Aalborg ແລະຜູ້ຂຽນທີ່ສອດຄ້ອງກັນ ([email protected]);

(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, Barnaul, 656023, Russia and contributing authors0 ([email protected]).

ບັນທຶກຂອງບັນນາທິການ: ນີ້ແມ່ນພາກທີ 1 ຂອງ 4 ຂອງການສຶກສາທີ່ລາຍລະອຽດວິທີການໃຫມ່ສໍາລັບການເພີ່ມຈໍານວນແລະຊຸດຂໍ້ມູນປະສົມ. ອ່ານສ່ວນທີ່ເຫຼືອຂ້າງລຸ່ມນີ້.

ຕາຕະລາງການເຊື່ອມຕໍ່

ບົດຄັດຫຍໍ້

ໃນເອກະສານສະບັບນີ້, ພວກເຮົາສະເຫນີວິທີການໃຫມ່ສໍາລັບການຂະຫຍາຍຊຸດຂໍ້ມູນຕົວເລກແລະແບບປະສົມ. ວິທີການສ້າງຈຸດຂໍ້ມູນເພີ່ມເຕີມໂດຍການໃຊ້ resampling ການກວດສອບຂ້າມ ແລະການສ້າງແບບຈໍາລອງຕົວແປ latent. ມັນມີປະສິດທິພາບໂດຍສະເພາະສໍາລັບຊຸດຂໍ້ມູນທີ່ມີລະດັບປານກາງເຖິງສູງຂອງ collinearity, ຍ້ອນວ່າມັນໃຊ້ຄຸນສົມບັດນີ້ໂດຍກົງສໍາລັບການຜະລິດ. ວິທີການແມ່ນງ່າຍດາຍ, ໄວ, ແລະມີຕົວກໍານົດການຫນ້ອຍຫຼາຍ, ເຊິ່ງ, ດັ່ງທີ່ສະແດງຢູ່ໃນເຈ້ຍ, ບໍ່ຈໍາເປັນຕ້ອງມີການປັບແຕ່ງສະເພາະ. ມັນໄດ້ຖືກທົດສອບຢູ່ໃນຊຸດຂໍ້ມູນທີ່ແທ້ຈິງຫຼາຍ; ທີ່ນີ້, ພວກເຮົາລາຍງານຜົນໄດ້ຮັບລາຍລະອຽດສໍາລັບສອງກໍລະນີ, ການຄາດຄະເນຂອງທາດໂປຼຕີນໃນຊີ້ນ minced ໂດຍອີງໃສ່ spectra infrared ໃກ້ (ຂໍ້ມູນຕົວເລກເຕັມທີ່ມີລະດັບສູງຂອງ collinearity) ແລະການຈໍາແນກຂອງຄົນເຈັບທີ່ອ້າງອີງໃສ່ angiography coronary (ຂໍ້ມູນປະສົມ, ມີທັງຕົວເລກແລະຕົວແປປະເພດ, ແລະຄວາມສອດຄ່ອງປານກາງ). ໃນທັງສອງກໍລະນີ, ເຄືອຂ່າຍ neural ທຽມໄດ້ຖືກຈ້າງງານເພື່ອພັດທະນາການຖົດຖອຍແລະຮູບແບບການຈໍາແນກ. ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນການປັບປຸງຢ່າງຈະແຈ້ງໃນການປະຕິບັດຂອງຕົວແບບ; ດັ່ງນັ້ນ, ສໍາລັບການຄາດຄະເນຂອງທາດໂປຼຕີນຈາກຊີ້ນ, ການປັບຕົວແບບໃຫ້ກັບຂໍ້ມູນທີ່ເພີ່ມຂຶ້ນເຮັດໃຫ້ການຫຼຸດລົງຂອງຄວາມຜິດພາດຂອງຮາກຫມາຍຄວາມວ່າສອງເທົ່າທີ່ຄິດໄລ່ສໍາລັບການທົດສອບເອກະລາດທີ່ກໍານົດໄວ້ໂດຍ 1.5 ຫາ 3 ເທື່ອ.


ຄໍາ​ສໍາ​ຄັນ ​: ການ​ເພີ່ມ​ຂໍ້​ມູນ​, ເຄືອ​ຂ່າຍ​ປະ​ສາດ​ທຽມ​, Procrustes ການ​ກວດ​ສອບ​ຂ້າມ​, ຕົວ​ປ່ຽນ​ແປງ latent​, collinearity

1 ບົດແນະນຳ

ວິທີການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທັນສະໄຫມທີ່ອີງໃສ່ຕົວແບບທີ່ມີຄວາມຊັບຊ້ອນສູງ, ເຊັ່ນ: ເຄືອຂ່າຍ neural ທຽມ (ANN), ຕ້ອງການຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍເພື່ອຝຶກອົບຮົມແລະປັບປຸງຕົວແບບ. ຂໍ້​ມູນ​ການ​ຝຶກ​ອົບ​ຮົມ​ບໍ່​ພຽງ​ພໍ​ມັກ​ຈະ​ນໍາ​ໄປ​ສູ່​ບັນ​ຫາ overfitting​, ເນື່ອງ​ຈາກ​ວ່າ​ຈໍາ​ນວນ​ຂອງ hyperparameters ຕົວ​ແບບ​ເພື່ອ​ປັບ​ແມ່ນ​ຫຼາຍ​ກ​່​ວາ​ຈໍາ​ນວນ​ຂອງ​ການ​ອິດ​ສະ​ລະ​ໃນ​ຊຸດ​ຂໍ້​ມູນ​.


ບັນຫາທົ່ວໄປອີກອັນຫນຶ່ງໃນກໍລະນີນີ້ແມ່ນການຂາດການແຜ່ພັນຍ້ອນວ່າຂັ້ນຕອນການຝຶກອົບຮົມ ANN ບໍ່ໄດ້ກໍານົດ, ເນື່ອງຈາກການຄັດເລືອກແບບສຸ່ມຂອງຕົວກໍານົດການຂອງຕົວແບບເບື້ອງຕົ້ນແລະລັກສະນະ stochastic ຂອງການເພີ່ມປະສິດທິພາບຂອງພວກເຂົາ. ດັ່ງນັ້ນ, ມັນບໍ່ເຄີຍນໍາໄປສູ່ຕົວແບບທີ່ມີຕົວກໍານົດການແລະການປະຕິບັດດຽວກັນ, ເນື່ອງຈາກວ່າການທົດລອງການຝຶກອົບຮົມທີ່ແຕກຕ່າງກັນສາມາດສົ່ງຜົນໃຫ້ຕົວແບບທີ່ແຕກຕ່າງກັນ. ການປ່ຽນແປງນີ້ຈະກາຍເປັນຂະຫນາດໃຫຍ່ຖ້າຊຸດຝຶກອົບຮົມນ້ອຍເກີນໄປ.


ບັນຫານີ້ແມ່ນຮີບດ່ວນໂດຍສະເພາະໃນກໍລະນີຂອງການປັບຂໍ້ມູນໃນການທົດລອງ, ຍ້ອນວ່າມັນມັກຈະມີລາຄາແພງແລະໃຊ້ເວລາຫຼາຍໃນການທົດລອງທົດລອງຫຼາຍ, ເຮັດໃຫ້ມັນເປັນໄປບໍ່ໄດ້ທີ່ຈະເກັບກໍາຫຼາຍພັນການວັດແທກທີ່ຈໍາເປັນສໍາລັບການຝຶກອົບຮົມທີ່ເຫມາະສົມແລະການເພີ່ມປະສິດທິພາບ. ມັນຍັງສາມາດມີອຸປະສັກອື່ນໆ, ເຊັ່ນ: ເອກະສານທີ່ກ່ຽວຂ້ອງກັບການອະນຸຍາດໃນການຄົ້ນຄວ້າທາງການແພດ.


ວິທີຫນຶ່ງທີ່ຈະເອົາຊະນະບັນຫາຂອງຂໍ້ມູນການຝຶກອົບຮົມບໍ່ພຽງພໍແມ່ນການຂະຫຍາຍມັນທຽມໂດຍການຈໍາລອງຈຸດຂໍ້ມູນໃຫມ່ຫຼືການດັດແປງຂະຫນາດນ້ອຍໃຫ້ກັບຂໍ້ມູນທີ່ມີຢູ່. ເຕັກນິກນີ້ມັກຈະເອີ້ນວ່າ "ການເພີ່ມຂໍ້ມູນ". ການຂະຫຍາຍຂໍ້ມູນໄດ້ພິສູດໃຫ້ເຫັນວ່າມີປະສິດທິພາບໂດຍສະເພາະໃນການວິເຄາະຮູບພາບແລະການຈັດປະເພດ, ໂດຍມີການຄົ້ນຄວ້າຂະຫນາດໃຫຍ່ທີ່ລາຍງານທັງສອງວິທີການເພີ່ມຄວາມຫລາກຫລາຍ [1] [2], [3] ແລະວິທີການທີ່ມີປະສິດທິພາບໂດຍສະເພາະສໍາລັບກໍລະນີສະເພາະ [4] [5] . ວິທີການຂະຫຍາຍຂໍ້ມູນຊຸດເວລາຍັງພັດທະນາຂ້ອນຂ້າງດີ [6].


ຢ່າງໃດກໍ່ຕາມ, ມີການຂາດວິທີການທີ່ມີປະສິດທິພາບທີ່ສາມາດສະຫນອງການເພີ່ມຂໍ້ມູນທີ່ເຫມາະສົມສໍາລັບຊຸດຂໍ້ມູນຕົວເລກທີ່ມີລະດັບປານກາງເຖິງສູງຂອງ collinearity. ຊຸດຂໍ້ມູນດັ່ງກ່າວແມ່ນແຜ່ຂະຫຍາຍຢ່າງກວ້າງຂວາງໃນການຄົ້ນຄວ້າທົດລອງ, ລວມທັງປະເພດຕ່າງໆຂອງຂໍ້ມູນ spectroscopic, ຜົນໄດ້ຮັບຂອງການຈັດລໍາດັບ genome (ຕົວຢ່າງ, 16S RNA), ແລະອື່ນໆຈໍານວນຫຼາຍ. ຊຸດຂໍ້ມູນຕາຕະລາງຈໍານວນຫຼາຍຍັງສະແດງໂຄງສ້າງພາຍໃນທີ່ຕົວແປຕ່າງໆມີຄວາມກ່ຽວຂ້ອງກັນ. ວິທີການທີ່ມີຢູ່ໃນປັດຈຸບັນສໍາລັບການຂະຫຍາຍຂໍ້ມູນດັ່ງກ່າວສ່ວນຫຼາຍແມ່ນອີງໃສ່ການເພີ່ມຮູບແບບຕ່າງໆຂອງສິ່ງລົບກວນ [7] ກັບການວັດແທກທີ່ມີຢູ່, ເຊິ່ງບໍ່ພຽງພໍສະເຫມີ. ຍັງມີວິທີການທີ່ໂດດເດັ່ນທີ່ນໍາໃຊ້ຕົວປ່ຽນລະຫັດອັດຕະໂນມັດທີ່ມີການປ່ຽນແປງໂດຍການເກັບຕົວຢ່າງແບບສຸ່ມຈາກພື້ນທີ່ຕົວແປ latent ຂອງເຂົາເຈົ້າ [8], ຫຼືວິທີການທີ່ອີງໃສ່ເຄືອຂ່າຍ adversarial generative [4]. ຂໍ້ເສຍແມ່ນວ່າທັງສອງວິທີການຮຽກຮ້ອງໃຫ້ມີການສ້າງແລະປັບຕົວແບບເຄືອຂ່າຍ neural ສະເພາະສໍາລັບການຂະຫຍາຍຂໍ້ມູນແລະດັ່ງນັ້ນຈຶ່ງຕ້ອງການຂະບວນການເພີ່ມປະສິດທິພາບທີ່ຕ້ອງການຢ່າງລະອຽດແລະຊັບພະຍາກອນແລະຊຸດຝຶກອົບຮົມເບື້ອງຕົ້ນທີ່ຂ້ອນຂ້າງໃຫຍ່.


ໃນເອກະສານສະບັບນີ້, ພວກເຮົາສະເຫນີວິທີການງ່າຍດາຍ, ໄວ, ຫລາກຫລາຍ, ແຕ່ມີປະສິດທິພາບສໍາລັບການເພີ່ມຊຸດຂໍ້ມູນຕົວເລກແລະແບບປະສົມ. ວິທີການແມ່ນອີງໃສ່ວິທີການທີ່ຖືກພັດທະນາໃນເບື້ອງຕົ້ນເພື່ອຈຸດປະສົງອື່ນໆ, ໂດຍສະເພາະສໍາລັບການສ້າງຊຸດການກວດສອບ, ແລະດັ່ງນັ້ນຈິ່ງເອີ້ນວ່າ Procrustes cross-validation [9] [10]. ຢ່າງໃດກໍຕາມ, ດັ່ງທີ່ໄດ້ສະແດງໃຫ້ເຫັນໃນເອກະສານສະບັບນີ້, ມັນແກ້ໄຂບັນຫາການເພີ່ມຂໍ້ມູນຢ່າງມີປະສິດທິພາບ, ເຮັດໃຫ້ມີຕົວແບບທີ່ມີການປັບປຸງການຄາດຄະເນຫຼືການຈັດປະເພດ.


ວິທີການຂອງພວກເຮົາໂດຍກົງ leverages collinearity ໃນຂັ້ນຕອນການຜະລິດ. ມັນເຫມາະສົມກັບຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີຊຸດຂອງຕົວແປ latent ແລະຫຼັງຈາກນັ້ນຈ້າງ resampling ການກວດສອບຂ້າມເພື່ອວັດແທກການປ່ຽນແປງໃນທິດທາງຂອງຕົວແປ. ການປ່ຽນແປງນີ້ໄດ້ຖືກນໍາສະເຫນີຫຼັງຈາກນັ້ນຊຸດການຝຶກອົບຮົມເປັນຄວາມຜິດພາດຂອງຕົວຢ່າງ, ເຊິ່ງກໍ່ໃຫ້ເກີດຊຸດຂໍ້ມູນໃຫມ່.


ສາມາດນຳໃຊ້ສອງຕົວແບບທີ່ເໝາະສົມໄດ້ — ການເສື່ອມຕົວຂອງຄ່າທີ່ເປັນເອກກະລັກ (SVD) ແລະການເສື່ອມໂຊມຂອງຮູບສີ່ຫຼ່ຽມມົນນ້ອຍບາງສ່ວນ (PLS). ທາງເລືອກຂອງຮູບແບບທີ່ເຫມາະສົມຊ່ວຍໃຫ້ຜູ້ໃຊ້ຈັດລໍາດັບຄວາມສໍາຄັນສ່ວນຫນຶ່ງຂອງໂຄງສ້າງຂອງຄູ່, ເຊິ່ງຈະຖືກນໍາໄປໃຊ້ໃນການຜະລິດຂໍ້ມູນໃຫມ່.


ທັງສອງຕົວແບບທີ່ເໝາະສົມມີສອງພາລາມິເຕີ — ຈຳນວນຕົວແປທີ່ແຝງ ແລະຈຳນວນຂອງພາກສ່ວນທີ່ໃຊ້ສຳລັບການເກັບຕົວຢ່າງການກວດສອບຄືນໃໝ່. ການທົດລອງສະແດງໃຫ້ເຫັນວ່າຕົວກໍານົດການບໍ່ຈໍາເປັນຕ້ອງມີການປັບສະເພາະ. ຈໍານວນຕົວແປ latent ໃດໆທີ່ມີຂະຫນາດໃຫຍ່ພຽງພໍທີ່ຈະເກັບກໍາການປ່ຽນແປງລະບົບຂອງຄ່າຊຸດການຝຶກອົບຮົມໃຫ້ບໍລິການເທົ່າທຽມກັນ. ເຊັ່ນດຽວກັນກັບຈໍານວນຂອງພາກສ່ວນໃດທີ່ເລີ່ມຕົ້ນຈາກສາມ.


ວິທີການທີ່ສະເຫນີແມ່ນມີຄວາມຫລາກຫລາຍແລະສາມາດນໍາໃຊ້ໄດ້ກັບຂໍ້ມູນຕົວເລກທັງຫມົດເຊັ່ນດຽວກັນກັບຂໍ້ມູນຕາຕະລາງທີ່ຫນຶ່ງຫຼືຫຼາຍຕົວແປມີຄຸນນະພາບ. ນີ້ເປີດທັດສະນະອື່ນ, ຄືການຈໍາແນກຂໍ້ມູນ, ເຊິ່ງສາມາດເປັນປະໂຫຍດ, ຕົວຢ່າງ, ສໍາລັບການທົດສອບລະບົບຊອບແວທີ່ໂຫລດສູງ, ເຖິງແມ່ນວ່າພວກເຮົາບໍ່ໄດ້ພິຈາລະນາລັກສະນະນີ້ຢູ່ທີ່ນີ້.


ເອກະສານອະທິບາຍເຖິງພື້ນຖານທິດສະດີຂອງວິທີການ ແລະສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດຕົວຈິງ ແລະການປະຕິບັດຂອງມັນໂດຍອີງໃສ່ສອງຊຸດຂໍ້ມູນທີ່ມີລັກສະນະທີ່ແຕກຕ່າງກັນ. ມັນສະຫນອງລາຍລະອຽດທີ່ສົມບູນແບບກ່ຽວກັບວິທີການສາມາດນໍາໃຊ້ຢ່າງມີປະສິດທິພາບກັບຊຸດຂໍ້ມູນທີ່ມີຄວາມຫຼາກຫຼາຍໃນສະຖານະການທີ່ແທ້ຈິງ.


ພວກເຮົາໄດ້ປະຕິບັດວິທີການໃນຫລາຍພາສາການຂຽນໂປລແກລມ, ລວມທັງ Python, R, MATLAB, ແລະ JavaScript, ແລະການປະຕິບັດທັງຫມົດແມ່ນມີຢູ່ໃນບ່ອນເກັບມ້ຽນ GitHub (https://github.com/svkucheryavski/pcv). ນອກຈາກນັ້ນ, ພວກເຮົາສະຫນອງສະບັບອອນໄລນ໌ທີ່ຫນຶ່ງສາມາດສ້າງຈຸດຂໍ້ມູນໃຫມ່ໂດຍກົງໃນຕົວທ່ອງເວັບ (https://mda.tools/pcv).


ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Procrustes Technologies HackerNoon profile picture
Procrustes Technologies@procrustes
Procrustes' method aligns and adjusts, making data conform, with precision and control, in the realm of math and shape.

ວາງປ້າຍ

ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ...