ຜູ້ຂຽນ:
(1) Sergey Kucheryavskiy, ພາກວິຊາເຄມີສາດແລະຊີວະວິທະຍາ, ມະຫາວິທະຍາໄລ Aalborg ແລະຜູ້ຂຽນທີ່ສອດຄ້ອງກັນ ([email protected]);
(2) Sergei Zhilin, CSort, LLC., Germana Titova st. 7, Barnaul, 656023, Russia and contributing authors0 ([email protected]).
ບັນທຶກຂອງບັນນາທິການ: ນີ້ແມ່ນພາກທີ 1 ຂອງ 4 ຂອງການສຶກສາທີ່ລາຍລະອຽດວິທີການໃຫມ່ສໍາລັບການເພີ່ມຈໍານວນແລະຊຸດຂໍ້ມູນປະສົມ. ອ່ານສ່ວນທີ່ເຫຼືອຂ້າງລຸ່ມນີ້.
ໃນເອກະສານສະບັບນີ້, ພວກເຮົາສະເຫນີວິທີການໃຫມ່ສໍາລັບການຂະຫຍາຍຊຸດຂໍ້ມູນຕົວເລກແລະແບບປະສົມ. ວິທີການສ້າງຈຸດຂໍ້ມູນເພີ່ມເຕີມໂດຍການໃຊ້ resampling ການກວດສອບຂ້າມ ແລະການສ້າງແບບຈໍາລອງຕົວແປ latent. ມັນມີປະສິດທິພາບໂດຍສະເພາະສໍາລັບຊຸດຂໍ້ມູນທີ່ມີລະດັບປານກາງເຖິງສູງຂອງ collinearity, ຍ້ອນວ່າມັນໃຊ້ຄຸນສົມບັດນີ້ໂດຍກົງສໍາລັບການຜະລິດ. ວິທີການແມ່ນງ່າຍດາຍ, ໄວ, ແລະມີຕົວກໍານົດການຫນ້ອຍຫຼາຍ, ເຊິ່ງ, ດັ່ງທີ່ສະແດງຢູ່ໃນເຈ້ຍ, ບໍ່ຈໍາເປັນຕ້ອງມີການປັບແຕ່ງສະເພາະ. ມັນໄດ້ຖືກທົດສອບຢູ່ໃນຊຸດຂໍ້ມູນທີ່ແທ້ຈິງຫຼາຍ; ທີ່ນີ້, ພວກເຮົາລາຍງານຜົນໄດ້ຮັບລາຍລະອຽດສໍາລັບສອງກໍລະນີ, ການຄາດຄະເນຂອງທາດໂປຼຕີນໃນຊີ້ນ minced ໂດຍອີງໃສ່ spectra infrared ໃກ້ (ຂໍ້ມູນຕົວເລກເຕັມທີ່ມີລະດັບສູງຂອງ collinearity) ແລະການຈໍາແນກຂອງຄົນເຈັບທີ່ອ້າງອີງໃສ່ angiography coronary (ຂໍ້ມູນປະສົມ, ມີທັງຕົວເລກແລະຕົວແປປະເພດ, ແລະຄວາມສອດຄ່ອງປານກາງ). ໃນທັງສອງກໍລະນີ, ເຄືອຂ່າຍ neural ທຽມໄດ້ຖືກຈ້າງງານເພື່ອພັດທະນາການຖົດຖອຍແລະຮູບແບບການຈໍາແນກ. ຜົນໄດ້ຮັບສະແດງໃຫ້ເຫັນການປັບປຸງຢ່າງຈະແຈ້ງໃນການປະຕິບັດຂອງຕົວແບບ; ດັ່ງນັ້ນ, ສໍາລັບການຄາດຄະເນຂອງທາດໂປຼຕີນຈາກຊີ້ນ, ການປັບຕົວແບບໃຫ້ກັບຂໍ້ມູນທີ່ເພີ່ມຂຶ້ນເຮັດໃຫ້ການຫຼຸດລົງຂອງຄວາມຜິດພາດຂອງຮາກຫມາຍຄວາມວ່າສອງເທົ່າທີ່ຄິດໄລ່ສໍາລັບການທົດສອບເອກະລາດທີ່ກໍານົດໄວ້ໂດຍ 1.5 ຫາ 3 ເທື່ອ.
ຄໍາສໍາຄັນ : ການເພີ່ມຂໍ້ມູນ, ເຄືອຂ່າຍປະສາດທຽມ, Procrustes ການກວດສອບຂ້າມ, ຕົວປ່ຽນແປງ latent, collinearity
ວິທີການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທັນສະໄຫມທີ່ອີງໃສ່ຕົວແບບທີ່ມີຄວາມຊັບຊ້ອນສູງ, ເຊັ່ນ: ເຄືອຂ່າຍ neural ທຽມ (ANN), ຕ້ອງການຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍເພື່ອຝຶກອົບຮົມແລະປັບປຸງຕົວແບບ. ຂໍ້ມູນການຝຶກອົບຮົມບໍ່ພຽງພໍມັກຈະນໍາໄປສູ່ບັນຫາ overfitting, ເນື່ອງຈາກວ່າຈໍານວນຂອງ hyperparameters ຕົວແບບເພື່ອປັບແມ່ນຫຼາຍກ່ວາຈໍານວນຂອງການອິດສະລະໃນຊຸດຂໍ້ມູນ.
ບັນຫາທົ່ວໄປອີກອັນຫນຶ່ງໃນກໍລະນີນີ້ແມ່ນການຂາດການແຜ່ພັນຍ້ອນວ່າຂັ້ນຕອນການຝຶກອົບຮົມ ANN ບໍ່ໄດ້ກໍານົດ, ເນື່ອງຈາກການຄັດເລືອກແບບສຸ່ມຂອງຕົວກໍານົດການຂອງຕົວແບບເບື້ອງຕົ້ນແລະລັກສະນະ stochastic ຂອງການເພີ່ມປະສິດທິພາບຂອງພວກເຂົາ. ດັ່ງນັ້ນ, ມັນບໍ່ເຄີຍນໍາໄປສູ່ຕົວແບບທີ່ມີຕົວກໍານົດການແລະການປະຕິບັດດຽວກັນ, ເນື່ອງຈາກວ່າການທົດລອງການຝຶກອົບຮົມທີ່ແຕກຕ່າງກັນສາມາດສົ່ງຜົນໃຫ້ຕົວແບບທີ່ແຕກຕ່າງກັນ. ການປ່ຽນແປງນີ້ຈະກາຍເປັນຂະຫນາດໃຫຍ່ຖ້າຊຸດຝຶກອົບຮົມນ້ອຍເກີນໄປ.
ບັນຫານີ້ແມ່ນຮີບດ່ວນໂດຍສະເພາະໃນກໍລະນີຂອງການປັບຂໍ້ມູນໃນການທົດລອງ, ຍ້ອນວ່າມັນມັກຈະມີລາຄາແພງແລະໃຊ້ເວລາຫຼາຍໃນການທົດລອງທົດລອງຫຼາຍ, ເຮັດໃຫ້ມັນເປັນໄປບໍ່ໄດ້ທີ່ຈະເກັບກໍາຫຼາຍພັນການວັດແທກທີ່ຈໍາເປັນສໍາລັບການຝຶກອົບຮົມທີ່ເຫມາະສົມແລະການເພີ່ມປະສິດທິພາບ. ມັນຍັງສາມາດມີອຸປະສັກອື່ນໆ, ເຊັ່ນ: ເອກະສານທີ່ກ່ຽວຂ້ອງກັບການອະນຸຍາດໃນການຄົ້ນຄວ້າທາງການແພດ.
ວິທີຫນຶ່ງທີ່ຈະເອົາຊະນະບັນຫາຂອງຂໍ້ມູນການຝຶກອົບຮົມບໍ່ພຽງພໍແມ່ນການຂະຫຍາຍມັນທຽມໂດຍການຈໍາລອງຈຸດຂໍ້ມູນໃຫມ່ຫຼືການດັດແປງຂະຫນາດນ້ອຍໃຫ້ກັບຂໍ້ມູນທີ່ມີຢູ່. ເຕັກນິກນີ້ມັກຈະເອີ້ນວ່າ "ການເພີ່ມຂໍ້ມູນ". ການຂະຫຍາຍຂໍ້ມູນໄດ້ພິສູດໃຫ້ເຫັນວ່າມີປະສິດທິພາບໂດຍສະເພາະໃນການວິເຄາະຮູບພາບແລະການຈັດປະເພດ, ໂດຍມີການຄົ້ນຄວ້າຂະຫນາດໃຫຍ່ທີ່ລາຍງານທັງສອງວິທີການເພີ່ມຄວາມຫລາກຫລາຍ [1] [2], [3] ແລະວິທີການທີ່ມີປະສິດທິພາບໂດຍສະເພາະສໍາລັບກໍລະນີສະເພາະ [4] [5] . ວິທີການຂະຫຍາຍຂໍ້ມູນຊຸດເວລາຍັງພັດທະນາຂ້ອນຂ້າງດີ [6].
ຢ່າງໃດກໍ່ຕາມ, ມີການຂາດວິທີການທີ່ມີປະສິດທິພາບທີ່ສາມາດສະຫນອງການເພີ່ມຂໍ້ມູນທີ່ເຫມາະສົມສໍາລັບຊຸດຂໍ້ມູນຕົວເລກທີ່ມີລະດັບປານກາງເຖິງສູງຂອງ collinearity. ຊຸດຂໍ້ມູນດັ່ງກ່າວແມ່ນແຜ່ຂະຫຍາຍຢ່າງກວ້າງຂວາງໃນການຄົ້ນຄວ້າທົດລອງ, ລວມທັງປະເພດຕ່າງໆຂອງຂໍ້ມູນ spectroscopic, ຜົນໄດ້ຮັບຂອງການຈັດລໍາດັບ genome (ຕົວຢ່າງ, 16S RNA), ແລະອື່ນໆຈໍານວນຫຼາຍ. ຊຸດຂໍ້ມູນຕາຕະລາງຈໍານວນຫຼາຍຍັງສະແດງໂຄງສ້າງພາຍໃນທີ່ຕົວແປຕ່າງໆມີຄວາມກ່ຽວຂ້ອງກັນ. ວິທີການທີ່ມີຢູ່ໃນປັດຈຸບັນສໍາລັບການຂະຫຍາຍຂໍ້ມູນດັ່ງກ່າວສ່ວນຫຼາຍແມ່ນອີງໃສ່ການເພີ່ມຮູບແບບຕ່າງໆຂອງສິ່ງລົບກວນ [7] ກັບການວັດແທກທີ່ມີຢູ່, ເຊິ່ງບໍ່ພຽງພໍສະເຫມີ. ຍັງມີວິທີການທີ່ໂດດເດັ່ນທີ່ນໍາໃຊ້ຕົວປ່ຽນລະຫັດອັດຕະໂນມັດທີ່ມີການປ່ຽນແປງໂດຍການເກັບຕົວຢ່າງແບບສຸ່ມຈາກພື້ນທີ່ຕົວແປ latent ຂອງເຂົາເຈົ້າ [8], ຫຼືວິທີການທີ່ອີງໃສ່ເຄືອຂ່າຍ adversarial generative [4]. ຂໍ້ເສຍແມ່ນວ່າທັງສອງວິທີການຮຽກຮ້ອງໃຫ້ມີການສ້າງແລະປັບຕົວແບບເຄືອຂ່າຍ neural ສະເພາະສໍາລັບການຂະຫຍາຍຂໍ້ມູນແລະດັ່ງນັ້ນຈຶ່ງຕ້ອງການຂະບວນການເພີ່ມປະສິດທິພາບທີ່ຕ້ອງການຢ່າງລະອຽດແລະຊັບພະຍາກອນແລະຊຸດຝຶກອົບຮົມເບື້ອງຕົ້ນທີ່ຂ້ອນຂ້າງໃຫຍ່.
ໃນເອກະສານສະບັບນີ້, ພວກເຮົາສະເຫນີວິທີການງ່າຍດາຍ, ໄວ, ຫລາກຫລາຍ, ແຕ່ມີປະສິດທິພາບສໍາລັບການເພີ່ມຊຸດຂໍ້ມູນຕົວເລກແລະແບບປະສົມ. ວິທີການແມ່ນອີງໃສ່ວິທີການທີ່ຖືກພັດທະນາໃນເບື້ອງຕົ້ນເພື່ອຈຸດປະສົງອື່ນໆ, ໂດຍສະເພາະສໍາລັບການສ້າງຊຸດການກວດສອບ, ແລະດັ່ງນັ້ນຈິ່ງເອີ້ນວ່າ Procrustes cross-validation [9] [10]. ຢ່າງໃດກໍຕາມ, ດັ່ງທີ່ໄດ້ສະແດງໃຫ້ເຫັນໃນເອກະສານສະບັບນີ້, ມັນແກ້ໄຂບັນຫາການເພີ່ມຂໍ້ມູນຢ່າງມີປະສິດທິພາບ, ເຮັດໃຫ້ມີຕົວແບບທີ່ມີການປັບປຸງການຄາດຄະເນຫຼືການຈັດປະເພດ.
ວິທີການຂອງພວກເຮົາໂດຍກົງ leverages collinearity ໃນຂັ້ນຕອນການຜະລິດ. ມັນເຫມາະສົມກັບຂໍ້ມູນການຝຶກອົບຮົມທີ່ມີຊຸດຂອງຕົວແປ latent ແລະຫຼັງຈາກນັ້ນຈ້າງ resampling ການກວດສອບຂ້າມເພື່ອວັດແທກການປ່ຽນແປງໃນທິດທາງຂອງຕົວແປ. ການປ່ຽນແປງນີ້ໄດ້ຖືກນໍາສະເຫນີຫຼັງຈາກນັ້ນຊຸດການຝຶກອົບຮົມເປັນຄວາມຜິດພາດຂອງຕົວຢ່າງ, ເຊິ່ງກໍ່ໃຫ້ເກີດຊຸດຂໍ້ມູນໃຫມ່.
ສາມາດນຳໃຊ້ສອງຕົວແບບທີ່ເໝາະສົມໄດ້ — ການເສື່ອມຕົວຂອງຄ່າທີ່ເປັນເອກກະລັກ (SVD) ແລະການເສື່ອມໂຊມຂອງຮູບສີ່ຫຼ່ຽມມົນນ້ອຍບາງສ່ວນ (PLS). ທາງເລືອກຂອງຮູບແບບທີ່ເຫມາະສົມຊ່ວຍໃຫ້ຜູ້ໃຊ້ຈັດລໍາດັບຄວາມສໍາຄັນສ່ວນຫນຶ່ງຂອງໂຄງສ້າງຂອງຄູ່, ເຊິ່ງຈະຖືກນໍາໄປໃຊ້ໃນການຜະລິດຂໍ້ມູນໃຫມ່.
ທັງສອງຕົວແບບທີ່ເໝາະສົມມີສອງພາລາມິເຕີ — ຈຳນວນຕົວແປທີ່ແຝງ ແລະຈຳນວນຂອງພາກສ່ວນທີ່ໃຊ້ສຳລັບການເກັບຕົວຢ່າງການກວດສອບຄືນໃໝ່. ການທົດລອງສະແດງໃຫ້ເຫັນວ່າຕົວກໍານົດການບໍ່ຈໍາເປັນຕ້ອງມີການປັບສະເພາະ. ຈໍານວນຕົວແປ latent ໃດໆທີ່ມີຂະຫນາດໃຫຍ່ພຽງພໍທີ່ຈະເກັບກໍາການປ່ຽນແປງລະບົບຂອງຄ່າຊຸດການຝຶກອົບຮົມໃຫ້ບໍລິການເທົ່າທຽມກັນ. ເຊັ່ນດຽວກັນກັບຈໍານວນຂອງພາກສ່ວນໃດທີ່ເລີ່ມຕົ້ນຈາກສາມ.
ວິທີການທີ່ສະເຫນີແມ່ນມີຄວາມຫລາກຫລາຍແລະສາມາດນໍາໃຊ້ໄດ້ກັບຂໍ້ມູນຕົວເລກທັງຫມົດເຊັ່ນດຽວກັນກັບຂໍ້ມູນຕາຕະລາງທີ່ຫນຶ່ງຫຼືຫຼາຍຕົວແປມີຄຸນນະພາບ. ນີ້ເປີດທັດສະນະອື່ນ, ຄືການຈໍາແນກຂໍ້ມູນ, ເຊິ່ງສາມາດເປັນປະໂຫຍດ, ຕົວຢ່າງ, ສໍາລັບການທົດສອບລະບົບຊອບແວທີ່ໂຫລດສູງ, ເຖິງແມ່ນວ່າພວກເຮົາບໍ່ໄດ້ພິຈາລະນາລັກສະນະນີ້ຢູ່ທີ່ນີ້.
ເອກະສານອະທິບາຍເຖິງພື້ນຖານທິດສະດີຂອງວິທີການ ແລະສະແດງໃຫ້ເຫັນເຖິງການປະຕິບັດຕົວຈິງ ແລະການປະຕິບັດຂອງມັນໂດຍອີງໃສ່ສອງຊຸດຂໍ້ມູນທີ່ມີລັກສະນະທີ່ແຕກຕ່າງກັນ. ມັນສະຫນອງລາຍລະອຽດທີ່ສົມບູນແບບກ່ຽວກັບວິທີການສາມາດນໍາໃຊ້ຢ່າງມີປະສິດທິພາບກັບຊຸດຂໍ້ມູນທີ່ມີຄວາມຫຼາກຫຼາຍໃນສະຖານະການທີ່ແທ້ຈິງ.
ພວກເຮົາໄດ້ປະຕິບັດວິທີການໃນຫລາຍພາສາການຂຽນໂປລແກລມ, ລວມທັງ Python, R, MATLAB, ແລະ JavaScript, ແລະການປະຕິບັດທັງຫມົດແມ່ນມີຢູ່ໃນບ່ອນເກັບມ້ຽນ GitHub (https://github.com/svkucheryavski/pcv). ນອກຈາກນັ້ນ, ພວກເຮົາສະຫນອງສະບັບອອນໄລນ໌ທີ່ຫນຶ່ງສາມາດສ້າງຈຸດຂໍ້ມູນໃຫມ່ໂດຍກົງໃນຕົວທ່ອງເວັບ (https://mda.tools/pcv).
ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.