paint-brush
ນັກຄົ້ນຄວ້າ Microsoft ກ່າວວ່າຕົວແບບ AI ໃຫມ່ສາມາດ 'ເບິ່ງ' ຫນ້າຈໍໂທລະສັບຂອງທ່ານໂດຍ@fewshot
270 ການອ່ານ

ນັກຄົ້ນຄວ້າ Microsoft ກ່າວວ່າຕົວແບບ AI ໃຫມ່ສາມາດ 'ເບິ່ງ' ຫນ້າຈໍໂທລະສັບຂອງທ່ານ

ຍາວເກີນໄປ; ອ່ານ

ນັກຄົ້ນຄວ້າຢູ່ Microsoft ແລະມະຫາວິທະຍາໄລຄາລິຟໍເນຍ San Diego ໄດ້ພັດທະນາຕົວແບບ AI ທີ່ສາມາດນໍາທາງຫນ້າຈໍໂທລະສັບສະຫຼາດຂອງທ່ານໄດ້.
featured image - ນັກຄົ້ນຄວ້າ Microsoft ກ່າວວ່າຕົວແບບ AI ໃຫມ່ສາມາດ 'ເບິ່ງ' ຫນ້າຈໍໂທລະສັບຂອງທ່ານ
The FewShot Prompting Publication  HackerNoon profile picture
0-item

ຜູ້ຂຽນ:

(1) An Yan, UC San Diego, [email protected];

(2) Zhengyuan Yang, Microsoft Corporation, [email protected] ດ້ວຍການປະກອບສ່ວນເທົ່າທຽມກັນ;

(3) Wanrong Zhu, UC Santa Barbara, [email protected];

(4) Kevin Lin, Microsoft Corporation, [email protected];

(5) Linjie Li, Microsoft Corporation, [email protected];

(6) Jianfeng Wang, Microsoft Corporation, [email protected];

(7) Jianwei Yang, Microsoft Corporation, [email protected];

(8) Yiwu Zhong, ມະຫາວິທະຍາໄລ Wisconsin-Madison, [email protected];

(9) Julian McAuley, UC San Diego, [email protected];

(10) Jianfeng Gao, Microsoft Corporation, [email protected];

(11) Zicheng Liu, Microsoft Corporation, [email protected];

(12) Lijuan Wang, Microsoft Corporation, [email protected].


ບັນທຶກຂອງບັນນາທິການ: ນີ້ແມ່ນສ່ວນ 1 ຂອງເອກະສານທີ່ປະເມີນການນໍາໃຊ້ AI ທົ່ວໄປເພື່ອນໍາທາງໂທລະສັບສະຫຼາດ. ທ່ານສາມາດອ່ານສ່ວນທີ່ເຫຼືອຂອງເອກະສານຜ່ານຕາຕະລາງຂອງການເຊື່ອມຕໍ່ຂ້າງລຸ່ມນີ້.

ຕາຕະລາງການເຊື່ອມໂຍງ


ບົດຄັດຫຍໍ້

ພວກເຮົານຳສະເໜີ MM-Navigator, ຕົວແທນທີ່ອີງໃສ່ GPT-4V ສໍາລັບໜ້າວຽກການນຳທາງແບບກຣາຟິກຂອງສະມາດໂຟນ (GUI). MM-Navigator ສາມາດໂຕ້ຕອບກັບໜ້າຈໍສະມາດໂຟນໃນຖານະຜູ້ໃຊ້ຂອງມະນຸດ, ແລະກຳນົດການດຳເນີນການຕໍ່ໄປເພື່ອປະຕິບັດຕາມຄຳແນະນຳທີ່ໃຫ້ໄວ້. ການຄົ້ນພົບຂອງພວກເຮົາສະແດງໃຫ້ເຫັນວ່າແບບຈໍາລອງ multimodal ຂະຫນາດໃຫຍ່ (LMMs), ໂດຍສະເພາະ GPT-4V, ດີເລີດໃນການນໍາທາງ GUI ທີ່ມີຈຸດສູງສຸດໂດຍຜ່ານການຕີຄວາມຫນ້າຈໍແບບພິເສດ, ການໃຫ້ເຫດຜົນການປະຕິບັດ, ແລະຄວາມສາມາດທ້ອງຖິ່ນການປະຕິບັດທີ່ຊັດເຈນ. ພວກເຮົາທໍາອິດທີ່ benchmark MM-Navigator ໃນຊຸດຂໍ້ມູນຫນ້າຈໍ iOS ທີ່ເກັບກໍາຂອງພວກເຮົາ. ອີງຕາມການປະເມີນຂອງມະນຸດ, ລະບົບໄດ້ສະແດງອັດຕາຄວາມຖືກຕ້ອງ 91% ໃນການສ້າງຄໍາອະທິບາຍການປະຕິບັດທີ່ສົມເຫດສົມຜົນແລະອັດຕາຄວາມຖືກຕ້ອງ 75% ໃນການປະຕິບັດການປະຕິບັດທີ່ຖືກຕ້ອງສໍາລັບຄໍາແນະນໍາຂັ້ນຕອນດຽວໃນ iOS. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຕົວແບບຢູ່ໃນຊຸດຍ່ອຍຂອງຊຸດຂໍ້ມູນການນໍາທາງຂອງໜ້າຈໍ Android, ບ່ອນທີ່ຕົວແບບດັ່ງກ່າວມີຜົນດີກ່ວາຕົວນໍາທາງ GUI ທີ່ຜ່ານມາໃນຮູບແບບທີ່ບໍ່ມີການຍິງ. ດັດຊະນີ ແລະການວິເຄາະລາຍລະອຽດຂອງພວກເຮົາມີຈຸດປະສົງເພື່ອວາງພື້ນຖານທີ່ເຂັ້ມແຂງສໍາລັບການຄົ້ນຄວ້າໃນອະນາຄົດເຂົ້າໃນວຽກງານນໍາທາງ GUI. ຫນ້າໂຄງການຢູ່ທີ່ https://github.com/zzxslp/MM-Navigator.

1 ບົດແນະນຳ

ການສ້າງຕົວແທນທີ່ເປັນເອກະລາດທີ່ສາມາດພົວພັນກັບອຸປະກອນຄອມພິວເຕີແລະປະຕິບັດຕາມຄໍາສັ່ງຂອງມະນຸດໄດ້ເປັນຫົວຂໍ້ທີ່ຍາວນານໃນຊຸມຊົນການຮຽນຮູ້ເຄື່ອງຈັກ (Bolt, 1980; Lieberman et al., 1995). ນັບຕັ້ງແຕ່ການມາຂອງໂທລະສັບສະຫຼາດ, ມີຄວາມຕ້ອງການປະຕິບັດສໍາລັບການສ້າງຜູ້ຊ່ວຍ virtual, ເຊັ່ນ Siri, Cortana, ແລະຜູ້ຊ່ວຍ Google, ທີ່ມີທ່າແຮງທີ່ຈະເສີມຂະຫຍາຍປະສົບການຂອງຜູ້ໃຊ້ຢ່າງຫຼວງຫຼາຍແລະການຊ່ວຍເຫຼືອບຸກຄົນທີ່ມີຄວາມບົກຜ່ອງດ້ານຮ່າງກາຍຫຼືສະຖານະການ. ໂດຍຫລັກການແລ້ວ, ຜູ້ຊ່ວຍເຫຼົ່ານີ້ຈະມີຄວາມສາມາດປະຕິບັດວຽກງານປະຈໍາວັນໂດຍອີງໃສ່ຄໍາແນະນໍາພາສາທໍາມະຊາດ, ຕັ້ງແຕ່ການກະທໍາງ່າຍໆເຊັ່ນການຕັ້ງໂມງຈັບເວລາໄປຫາວຽກງານທີ່ສັບສົນຫຼາຍເຊັ່ນ: ການຊອກຫາໂຮງແຮມທີ່ເຫມາະສົມສໍາລັບການພັກຜ່ອນຂອງຄອບຄົວ.


ການສຶກສາທີ່ຜ່ານມາໄດ້ເລີ່ມຄົ້ນຫາການຄວບຄຸມອຸປະກອນມືຖືແລະການເຮັດວຽກຂອງໂທລະສັບສະຫຼາດອັດຕະໂນມັດຕາມຄໍາແນະນໍາຂອງມະນຸດ (Rawles et al., 2023; Wen et al., 2023; Zhan and Zhang, 2023; Wang et al., 2023). ວິທີການທີ່ເປັນຕົວແທນປະກອບມີການອະທິບາຍພາບຫນ້າຈໍດ້ວຍຂໍ້ຄວາມແລະການປຸງແຕ່ງຂໍ້ຄວາມທີ່ປ່ຽນດ້ວຍຕົວແບບພາສາຂະຫນາດໃຫຍ່ (LLMs) (Rawles et al., 2023; Wen et al., 2023), ຫຼືການຝຶກອົບຮົມແບບຈໍາລອງພາສາວິໄສທັດເພື່ອສ້າງການປະຕິບັດໃນລັກສະນະທີ່ມີການເບິ່ງແຍງ ( Rawles et al., 2023; Zhan and Zhang, 2023). ຢ່າງໃດກໍ່ຕາມ, ຮູບແບບທີ່ມີການເບິ່ງແຍງເຫຼົ່ານີ້, ເມື່ອໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບປະເພດສະເພາະຂອງຫນ້າຈໍ ແລະຄໍາແນະນໍາ (Rawles et al., 2023), ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ຈໍາກັດໃນການເຮັດໂດຍທົ່ວໄປກັບສະຖານະການຕົວຈິງ. ໃນອີກດ້ານຫນຶ່ງ, ວິທີການທີ່ອີງໃສ່ LLM ໂດຍທົ່ວໄປແມ່ນດີກວ່າ, ແຕ່ຂັ້ນຕອນລະຫວ່າງກາງຂອງການປ່ຽນຮູບພາບຫນ້າຈໍເປັນຂໍ້ຄວາມເຮັດໃຫ້ການສູນເສຍຂໍ້ມູນແລະຜົນເສຍຫາຍການປະຕິບັດ. ໄດ້ຮັບແຮງບັນດານໃຈຈາກປະສິດທິພາບ ແລະ ການນຳໃຊ້ທີ່ກວ້າງຂວາງຂອງຕົວແບບ multimodal ຂະໜາດໃຫຍ່ຫຼ້າສຸດ (LMMs), ພວກເຮົາສຳຫຼວດການນຳໃຊ້ LMM, GPT-4V (OpenAI, 2023a,b,c; gpt, 2023; Yang et al., 2023c), ສຳລັບ zeroshot smartphone GUI ການ​ນຳ​ທາງ, ​ແນ​ໃສ່​ສ້າງ​ພື້ນຖານ​ອັນ​ໜັກ​ແໜ້ນ​ໃໝ່​ໃຫ້​ແກ່​ວຽກ​ງານ​ທີ່​ໜ້າ​ສົນ​ໃຈ​ນີ້.


ພວກເຮົາກໍານົດສອງສິ່ງທ້າທາຍຕົ້ນຕໍສໍາລັບການນໍາທາງ GUI ກັບ LMMs, ຄືຄໍາອະທິບາຍການປະຕິບັດແລະການປະຕິບັດການທ້ອງຖິ່ນ. ທໍາອິດ, ຮູບແບບຄວນເຂົ້າໃຈຮູບພາບຫນ້າຈໍແລະຄໍາແນະນໍາຂໍ້ຄວາມ, ແລະໃຫ້ເຫດຜົນໃນໄລຍະການສອບຖາມເພື່ອກໍານົດການປະຕິບັດທີ່ເຫມາະສົມທີ່ຈະປະຕິບັດ, ເຊັ່ນການສະຫນອງຄໍາອະທິບາຍພາສາທໍາມະຊາດ "ຄລິກໃສ່ໄອຄອນ Amazon ໃນແຖວທີສາມແລະສີ່ຖັນ." ອັນທີສອງ, ຮູບແບບຄວນປ່ຽນຄວາມເຂົ້າໃຈລະດັບສູງດັ່ງກ່າວເປັນການປະຕິບັດຮູບແບບທີ່ສາມາດປະຕິບັດໄດ້ງ່າຍໂດຍອີງໃສ່ກົດລະບຽບ, ເຊັ່ນ: “{Action: Click, Location: (0.31, 0.57)}.” ໃນວິທີການຂອງພວກເຮົາ, ພວກເຮົາກະຕຸ້ນເຕືອນ GPT-4V ດ້ວຍຮູບພາບແລະຂໍ້ຄວາມສໍາລັບການວາງແຜນການປະຕິບັດ, ແລະວາງປ້າຍທີ່ກໍານົດໄວ້ (Yang et al., 2023b) ເພື່ອຍຶດເອົາຜົນຜະລິດທີ່ສ້າງຂຶ້ນ. ໂດຍສະເພາະ, ພວກເຮົາເຊື່ອມໂຍງເຄື່ອງຫມາຍເຫຼົ່ານີ້ກັບສະຖານທີ່ທາງກວ້າງຂອງພື້ນທີ່ໂດຍການຊ່ວຍເຫຼືອຂອງຮູບແບບການແບ່ງສ່ວນຫຼື OCR. ເພື່ອເຮັດສິ່ງນີ້, ລະບົບອີງໃສ່ GPT-4V ທີ່ສະເຫນີຂອງພວກເຮົາ, ຄື MM-Navigator, ສາມາດສ້າງການປະຕິບັດທີ່ສາມາດປະຕິບັດໄດ້ໃນຮູບພາບຫນ້າຈໍ, ຄໍາແນະນໍາຂໍ້ຄວາມແລະປະຫວັດການໂຕ້ຕອບຂອງມັນ.


ພວກເຮົາມາດຕະຖານ MM-Navigator ໃນສອງຊຸດຂໍ້ມູນ. ພວກເຮົາເລີ່ມຕົ້ນດ້ວຍຊຸດຂໍ້ມູນການນໍາທາງ iOS GUI ທີ່ມີຮູບໜ້າຈໍ ແລະຄຳແນະນຳຜູ້ໃຊ້ທີ່ພວກເຮົາເກັບເອົາເອງ. ຊຸດຂໍ້ມູນການວິເຄາະທີ່ສະອາດນີ້ຖືກອອກແບບມາເພື່ອສືບສວນຄວາມເຂົ້າໃຈສໍາລັບສອງສິ່ງທ້າທາຍໃນການນໍາທາງ GUI: ຄໍາອະທິບາຍການປະຕິບັດທີ່ມີຈຸດປະສົງແລະການປະຕິບັດການດໍາເນີນການທ້ອງຖິ່ນ. ການປະເມີນຜົນຂອງມະນຸດຖືກນໍາໃຊ້ເພື່ອປະເມີນ GPT-4V ໃນສອງຫນ້າວຽກນີ້, ມີອັດຕາຄວາມຖືກຕ້ອງຂອງ 91% ແລະ 75%, ຕາມລໍາດັບ. ນອກຈາກນັ້ນ, ພວກເຮົາປະເມີນຮູບແບບໃນຊຸດຍ່ອຍແບບສຸ່ມຈາກມາດຕະຖານການນໍາທາງ Android ທີ່ປ່ອຍອອກມາເມື່ອບໍ່ດົນມານີ້ (Rawles et al., 2023). ພວກເຮົາປະຕິບັດຕາມອະນຸສັນຍາການປະເມີນຜົນທີ່ສະເໜີໄວ້ໃນດັດຊະນີ, ພ້ອມກັບການປະເມີນຂອງມະນຸດເພີ່ມເຕີມ. ປະສິດທິພາບທີ່ເຂັ້ມແຂງສະແດງໃຫ້ເຫັນວ່າ MM-Navigator ເປັນຕົວນໍາທາງ GUI ທີ່ມີປະສິດທິພາບສໍາລັບໂທລະສັບສະຫຼາດ, ມີປະສິດທິພາບດີກວ່າວິທີການທີ່ອີງໃສ່ LLM ກ່ອນຫນ້ານີ້. ພວກ​ເຮົາ​ສະ​ຫນອງ​ການ​ວິ​ເຄາະ​ໃນ​ຄວາມ​ເລິກ​ຂອງ​ຄວາມ​ສໍາ​ເລັດ​ຕົວ​ແທນ​ແລະ​ກໍ​ລະ​ນີ​ຄວາມ​ລົ້ມ​ເຫຼວ​. ພວກເຮົາພົບວ່າສະຖານະປະຈຸບັນຂອງ GPT-4V ອາດຈະມີປະສິດທິພາບໃນການຊ່ວຍມະນຸດໃນສະຖານະການນໍາທາງ GUI ໃນໂລກທີ່ແທ້ຈິງຕ່າງໆ, ດັ່ງທີ່ເຫັນໄດ້ຈາກຜົນໄດ້ຮັບຫຼາຍຫນ້າຈໍໃນຮູບ 4. ແນວໃດກໍ່ຕາມ, ການປັບປຸງຢ່າງຕໍ່ເນື່ອງແມ່ນຍັງມີຄວາມຈໍາເປັນທີ່ຈະເພີ່ມລະບົບຂອງລະບົບ. ຄວາມຫນ້າເຊື່ອຖື, ດັ່ງທີ່ເປີດເຜີຍໃນການວິເຄາະຂອງພວກເຮົາ.


ການປະກອບສ່ວນຂອງພວກເຮົາແມ່ນສະຫຼຸບໄດ້ດັ່ງຕໍ່ໄປນີ້


•ພວກເຮົານໍາສະເຫນີ MM-Navigator, ລະບົບຕົວແທນທີ່ສ້າງຂຶ້ນໃນ GPT-4V ສໍາລັບການນໍາທາງ GUI ໂທລະສັບສະຫຼາດ. MM-Navigator ມີປະສິດຕິຜົນລວມເອົາປະຫວັດການປະຕິບັດແລະແທັກທີ່ກໍານົດໄວ້ເພື່ອຜະລິດການປະຕິບັດທີ່ຊັດເຈນ.


• ພວກເຮົາເກັບກຳຊຸດຂໍ້ມູນການວິເຄາະໃໝ່ທີ່ມີໜ້າຈໍ iOS ທີ່ຫຼາກຫຼາຍ ແລະຄຳແນະນຳຂອງຜູ້ໃຊ້, ເຊິ່ງປະເມີນສອງສິ່ງທ້າທາຍຕົ້ນຕໍໃນການນຳທາງ GUI ດ້ວຍ LMMs: ລາຍລະອຽດຄຳສັ່ງທີ່ຕັ້ງໄວ້ ແລະການປະຕິບັດການດຳເນີນການໃນທ້ອງຖິ່ນ.


•ພວກເຮົາປະຕິບັດການປະເມີນຜົນຢ່າງກວ້າງຂວາງ, ທັງອັດຕະໂນມັດແລະມະນຸດ, ໃນສອງຊຸດຂໍ້ມູນແລະສະຫນອງການວິເຄາະລາຍລະອຽດ. ຜົນໄດ້ຮັບທີ່ຫນ້າປະທັບໃຈສະແດງໃຫ້ເຫັນເຖິງປະສິດທິພາບຂອງ MMNavigator ສໍາລັບການນໍາທາງ GUI.


ເອກະສານນີ້ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication  HackerNoon profile picture
The FewShot Prompting Publication @fewshot
Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

ວາງປ້າຍ

ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ...