ຊື່ຂອງ :
ພາສາລາວ(1) Corby Rosset, Microsoft Research ແລະ Correspondence ກັບ [email protected];
ພາສາລາວ(2) Ching-An Cheng, ການຄົ້ນຄວ້າ Microsoft;
ພາສາລາວ(3) Arindam Mitra, ການຄົ້ນຄວ້າ Microsoft;
ພາສາລາວ(4) Michael Santacroce, ການຄົ້ນຄວ້າ Microsoft;
ພາສາລາວ(5) Ahmed Awadallah, Microsoft Research ແລະ Correspondence ກັບ [email protected];
ພາສາລາວ(6) Tengyang Xie, Microsoft Research ແລະ Correspondence ກັບ [email protected].
ພາສາລາວAuthors:
(1) Corby Rosset, Microsoft Research ແລະ Correspondence ກັບ [email protected];
(2) Ching-An Cheng, ການຄົ້ນຄວ້າ Microsoft;
(3) Arindam Mitra, ການຄົ້ນຄວ້າ Microsoft;
(4) Michael Santacroce, ການຄົ້ນຄວ້າ Microsoft;
(5) Ahmed Awadallah, Microsoft Research ແລະ Correspondence ກັບ [email protected];
(6) Tengyang Xie, Microsoft Research ແລະ Correspondence ກັບ [email protected].
ຕາຕະລາງ Links
ຊື່ຫຍໍ້ຂອງ : Abstract and 1 Introduction
2.1 RLHF Based on Reward Models
3 Direct Nash Optimization ແລະ 3.1 Derivation ຂອງ Algorithm 1
4 Algorithm Practical - ການປັບປຸງຕົນເອງ Iterative Contrastive
5 ການທົດສອບແລະ 5.1 ການຕິດຕັ້ງທົດສອບ
Appendix
ການປັບປຸງກັບການປັບປຸງທີ່ເຫມາະສົມ
ຊື່ຫຍໍ້ຂອງ : C Additional Experimental Details
ອັດຕະໂນມັດ
ການຄົ້ນຄວ້າທີ່ຍິ່ງໃຫຍ່ຂອງພວກເຮົາແມ່ນການນໍາໃຊ້ການຄົ້ນຄວ້າທີ່ຍິ່ງໃຫຍ່ຂອງການຝຶກອົບຮົມ LLM (LLMs) ໂດຍໃຊ້ການຄົ້ນຄວ້າທີ່ດີທີ່ສຸດຈາກ oracle ທີ່ເຂັ້ມແຂງເພື່ອຊ່ວຍໃຫ້ມາດຕະຖານການປັບປຸງຢ່າງວ່ອງໄວກ່ຽວກັບຕົນເອງ. ການຄົ້ນຄວ້າທີ່ຍິ່ງໃຫຍ່ສໍາລັບການຝຶກອົບຮົມຂອງພວກເຮົາແມ່ນການຊ່ວຍເຫຼືອສໍາລັບການຝຶກອົບຮົມຂອງ LLMs ທີ່ມີຄຸນນະພາບສູງສຸດ. ການຄົ້ນຄວ້າທີ່ຍິ່ງໃຫຍ່ແມ່ນການຊ່ວຍເຫຼືອສໍາລັບການຝຶກອົບຮົມແລະການຝຶກອົບຮົມທີ່ມີຄຸນນະພາບສູງຈາກການຝຶກອົບຮົມຂອງພວກເຮົາ (RLHF), ໃນຂະນະທີ່ການປັບປຸງກ່ຽວກັບ RLHF ສະແດງໃຫ້ເຫັນການຝຶກອົບຮົມທີ່ຍິ່ງໃຫຍ່ແລະການປ
1 ການນໍາສະເຫນີ
ວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາໄລວິທະຍາ
ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກຝຶກອົບຮົມໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງ. ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບຢ່າງກວ້າງຂວາງໃນຂະນະທີ່ການຝຶກອົບຮົມ RLHF ໄດ້ຖືກທົດສອບໂດຍການຝຶກອົບຮົມ R
ໃນຖານະເປັນຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພຂອງຜູ້ຊ່ຽວຊານ.
ພວກເຮົາມີຄວາມພະຍາຍາມທີ່ຈະຕອບສະຫນັບສະຫນູນທັງສອງພະຍາຍາມທີ່ແຕກຕ່າງກັນ: ຄວາມສະດວກສະບາຍຂອງ RLHF ທີ່ຖືກສະຫນັບສະຫນູນໂດຍການປະໂຫຍດແລະຄວາມບໍ່ເສຍຄ່າກ່ຽວກັບວິທີການປັບປຸງການປັບປຸງທີ່ກ່ຽວຂ້ອງກັບຄວາມຕ້ອງການທົ່ວໄປ. ການປັບປຸງທີ່ຜ່ານມາໃນການປັບປຸງທີ່ຖືກສະຫນັບສະຫນູນໂດຍການປະໂຫຍດໂດຍການປະໂຫຍດ, ເຊັ່ນດຽວກັນກັບ DPO, ມີການນໍາໃຊ້ປະສິດທິພາບແລະການຂະຫຍາຍຕົວ – ພວກເຮົາມີຄວາມພະຍາຍາມທີ່ຈະຊອກຫາການປັບປຸງປະສິດທິພາບທີ່ແຕກຕ່າງກັນພາຍໃຕ້ຄວາມຕ້ອງການທົ່ວໄປ.
ພວກເຮົາສະເຫນີ algoritm RLHF probable ແລະ scalable -ການປັບປຸງ Nash(DNO) (Algorithm 1) ທີ່ສະຫນອງການດີທີ່ສຸດຂອງໂລກທັງສອງ, ການເຊື່ອມຕໍ່ການຂະຫຍາຍຕົວຂອງ objectives contrastive ກັບຄວາມປອດໄພທາງດ້ານວິຊາການຂອງການປັບປຸງຄຸນນະພາບທົ່ວໄປ. DNO ໄດ້ຖືກອອກແບບເປັນ algorithm on-policy batched ມີ obiective learning based on regression; ການເລືອກການອອກແບບນີ້ເຮັດໃຫ້ DNO stable ແລະ scalable, ຊອກຫາການປະຫຍັດລະຫວ່າງປະສິດທິພາບການຕິດຕັ້ງແລະ adaptability.
Direct Nash Optimization
ພວກເຮົາມີຄວາມຊື່ນເຕັ້ນໃນລະດັບສູງຂອງອຸປະກອນຂະຫນາດໃຫຍ່ແລະຄວາມຮູ້ສຶກຂອງ DNO ຫຼັງຈາກນັ້ນ.
- ພາສາລາວ
- ສໍາລັບການປິ່ນປົວບັນຫາທີ່ຄຸນນະສົມບັດຂອງການຍິນດີຕ້ອນຮັບບໍ່ສາມາດສະແດງໃຫ້ເຫັນຄວາມຕ້ອງການທົ່ວໄປ, ພວກເຮົາມີຄວາມຮູ້ສຶກທີ່ຜ່ານມາທີ່ຮູ້ສຶກວ່າຄວາມຮູ້ສຶກຂອງການຍິນດີຕ້ອນຮັບຄຸນສົມບັດຂອງການຍິນດີຕ້ອນຮັບຄຸນສົມບັດຂອງການຍິນດີຕ້ອນຮັບຄຸນສົມບັດຂອງການຍິນດີຕ້ອນຮັບທົ່ວໄປ.[2] ພາສາລາວ
- ສໍາລັບການປິ່ນປົວບັນຫາທີ່ຊອກຫາໃນການເຮັດວຽກທີ່ຜ່ານມາວ່າການປັບປຸງຈຸດປະສົງທົ່ວໄປນີ້ໂດຍໃຊ້ algoritms ອອນໄລນ໌ແມ່ນ sample-inefficient ຫຼືບໍ່ເຄື່ອນໄຫວ, ພວກເຮົາມີການປິ່ນປົວການຝຶກອົບຮົມໃນຊຸດຂອງ " batched on-policy" iterations, ໃນຂະນະທີ່ແຕ່ລະເລີ່ມຕົ້ນໃນຂະນະທີ່ການປັບປຸງຈຸດປະສົງ regression ງ່າຍດາຍ. ພາສາລາວ
- ການຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ຄາດຄະເນດິນດີຕ້ອນຮັບ (ພວກເຮົາມີການຄາດຄະເນດິນດີຕ້ອນຮັບ) ພາສາລາວ
- ການຄຸ້ມຄອງຂອງພວກເຮົາແມ່ນທົ່ວໄປຫຼາຍກ່ວາການນໍາໃຊ້ຕົວຢ່າງ off-policy ໃນການຝຶກອົບຮົມ, ປະສິດທິພາບຫຼາຍກ່ວາຕົວຢ່າງຈາກຜູ້ຊ່ຽວຊານທີ່ມີຄວາມເຂັ້ມແຂງ (ເບິ່ງການເລືອກຂອງ μ1 ແລະ μ2 ໃນ Algorithm 1). ພາສາລາວ
- ນອກເຫນືອໄປຈາກນີ້, ເພື່ອຮັບປະກັນຄວາມປອດໄພແລະປະສິດທິພາບການຄອມພິວເຕີ, ພວກເຮົາສະເຫນີລະບົບການກັ່ນຕອງເຊັ່ນດຽວກັນທີ່ການຍົກເລືອດການຍົກເລືອດໄດ້ຖືກນໍາໃຊ້ພຽງແຕ່ກ່ຽວກັບຊຸດທີ່ດີເລີດທີ່ມີການຍົກເລືອດຂະຫນາດໃຫຍ່ (ສໍາລັບການສັກຢາ, ເບິ່ງ Section 4; ໃນປະສິດທິພາບ, ເບິ່ງ Section 5.2). ພາສາລາວ
- DNO repetes this procedure for multiple iterations to allow the policy to optimize towards the general preference. ເນື່ອງຈາກວ່າແຕ່ລະການປະກອບມີບັນຫາ regression ມັນສາມາດຖືກນໍາໃຊ້ຢ່າງງ່າຍດາຍໃນຂະຫນາດ. ພາສາລາວ
Theoretically, we prove DNO converges to the intended Nash equilibrium on average, and that it can improve monotonously across iterations (cf. Section 3.1). ນອກເຫນືອໄປຈາກນັ້ນ, our finite sample analysis shows that approximation error at any iteration between the learned policy and the target is tightly bounded (Theorem 1).
ການນໍາສະເຫນີ DNO (Algorithm 2): ການນໍາສະເຫນີ DNO (Algorithm 2): algorithm self-improvement ອັດຕະໂນມັດທີ່ມີການປັບປຸງ contrastive, ເຊິ່ງປະມວນຜົນ Algorithm 1 ໃນໄລຍະການເລືອກການອອກແບບທີ່ສໍາຄັນ. ຄໍາຮ້ອງສະຫມັກເຫຼົ່ານີ້ປະກອບມີ: sampling ຫຼາຍ outputs ອອນໄລນ໌ຈາກຄຸນນະພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມ, ການນໍາໃຊ້ GPT-4 ເປັນ oracle ຄຸນນະພາບ, comparing onpolicy samples to GPT-4's own (teacher) outputs, ແລະການຝຶກອົບຮົມພຽງແຕ່ກ່ຽວກັບຊຸດທີ່ມີ "margin ຂະຫນາດໃຫຍ່" (ສໍາລັບການຄໍາຮ້ອງສະຫມັກດ້ານວິຊາການ, ກະລຸນາ Section 4; ໃນປັດຈຸບັນ, ກະລຸນາເບິ່ງ Section 5.2).
ປະເພດຕົ້ນຕໍຂອງການເຮັດວຽກຂອງພວກເຮົາກ່ຽວກັບການເຮັດວຽກທີ່ກ່ຽວຂ້ອງຂອງ Nash-MD (Munos et al., 2023) ແລະ SPO (Swamy et al., 2024) ແມ່ນວ່າພວກເຂົາເຈົ້າທັງສອງສະແດງໃຫ້ເຫັນບັນຫາການປະສິດທິພາບຕົວຢ່າງ (ສອງການປັບປຸງໃນໄລຍະເວລາຫຼືເລື່ອງ RL ທີ່ບໍ່ມີປະສິດທິພາບຕົວຢ່າງ) ແລະທັງສອງນໍາໃຊ້ຕົວຢ່າງ purely on-policy.
ທີ່ສໍາຄັນທີ່ສຸດ, DNO works in practice – ພວກເຮົາມີການ evaluating empirical ການກວດສອບຢ່າງກວ້າງຂວາງ, resulting in state of the art performance:
• ໂມເລກຸນ Orca-2.5 Parameter 7B ທີ່ຖືກນໍາໃຊ້ໂດຍໃຊ້ການນໍາໃຊ້ການນໍາໃຊ້ DNO (Algorithm 2) ໄດ້ຮັບປະສິດທິພາບທີ່ດີທີ່ສຸດຂອງມະນຸດ 7B ທີ່ມີປະສິດທິພາບສູງສຸດ 33% ຫຼາຍກ່ວາ GPT-4-Turbo ຫຼາຍກ່ວາ AlpacaEval 2.0, ເຊັ່ນດຽວກັນກັບການຄວບຄຸມຄວາມຍາວ. ມັນເປັນຄວາມຍາວຫຼາຍກ່ວາ 26% absolute (7%→33%) compared to the initialized model. ມັນມີປະສິດທິພາບຫຼາຍກ່ວາມະນຸດທີ່ຜ່ານມາ, ລວມທັງ Mistral Large ແລະ GPT-4-0613, ເຊັ່ນດຽວກັນກັບໂມເລກຸນ open-source ທີ່ມີຄຸນນະພາບຫຼາຍກ່ວາ 10×, ເຊັ່ນ: LM Self-Rewarding (Yuan et al., 20
• ການຄົ້ນຄວ້າ ablation ຂອງພວກເຮົາຢ່າງກວ້າງຂວາງໃນ Section 5.2 ການຄົ້ນຄວ້າບັນຫາການອອກແບບທີ່ສໍາຄັນທີ່ກ່ຽວຂ້ອງກັບການເລືອກຂອງການປະໂຫຍດ ( finetuning supervised ຫຼື contrastive), ການຝຶກອົບຮົມ paradigm (ມີຫຼືບໍ່ມີຕົວຢ່າງ on-policy), ຄຸນນະພາບ annotator ຄວາມຕ້ອງການ (Marge ຂະຫນາດໃຫຍ່ຫຼືບໍ່ມີ), ແລະການຝຶກອົບຮົມການກໍ່ສ້າງຊຸດ (self-play, teacher-versus-student, ແລະອື່ນໆ). ຄໍາຮ້ອງສະຫມັກຂອງພວກເຮົາກໍາລັງສະແດງໃຫ້ເຫັນວ່າການປິ່ນປົວຢ່າງກວ້າງຂວາງໃນ Algorithm 2 ເຮັດໃຫ້ການປັບປຸງທີ່ສໍາຄັນ.
• ພວກເຮົາສະແດງໃຫ້ເຫັນປະເພດຂອງ outputs ໃນໄລຍະ iterations ທີ່ສະແດງໃຫ້ເຫັນການປັບປຸງຄຸນນະພາບເຊັ່ນດຽວກັນກັບການປິ່ນປົວທີ່ດີກວ່າຂອງບັນຫາທີ່ແຕກຕ່າງກັນແລະບັນຫາທີ່ຄາດຄະເນ (Table 5), ການຄຸ້ມຄອງທີ່ດີກວ່າແລະຄວາມສົນໃຈໃນຂະນະທີ່ບໍ່ໄດ້ຮັບການສະແດງໃຫ້ເຫັນທີ່ເຄື່ອນໄຫວ (Table 6), ແລະຄວາມກ້ວາງຂໍ້ມູນສູງສຸດໃນຄໍາສັ່ງ (Table 7).
ພວກເຮົາມີຄວາມຊອກຫາທີ່ດີທີ່ສຸດສໍາລັບຜູ້ຊ່ຽວຊານໃນການຄົ້ນຄວ້າແລະການຝຶກອົບຮົມ.
ເອກະສານນີ້ສາມາດເຂົ້າເຖິງໃນ archiv under CC BY 4.0 DEED License.
ພາສາລາວເອກະສານນີ້ສາມາດເຂົ້າເຖິງໃນ archiv under CC BY 4.0 DEED License.
[1] ພວກເຮົາມີການນໍາໃຊ້ "model reward" ເພື່ອສະແດງໃຫ້ເຫັນຮູບເງົາທີ່ທັນສະໄຫມຄວາມຕ້ອງການໃນສະດວກ, ເຊັ່ນ Bradley-Terry, ໃນຂະນະທີ່ "function reward" ເປັນຮູບເງົາ (ທີ່ສາມາດເຂົ້າໃຈ) ທີ່ຜະລິດ scalars reward.