Authors:
(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng, Microsoft Research;
(3) Arindam Mitra, Microsoft Research;
(4) Michael Santacroce, Microsoft Research;
(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].
(1) Corby Rosset, Microsoft ການຄົ້ນຄວ້າແລະການຕັດສິນໃຈກັບ [email protected];
(2) Ching-An Cheng, ການຄົ້ນຄວ້າ Microsoft;
(3) Arindam Mitra, ການຄົ້ນຄວ້າ Microsoft;
(4) Michael Santacroce, ການຄົ້ນຄວ້າ Microsoft;
(5) Ahmed Awadallah, Microsoft ການຄົ້ນຄວ້າແລະການຕັດສິນໃຈກັບ [email protected];
ຊື່ຫຍໍ້ຂອງ : Tengyang Xie, Microsoft Research and Correspondence to [email protected]Table of Links
Abstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
ປັດຈຸບັນ
ຊື່ຫຍໍ້ຂອງ : AppendixA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Detailsຊື່ຫຍໍ້ຂອງ : H2 Abstractພວກເຮົາມີຄວາມຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພ.1 ຄວາມຄິດເຫັນ
ຂະຫນາດໃຫຍ່ຂອງຄວາມຮູ້ສຶກອົບຮົມອຸດສາຫະກໍາແມ່ນການພັດທະນາໄປຫາມາດຕະຖານທີ່ທັນສະໄຫມທີ່ສາມາດຮູ້ສຶກ, ຄໍາຮ້ອງສະຫມັກ, ຫຼັງຈາກການຝຶກອົບຮົມທີ່ສົມບູນແບບ, ແລະສ້າງຄວາມຮູ້ສຶກອົບຮົມທີ່ມີຄຸນນະສົມບັດ, ໃນຂະນະທີ່ສອດຄ່ອງກັບຄຸນນະພາບແລະຄວາມຕ້ອງການຂອງມະນຸດ. ໂມເລກທີ (LLMs) (ລັກສະນະ, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ຍິ່ງໃຫຍ່ໃນການຜະລິດລະດັບມະນຸດຂອງມະນຸດ, ຄໍາຮ້ອງສະຫມັກ, ແລະ coding, ແຕ່ພວກເຂົາເຈົ້າຍັງມີປະສົບການໃນກິດຈະກໍາທີ່ຕ້ອງການລະດັບສູງຂອງຄວາມປອດໄພ,
The reward maximization framing poses a major limitation. Functions reward, defined to output a scalar score r(x, y) for a single response y to input x, cannot express general preferences y y ′ x between a pair of outputs in all cases, e.g., intransitive or cyclic preferences (Elo, 1978). ດັ່ງນັ້ນ, LLMs trained under reward maximization cannot always align with human preference. ນອກເຫນືອໄປຈາກນັ້ນ, ການເຮັດວຽກທັນສະໄຫມສະແດງໃຫ້ເຫັນວ່າເຖິງແມ່ນວ່າໃນສະຖານທີ່ທີ່ທີ່ຄວາມຕ້ອງການສາມາດໄດ້ຮັບການພິມຢ່າງງ່າຍດາຍພາຍໃຕ້ຮູບແບບ BT reward-based, optimizing towards rewards yields behaviors problematic; ພວກເຮົາມີຄວາມຮູ້ສຶກກັບ Bertrand et al. (2023); Az
ພວກເຮົາມີຄວາມພະຍາຍາມທີ່ຈະຕອບສະຫນັບສະຫນູນທັງສອງພະຍາຍາມທີ່ແຕກຕ່າງກັນ: ຄວາມສະດວກສະບາຍຂອງ RLHF ທີ່ແຕກຕ່າງກັນແລະຄວາມບໍ່ຈໍາເປັນກ່ຽວກັບວິທີການປັບປຸງການປັບປຸງທີ່ກ່ຽວຂ້ອງກັບຄວາມຕ້ອງການທົ່ວໄປ. ການປັບປຸງທີ່ຜ່ານມາໃນການປັບປຸງທີ່ແຕກຕ່າງກັນເຊັ່ນດຽວກັນ, DPO, ມີການນໍາໃຊ້ປະສິດທິພາບແລະການຂະຫຍາຍຕົວ - ພວກເຮົາມີຄວາມຕ້ອງການການປັບປຸງປະສິດທິພາບທີ່ແຕກຕ່າງກັນພາຍໃຕ້ຄວາມຕ້ອງການທົ່ວໄປ.
We propose a probable and scalable RLHF algorithm – Direct Nash Optimization (DNO) (Algorithm 1) which achieves the best of both worlds, combining the scalability of contrastive objectives with the theoretical soundness of general preference optimization. DNO is designed as a batched on-policy algorithm with a regression-based learning objective; this design choice makes DNO stable and scalable, striking a balance between deployment efficiency and adaptability.Direct Nash Optimizationດາວນ໌ໂຫລດ Direct Nash Optimization
ພວກເຮົາມີຄວາມຊ່ຽວຊານທີ່ສໍາຄັນແລະຄວາມຮູ້ສຶກຂອງ DNO ໃນລະດັບສູງ.
ເພື່ອປິ່ນປົວສິ່ງທີ່ຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບບໍ່ສາມາດສະແດງຄວາມຕ້ອງການທົ່ວໄປ, ພວກເຮົາມີຄວາມຮູ້ສຶກທີ່ຜ່ານມາທີ່ຮູ້ສຶກວ່າຄວາມຮູ້ສຶກຂອງການຍິນດີຕ້ອນຮັບຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບ.
ເພື່ອປິ່ນປົວບັນຫາທີ່ຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບບໍ່ສາມາດສະແດງໃຫ້ເຫັນຄວາມຕ້ອງການທົ່ວໄປ, ພວກເຮົາມີຄວາມຮູ້ສຶກທີ່ຜ່ານມາທີ່ຮູ້ສຶກວ່າຄວາມຮູ້ສຶກຂອງການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບແມ່ນຄຸນສົມບັດການຍິນດີຕ້ອນຮັບທີ່ກ່ຽວຂ້ອງກັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບທົ່ວໄປ.[2]
ເພື່ອປິ່ນປົວບັນຫາທີ່ຊອກຫາໃນການເຮັດວຽກທີ່ຜ່ານມາວ່າການປັບປຸງຈຸດປະສົງທີ່ທົ່ວໄປນີ້ໂດຍໃຊ້ algoritms ອອນໄລນ໌ແມ່ນ sample-inefficient ຫຼືບໍ່ເຄື່ອນໄຫວ, ພວກເຮົາມີການປິ່ນປົວການຝຶກອົບຮົມຂອງການຝຶກອົບຮົມໃນຊຸດຂອງ " batched on-policy" ການທົດສອບ, ໃນຂະນະທີ່ແຕ່ລະເລື່ອງໃນຂະນະທີ່ການປັບປຸງຈຸດປະສົງ regression simple.
ເພື່ອປິ່ນປົວບັນຫາທີ່ຊອກຫາໃນການເຮັດວຽກທີ່ຜ່ານມາວ່າການປັບປຸງຈຸດປະສົງທີ່ທົ່ວໄປຫຼາຍທີ່ມີ algoritms ອິນເຕີເນັດແມ່ນ sample-inefficient ຫຼືບໍ່ເຄື່ອນໄຫວ, ພວກເຮົາມີການປິ່ນປົວການຝຶກອົບຮົມຂອງການຝຶກອົບຮົມໃນຊຸດຂອງ " batched on-policy" iterations, ໃນຂະນະທີ່ແຕ່ລະເລື່ອງໃນຂະນະທີ່ການປັບປຸງຈຸດປະສົງ regression ວັດສະດວກ.
Objective ການຍົກເລີກ (ພວກເຮົາມີການເລືອກ cross-entropy binary) ສະເຫນີ "function reward internal" ຂອງຄໍາຮ້ອງສະຫມັກກັບການຍົກເລີກທີ່ຄາດຄະເນດຽວກັນກັບຕົນເອງ (ເຊັ່ນດຽວກັນກັບ Line 3 ຂອງຄໍາຮ້ອງສະຫມັກ 1). ໂດຍ sampling outputs ຈາກຄໍາຮ້ອງສະຫມັກໃນປັດຈຸບັນເພື່ອນໍາໃຊ້ສໍາລັບການຝຶກອົບຮົມ (ເຊັ່ນດຽວກັນກັບ "self-play"), ຄໍາຮ້ອງສະຫມັກນີ້ອະນຸຍາດການປັບປຸງຕົວເອງ.
Objective Regression (ພວກເຮົາມີການເລືອກ cross-entropy binary) ສະເຫນີ "function reward internal" ຂອງຄໍາຮ້ອງສະຫມັກກັບລະດັບຄວາມຍາວທີ່ຄາດວ່າຈະເປັນຕົວແທນກັບຕົນເອງ (ເຊັ່ນດຽວກັນກັບ Line 3 ຂອງ Algorithm 1). ໂດຍ sampling outputs ຈາກຄໍາຮ້ອງສະຫມັກปัจจุบันເພື່ອນໍາໃຊ້ສໍາລັບການຝຶກອົບຮົມ (ເຊັ່ນດຽວກັນກັບ "self-play"), ຄໍາຮ້ອງສະຫມັກນີ້ອຸປະກອນການປັບປຸງຕົນເອງ.
ລັກສະນະຂອງພວກເຮົາແມ່ນຢ່າງກວ້າງຂວາງຢ່າງກວ້າງຂວາງເພື່ອຮັບປະກັນຕົວຢ່າງ off-policy ໃນການຝຶກອົບຮົມ, ຫຼາຍກວ້າງຂວາງ, ຜູ້ຊ່ຽວຊານທີ່ມີຄວາມເຂັ້ມແຂງຫຼາຍ (ເບິ່ງການເລືອກຂອງ μ1 ແລະ μ2 ໃນ Algorithm 1).
ລັກສະນະຂອງພວກເຮົາແມ່ນຢ່າງກວ້າງຂວາງຢ່າງກວ້າງຂວາງເພື່ອຮັບປະກັນຕົວຢ່າງ off-policy ໃນການຝຶກອົບຮົມ, ຫຼາຍກວ້າງຂວາງ, ຜູ້ຊ່ຽວຊານທີ່ມີຄວາມເຂັ້ມແຂງຫຼາຍ (ເບິ່ງການເລືອກຂອງ μ1 ແລະ μ2 ໃນ Algorithm 1).
ນອກເຫນືອໄປຈາກນັ້ນ, ເພື່ອຮັບປະກັນຄວາມປອດໄພແລະປະສິດທິພາບການຄອມພິວເຕີ, ພວກເຮົາມີຄໍາແນະນໍາລະບົບການກັ່ນຕອງເຊັ່ນດຽວກັນທີ່ regression reward ໄດ້ຖືກນໍາໃຊ້ພຽງແຕ່ກ່ຽວກັບຊຸດທີ່ດີເລີດທີ່ມີ margin ຂະຫນາດໃຫຍ່ (ສໍາລັບການລັກສະນະດ້ານວິຊາການ, ກະລຸນາເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ກະລຸນາເບິ່ງ Section 5.2).
ເພີ່ມເຕີມ, ເພື່ອຮັບປະກັນຄວາມປອດໄພແລະປະສິດທິພາບການຄອມພິວເຕີ, ພວກເຮົາສະເຫນີລະບົບການກັ່ນຕອງທີ່ການຍົກເລືອດເງິນໄດ້ຖືກນໍາໃຊ້ພຽງແຕ່ໃນບັນຊີລາຍລະອຽດທີ່ມີປະສິດທິພາບຂະຫນາດໃຫຍ່ (ສໍາລັບການລັກສະນະດ້ານວິຊາການ, ກະລຸນາເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ກະລຸນາເບິ່ງ Section 5.2).
DNO repetes this procedure for multiple iterations to allow the policy to optimize towards the general preference. ເນື່ອງຈາກວ່າແຕ່ລະເລື່ອງປະກອບມີບັນຫາການຍົກເວັ້ນມັນສາມາດຖືກນໍາໃຊ້ຢ່າງງ່າຍດາຍໃນຂະຫນາດໃຫຍ່.
DNO repetes this procedure for multiple iterations to allow the policy to optimize towards the general preference. ເນື່ອງຈາກວ່າແຕ່ລະເລື່ອງປະກອບມີບັນຫາການຍົກເວັ້ນ, ມັນສາມາດຖືກນໍາໃຊ້ຢ່າງງ່າຍດາຍໃນຂະຫນາດໃຫຍ່.
ໃນຕອນທ້າຍ, ພວກເຮົາສະຫນອງການນໍາໃຊ້ DNO (Algorithm 2): algorithm self-improvement ອັດຕະໂນມັດທີ່ມີການປັບປຸງ contrastive, ເຊິ່ງປະມານ Algorithm 1 under several critical design choices. ການເລືອກທີ່ກ່ຽວຂ້ອງກັບ: sampling multiple online outputs from the policy being trained, using GPT-4 as the preference oracle, comparing onpolicy samples to GPT-4’s own (teacher) outputs, and training only on pairs with “large margin” (ສໍາລັບການສອບເສັງ, ເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ເບິ່ງ Section 5.2).
ທີ່ສໍາຄັນທີ່ສຸດ, DNO ແມ່ນເຮັດວຽກໃນຕອນທ້າຍ - ພວກເຮົາສະຫນອງການຄາດຄະເນດິນດີຕ້ອນຮັບການຄາດຄະເນດິນດີຕ້ອນຮັບ, ປະສິດທິພາບທີ່ດີທີ່ສຸດ:
• ໂລຫະປະສົມ 7B Orca-2.5, ທີ່ໄດ້ຮັບການປັບປຸງໂດຍໃຊ້ການນໍາໃຊ້ການນໍາໃຊ້ DNO (Algorithm 2) ທີ່ມີປະສິດທິພາບສູງ, ໄດ້ຮັບປະສິດທິພາບທີ່ດີທີ່ສຸດຂອງຮູບແບບ 7B ທີ່ມີປະສິດທິພາບສູງກວ່າ 33% ໃນຂະນະທີ່ GPT-4-Turbo ຢູ່ໃນ AlpacaEval 2.0, ຫຼັງຈາກການຄວບຄຸມຄວາມຍາວ. ມັນເປັນຄວາມຍາວຫຼາຍກ່ວາ 26% (7%→33%) compared to the initialized model. ມັນມີປະສິດທິພາບຫຼາຍກ່ວາຮູບແບບປະສິດທິພາບສູງສຸດທີ່ຜ່ານມາ, ລວມທັງ Mistral Large ແລະ GPT-4-0613, ເຊັ່ນດຽວກັນກັບຮູບແບບ open-source ມີປະສິດທິພາບຫຼາຍກ່ວາ 10×, ເຊັ່ນ Self-Rewarding LM (Yuan et al
• ການຄົ້ນຄວ້າ ablation ຂອງພວກເຮົາຢ່າງກວ້າງຂວາງໃນ Section 5.2 ການຄົ້ນຄວ້າບັນຫາການອອກແບບທີ່ສໍາຄັນທີ່ກ່ຽວຂ້ອງກັບການຄັດເລືອກຂອງການດໍາເນີນການຫຼຸດຜ່ອນ ( finetuning supervised ຫຼື contrastive), paradigm ການຝຶກອົບຮົມ (ມີຫຼືບໍ່ມີຕົວຢ່າງ on-policy), ຄຸນນະພາບ annotator ຄວາມຕ້ອງການ (margin ຂະຫນາດໃຫຍ່ຫຼືບໍ່ມີ), ແລະການຝຶກອົບຮົມການກໍ່ສ້າງຊຸດ (self-play, teacher-versus-student, ແລະອື່ນໆ).
• ພວກເຮົາສະແດງໃຫ້ເຫັນປະເພດຂອງ outputs ໃນໄລຍະ iterations ທີ່ສະແດງໃຫ້ເຫັນການປັບປຸງຄຸນນະພາບເຊັ່ນດຽວກັນກັບການປິ່ນປົວທີ່ດີກວ່າຂອງບັນຫາທີ່ແຕກຕ່າງກັນແລະບັນຫາທີ່ຄາດຄະເນ (Table 5), ການຄຸ້ມຄອງທີ່ດີກວ່າແລະຄວາມສົນໃຈໃນຂະນະທີ່ບໍ່ໄດ້ຮັບການສະແດງໃຫ້ເຫັນທີ່ຄາດຄະເນ (Table 6), ແລະຄວາມກ້ວາງຂໍ້ມູນສູງສຸດໃນຄໍາສັ່ງ (Table 7).
We hope that the results presented here will provide clarity to the community regarding the use of AI feedback for post-training LLMs.
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxivລະຫັດ QR[1] ພວກເຮົາມີການນໍາໃຊ້ "model reward" ເພື່ອສະແດງໃຫ້ເຫັນຮູບເງົາທີ່ທັນສະໄຫມການຄຸ້ມຄອງການຄຸ້ມຄອງການຄຸ້ມຄອງການຄຸ້ມຄອງ, ເຊັ່ນ Bradley-Terry, ໃນຂະນະທີ່ "function reward" ແມ່ນຮູບເງົາ (ທີ່ສາມາດໄດ້ຮັບການຊອກຫາ) ທີ່ຜະລິດຕະພັນ scalars reward.