ປະຫວັດສາດໃຫມ່

The Art of Argumenting With Yourself – ແລະວິທີທີ່ມັນເຮັດໃຫ້ AI smarter

ໂດຍ Language Models (dot tech)8m2025/04/15
Read on Terminal Reader

ຍາວເກີນໄປ; ອ່ານ

ການນໍາສະເຫນີການປັບປຸງ Direct Nash Optimization (DNO), ວິທີການທີ່ຍິ່ງໃຫຍ່ສໍາລັບການຝຶກອົບຮົມຫຼັງຈາກການຝຶກອົບຮົມ LLM ໂດຍໃຊ້ການຝຶກອົບຮົມທີ່ແຕກຕ່າງກັນ. DNO ປະສິດທິພາບຫຼາຍກ່ວາວິທີການ RLHF ວັດສະດຸໂດຍກວດສອບການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກເວັ້ນການຍົກເລີກ.
featured image - The Art of Argumenting With Yourself – ແລະວິທີທີ່ມັນເຮັດໃຫ້ AI smarter
Language Models (dot tech) HackerNoon profile picture
0-item

Authors:

(1) Corby Rosset, Microsoft Research and Correspondence to [email protected];

(2) Ching-An Cheng, Microsoft Research;

(3) Arindam Mitra, Microsoft Research;

(4) Michael Santacroce, Microsoft Research;

(5) Ahmed Awadallah, Microsoft Research and Correspondence to [email protected];

(6) Tengyang Xie, Microsoft Research and Correspondence to [email protected].

ຊື່ຫຍໍ້ຂອງ : Authors :ຊື່ຫຍໍ້ຂອງ :

(1) Corby Rosset, Microsoft ການຄົ້ນຄວ້າແລະການຕັດສິນໃຈກັບ [email protected];

(2) Ching-An Cheng, ການຄົ້ນຄວ້າ Microsoft;

(3) Arindam Mitra, ການຄົ້ນຄວ້າ Microsoft;

(4) Michael Santacroce, ການຄົ້ນຄວ້າ Microsoft;

(5) Ahmed Awadallah, Microsoft ການຄົ້ນຄວ້າແລະການຕັດສິນໃຈກັບ [email protected];

ຊື່ຫຍໍ້ຂອງ : Tengyang Xie, Microsoft Research and Correspondence to [email protected]

Table of Links

Abstract and 1 Introduction

Abstract and 1 Introduction

2 Preliminaries

2 Preliminaries

2.1 RLHF Based on Reward Models

2.1 RLHF Based on Reward Models

2.2 RLHF with General Preferences

2.2 RLHF with General Preferences

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1

3.2 Theoretical Analysis

3.2 Theoretical Analysis

4 Practical Algorithm – Iterative Contrastive Self-Improvement

4 Practical Algorithm – Iterative Contrastive Self-Improvement

5 Experiments and 5.1 Experimental Setup

5 Experiments and 5.1 Experimental Setup

5.2 Results and Analysis

5.2 Results and Analysis

6 Related Work

6 Related Work

7 Conclusion and References

7 Conclusion and References


ປັດຈຸບັນ

ຊື່ຫຍໍ້ຂອງ : Appendix

A Extension to Regularized Preferences

A Extension to Regularized Preferences

B Detailed Proofs

B Detailed Proofs

C Additional Experimental Details

C Additional Experimental Detailsຊື່ຫຍໍ້ຂອງ : H2 Abstractພວກເຮົາມີຄວາມຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພ.

1 ຄວາມຄິດເຫັນ

ຂະຫນາດໃຫຍ່ຂອງຄວາມຮູ້ສຶກອົບຮົມອຸດສາຫະກໍາແມ່ນການພັດທະນາໄປຫາມາດຕະຖານທີ່ທັນສະໄຫມທີ່ສາມາດຮູ້ສຶກ, ຄໍາຮ້ອງສະຫມັກ, ຫຼັງຈາກການຝຶກອົບຮົມທີ່ສົມບູນແບບ, ແລະສ້າງຄວາມຮູ້ສຶກອົບຮົມທີ່ມີຄຸນນະສົມບັດ, ໃນຂະນະທີ່ສອດຄ່ອງກັບຄຸນນະພາບແລະຄວາມຕ້ອງການຂອງມະນຸດ. ໂມເລກທີ (LLMs) (ລັກສະນະ, Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) ໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດທີ່ຍິ່ງໃຫຍ່ໃນການຜະລິດລະດັບມະນຸດຂອງມະນຸດ, ຄໍາຮ້ອງສະຫມັກ, ແລະ coding, ແຕ່ພວກເຂົາເຈົ້າຍັງມີປະສົບການໃນກິດຈະກໍາທີ່ຕ້ອງການລະດັບສູງຂອງຄວາມປອດໄພ,


The framework RLHF single has long been studied in the context of preference-based reinforcement learning (RL) or RL from human preferences (e.g., Knox and Stone, 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). ວິທີການປົກກະຕິສໍາລັບ RLHF ອະນຸຍາດຢ່າງວ້າງຂວາງວ່າຄວາມເປັນສ່ວນຕົວແມ່ນຖືກຄັດເລືອກໂດຍການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງການດໍາເນີນການຂອງ


Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.

Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.


The reward maximization framing poses a major limitation. Functions reward, defined to output a scalar score r(x, y) for a single response y to input x, cannot express general preferences y y ′ x between a pair of outputs in all cases, e.g., intransitive or cyclic preferences (Elo, 1978). ດັ່ງນັ້ນ, LLMs trained under reward maximization cannot always align with human preference. ນອກເຫນືອໄປຈາກນັ້ນ, ການເຮັດວຽກທັນສະໄຫມສະແດງໃຫ້ເຫັນວ່າເຖິງແມ່ນວ່າໃນສະຖານທີ່ທີ່ທີ່ຄວາມຕ້ອງການສາມາດໄດ້ຮັບການພິມຢ່າງງ່າຍດາຍພາຍໃຕ້ຮູບແບບ BT reward-based, optimizing towards rewards yields behaviors problematic; ພວກເຮົາມີຄວາມຮູ້ສຶກກັບ Bertrand et al. (2023); Az



ພວກເຮົາມີຄວາມພະຍາຍາມທີ່ຈະຕອບສະຫນັບສະຫນູນທັງສອງພະຍາຍາມທີ່ແຕກຕ່າງກັນ: ຄວາມສະດວກສະບາຍຂອງ RLHF ທີ່ແຕກຕ່າງກັນແລະຄວາມບໍ່ຈໍາເປັນກ່ຽວກັບວິທີການປັບປຸງການປັບປຸງທີ່ກ່ຽວຂ້ອງກັບຄວາມຕ້ອງການທົ່ວໄປ. ການປັບປຸງທີ່ຜ່ານມາໃນການປັບປຸງທີ່ແຕກຕ່າງກັນເຊັ່ນດຽວກັນ, DPO, ມີການນໍາໃຊ້ປະສິດທິພາບແລະການຂະຫຍາຍຕົວ - ພວກເຮົາມີຄວາມຕ້ອງການການປັບປຸງປະສິດທິພາບທີ່ແຕກຕ່າງກັນພາຍໃຕ້ຄວາມຕ້ອງການທົ່ວໄປ.


We propose a probable and scalable RLHF algorithm – Direct Nash Optimization (DNO) (Algorithm 1) which achieves the best of both worlds, combining the scalability of contrastive objectives with the theoretical soundness of general preference optimization. DNO is designed as a batched on-policy algorithm with a regression-based learning objective; this design choice makes DNO stable and scalable, striking a balance between deployment efficiency and adaptability.Direct Nash Optimizationດາວນ໌ໂຫລດ Direct Nash Optimization


ພວກເຮົາມີຄວາມຊ່ຽວຊານທີ່ສໍາຄັນແລະຄວາມຮູ້ສຶກຂອງ DNO ໃນລະດັບສູງ.


ພວກເຮົາ ກໍາ ລັງເຮົາມີຄວາມຊ່ຽວຊານໃນການປິ່ນປົວຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພແລະຄວາມປອດໄພຂອງພວກເຮົາມີຄວາມປອດໄພ
  • ເພື່ອປິ່ນປົວສິ່ງທີ່ຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບບໍ່ສາມາດສະແດງຄວາມຕ້ອງການທົ່ວໄປ, ພວກເຮົາມີຄວາມຮູ້ສຶກທີ່ຜ່ານມາທີ່ຮູ້ສຶກວ່າຄວາມຮູ້ສຶກຂອງການຍິນດີຕ້ອນຮັບຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບການຍິນດີຕ້ອນຮັບ.

    ເພື່ອປິ່ນປົວບັນຫາທີ່ຄຸນນະສົມບັດການຍິນດີຕ້ອນຮັບບໍ່ສາມາດສະແດງໃຫ້ເຫັນຄວາມຕ້ອງການທົ່ວໄປ, ພວກເຮົາມີຄວາມຮູ້ສຶກທີ່ຜ່ານມາທີ່ຮູ້ສຶກວ່າຄວາມຮູ້ສຶກຂອງການຍິນດີຕ້ອນຮັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບແມ່ນຄຸນສົມບັດການຍິນດີຕ້ອນຮັບທີ່ກ່ຽວຂ້ອງກັບຄຸນສົມບັດການຍິນດີຕ້ອນຮັບທົ່ວໄປ.[2]


  • ເພື່ອປິ່ນປົວບັນຫາທີ່ຊອກຫາໃນການເຮັດວຽກທີ່ຜ່ານມາວ່າການປັບປຸງຈຸດປະສົງທີ່ທົ່ວໄປນີ້ໂດຍໃຊ້ algoritms ອອນໄລນ໌ແມ່ນ sample-inefficient ຫຼືບໍ່ເຄື່ອນໄຫວ, ພວກເຮົາມີການປິ່ນປົວການຝຶກອົບຮົມຂອງການຝຶກອົບຮົມໃນຊຸດຂອງ " batched on-policy" ການທົດສອບ, ໃນຂະນະທີ່ແຕ່ລະເລື່ອງໃນຂະນະທີ່ການປັບປຸງຈຸດປະສົງ regression simple.


  • ເພື່ອປິ່ນປົວບັນຫາທີ່ຊອກຫາໃນການເຮັດວຽກທີ່ຜ່ານມາວ່າການປັບປຸງຈຸດປະສົງທີ່ທົ່ວໄປຫຼາຍທີ່ມີ algoritms ອິນເຕີເນັດແມ່ນ sample-inefficient ຫຼືບໍ່ເຄື່ອນໄຫວ, ພວກເຮົາມີການປິ່ນປົວການຝຶກອົບຮົມຂອງການຝຶກອົບຮົມໃນຊຸດຂອງ " batched on-policy" iterations, ໃນຂະນະທີ່ແຕ່ລະເລື່ອງໃນຂະນະທີ່ການປັບປຸງຈຸດປະສົງ regression ວັດສະດວກ.


  • Objective ການຍົກເລີກ (ພວກເຮົາມີການເລືອກ cross-entropy binary) ສະເຫນີ "function reward internal" ຂອງຄໍາຮ້ອງສະຫມັກກັບການຍົກເລີກທີ່ຄາດຄະເນດຽວກັນກັບຕົນເອງ (ເຊັ່ນດຽວກັນກັບ Line 3 ຂອງຄໍາຮ້ອງສະຫມັກ 1). ໂດຍ sampling outputs ຈາກຄໍາຮ້ອງສະຫມັກໃນປັດຈຸບັນເພື່ອນໍາໃຊ້ສໍາລັບການຝຶກອົບຮົມ (ເຊັ່ນດຽວກັນກັບ "self-play"), ຄໍາຮ້ອງສະຫມັກນີ້ອະນຸຍາດການປັບປຸງຕົວເອງ.


  • Objective Regression (ພວກເຮົາມີການເລືອກ cross-entropy binary) ສະເຫນີ "function reward internal" ຂອງຄໍາຮ້ອງສະຫມັກກັບລະດັບຄວາມຍາວທີ່ຄາດວ່າຈະເປັນຕົວແທນກັບຕົນເອງ (ເຊັ່ນດຽວກັນກັບ Line 3 ຂອງ Algorithm 1). ໂດຍ sampling outputs ຈາກຄໍາຮ້ອງສະຫມັກปัจจุบันເພື່ອນໍາໃຊ້ສໍາລັບການຝຶກອົບຮົມ (ເຊັ່ນດຽວກັນກັບ "self-play"), ຄໍາຮ້ອງສະຫມັກນີ້ອຸປະກອນການປັບປຸງຕົນເອງ.


  • ລັກສະນະຂອງພວກເຮົາແມ່ນຢ່າງກວ້າງຂວາງຢ່າງກວ້າງຂວາງເພື່ອຮັບປະກັນຕົວຢ່າງ off-policy ໃນການຝຶກອົບຮົມ, ຫຼາຍກວ້າງຂວາງ, ຜູ້ຊ່ຽວຊານທີ່ມີຄວາມເຂັ້ມແຂງຫຼາຍ (ເບິ່ງການເລືອກຂອງ μ1 ແລະ μ2 ໃນ Algorithm 1).


  • ລັກສະນະຂອງພວກເຮົາແມ່ນຢ່າງກວ້າງຂວາງຢ່າງກວ້າງຂວາງເພື່ອຮັບປະກັນຕົວຢ່າງ off-policy ໃນການຝຶກອົບຮົມ, ຫຼາຍກວ້າງຂວາງ, ຜູ້ຊ່ຽວຊານທີ່ມີຄວາມເຂັ້ມແຂງຫຼາຍ (ເບິ່ງການເລືອກຂອງ μ1 ແລະ μ2 ໃນ Algorithm 1).


  • ນອກເຫນືອໄປຈາກນັ້ນ, ເພື່ອຮັບປະກັນຄວາມປອດໄພແລະປະສິດທິພາບການຄອມພິວເຕີ, ພວກເຮົາມີຄໍາແນະນໍາລະບົບການກັ່ນຕອງເຊັ່ນດຽວກັນທີ່ regression reward ໄດ້ຖືກນໍາໃຊ້ພຽງແຕ່ກ່ຽວກັບຊຸດທີ່ດີເລີດທີ່ມີ margin ຂະຫນາດໃຫຍ່ (ສໍາລັບການລັກສະນະດ້ານວິຊາການ, ກະລຸນາເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ກະລຸນາເບິ່ງ Section 5.2).


  • ເພີ່ມເຕີມ, ເພື່ອຮັບປະກັນຄວາມປອດໄພແລະປະສິດທິພາບການຄອມພິວເຕີ, ພວກເຮົາສະເຫນີລະບົບການກັ່ນຕອງທີ່ການຍົກເລືອດເງິນໄດ້ຖືກນໍາໃຊ້ພຽງແຕ່ໃນບັນຊີລາຍລະອຽດທີ່ມີປະສິດທິພາບຂະຫນາດໃຫຍ່ (ສໍາລັບການລັກສະນະດ້ານວິຊາການ, ກະລຸນາເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ກະລຸນາເບິ່ງ Section 5.2).


  • DNO repetes this procedure for multiple iterations to allow the policy to optimize towards the general preference. ເນື່ອງຈາກວ່າແຕ່ລະເລື່ອງປະກອບມີບັນຫາການຍົກເວັ້ນມັນສາມາດຖືກນໍາໃຊ້ຢ່າງງ່າຍດາຍໃນຂະຫນາດໃຫຍ່.

  • DNO repetes this procedure for multiple iterations to allow the policy to optimize towards the general preference. ເນື່ອງຈາກວ່າແຕ່ລະເລື່ອງປະກອບມີບັນຫາການຍົກເວັ້ນ, ມັນສາມາດຖືກນໍາໃຊ້ຢ່າງງ່າຍດາຍໃນຂະຫນາດໃຫຍ່.


    Theoretically, we prove DNO converges to the intended Nash equilibrium on average, and that it can improve monotonously across iterations (cf. Section 3.1). ນອກເຫນືອໄປຈາກນັ້ນ, our finite-sample analysis shows that approximation error at any iteration between the learned policy and the target is tightly bounded (Theorem 1).



    ໃນຕອນທ້າຍ, ພວກເຮົາສະຫນອງການນໍາໃຊ້ DNO (Algorithm 2): algorithm self-improvement ອັດຕະໂນມັດທີ່ມີການປັບປຸງ contrastive, ເຊິ່ງປະມານ Algorithm 1 under several critical design choices. ການເລືອກທີ່ກ່ຽວຂ້ອງກັບ: sampling multiple online outputs from the policy being trained, using GPT-4 as the preference oracle, comparing onpolicy samples to GPT-4’s own (teacher) outputs, and training only on pairs with “large margin” (ສໍາລັບການສອບເສັງ, ເບິ່ງ Section 4; ໃນຕອນທ້າຍ, ເບິ່ງ Section 5.2).


    The primary distinction of our work over related works of Nash-MD (Munos et al., 2023) and SPO (Swamy et al., 2024) is that they both exhibit sample efficiency issues (two timescale updates or sample-inefficient RL steps), and both use purely on-policy samples.We solve the efficiency issue with a sample-efficient objective that works in practice, and DNO is more flexible to incorporate off-policy samples from e.g., a powerful teacher.


    ທີ່ສໍາຄັນທີ່ສຸດ, DNO ແມ່ນເຮັດວຽກໃນຕອນທ້າຍ - ພວກເຮົາສະຫນອງການຄາດຄະເນດິນດີຕ້ອນຮັບການຄາດຄະເນດິນດີຕ້ອນຮັບ, ປະສິດທິພາບທີ່ດີທີ່ສຸດ:


    • ໂລຫະປະສົມ 7B Orca-2.5, ທີ່ໄດ້ຮັບການປັບປຸງໂດຍໃຊ້ການນໍາໃຊ້ການນໍາໃຊ້ DNO (Algorithm 2) ທີ່ມີປະສິດທິພາບສູງ, ໄດ້ຮັບປະສິດທິພາບທີ່ດີທີ່ສຸດຂອງຮູບແບບ 7B ທີ່ມີປະສິດທິພາບສູງກວ່າ 33% ໃນຂະນະທີ່ GPT-4-Turbo ຢູ່ໃນ AlpacaEval 2.0, ຫຼັງຈາກການຄວບຄຸມຄວາມຍາວ. ມັນເປັນຄວາມຍາວຫຼາຍກ່ວາ 26% (7%→33%) compared to the initialized model. ມັນມີປະສິດທິພາບຫຼາຍກ່ວາຮູບແບບປະສິດທິພາບສູງສຸດທີ່ຜ່ານມາ, ລວມທັງ Mistral Large ແລະ GPT-4-0613, ເຊັ່ນດຽວກັນກັບຮູບແບບ open-source ມີປະສິດທິພາບຫຼາຍກ່ວາ 10×, ເຊັ່ນ Self-Rewarding LM (Yuan et al


    • ການຄົ້ນຄວ້າ ablation ຂອງພວກເຮົາຢ່າງກວ້າງຂວາງໃນ Section 5.2 ການຄົ້ນຄວ້າບັນຫາການອອກແບບທີ່ສໍາຄັນທີ່ກ່ຽວຂ້ອງກັບການຄັດເລືອກຂອງການດໍາເນີນການຫຼຸດຜ່ອນ ( finetuning supervised ຫຼື contrastive), paradigm ການຝຶກອົບຮົມ (ມີຫຼືບໍ່ມີຕົວຢ່າງ on-policy), ຄຸນນະພາບ annotator ຄວາມຕ້ອງການ (margin ຂະຫນາດໃຫຍ່ຫຼືບໍ່ມີ), ແລະການຝຶກອົບຮົມການກໍ່ສ້າງຊຸດ (self-play, teacher-versus-student, ແລະອື່ນໆ).


    • ພວກເຮົາສະແດງໃຫ້ເຫັນປະເພດຂອງ outputs ໃນໄລຍະ iterations ທີ່ສະແດງໃຫ້ເຫັນການປັບປຸງຄຸນນະພາບເຊັ່ນດຽວກັນກັບການປິ່ນປົວທີ່ດີກວ່າຂອງບັນຫາທີ່ແຕກຕ່າງກັນແລະບັນຫາທີ່ຄາດຄະເນ (Table 5), ການຄຸ້ມຄອງທີ່ດີກວ່າແລະຄວາມສົນໃຈໃນຂະນະທີ່ບໍ່ໄດ້ຮັບການສະແດງໃຫ້ເຫັນທີ່ຄາດຄະເນ (Table 6), ແລະຄວາມກ້ວາງຂໍ້ມູນສູງສຸດໃນຄໍາສັ່ງ (Table 7).


    We hope that the results presented here will provide clarity to the community regarding the use of AI feedback for post-training LLMs.


    This paper is available on arxiv under CC BY 4.0 DEED license.

    This paper is available on arxiv under CC BY 4.0 DEED license.

    available on arxivລະຫັດ QR

    [1] ພວກເຮົາມີການນໍາໃຊ້ "model reward" ເພື່ອສະແດງໃຫ້ເຫັນຮູບເງົາທີ່ທັນສະໄຫມການຄຸ້ມຄອງການຄຸ້ມຄອງການຄຸ້ມຄອງການຄຸ້ມຄອງ, ເຊັ່ນ Bradley-Terry, ໃນຂະນະທີ່ "function reward" ແມ່ນຮູບເງົາ (ທີ່ສາມາດໄດ້ຮັບການຊອກຫາ) ທີ່ຜະລິດຕະພັນ scalars reward.


    L O A D I N G
    . . . comments & more!

    About Author

    Language Models (dot tech) HackerNoon profile picture
    Language Models (dot tech)@languagemodels
    Large Language Models (LLMs) ushered in a technological revolution. We breakdown how the most important models work.

    ວາງປ້າຍ

    ບົດ​ຄວາມ​ນີ້​ໄດ້​ຖືກ​ນໍາ​ສະ​ເຫນີ​ໃນ...

    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks