127 ریڈنگز

اپنے آپ کے ساتھ جھگڑا کرنے کا فن - اور کیوں یہ AI کو ذہین بناتا ہے

کی طرف سے Language Models (dot tech)8m2025/04/15
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

اس دستاویز میں Direct Nash Optimization (DNO) پیش کرتا ہے، ترجیحات پر مبنی سیکھنے کا استعمال کرتے ہوئے post-training LLMs کے لئے ایک مستحکم، وسیع پیمانے پر طریقہ کار. DNO روایتی RLHF طریقہ کاروں کو اجتناب کرتے ہوئے اجر کی زیادہ سے زیادہ اور براہ راست عام ترجیحات کے ساتھ ماڈلنگ سے بڑھاتا ہے. Orca-2.5 کے ساتھ اس کی تنصیب اعلی درجے کے نتائج فراہم کرتا ہے-GPT-4 کی طرح بھی بڑے ماڈل سے بڑھاتا ہے.
featured image - اپنے آپ کے ساتھ جھگڑا کرنے کا فن - اور کیوں یہ AI کو ذہین بناتا ہے
Language Models (dot tech) HackerNoon profile picture
0-item
کے

مصنفین :

کے

(1) Corby Rosset، مائیکروسافٹ تحقیق اور Correspondence [email protected] پر؛

کے

(2) Ching-An Cheng، مائیکروسافٹ تحقیق؛

کے

(3) Arindam Mitra، مائیکروسافٹ ریسرچ

کے

(4) مائیکل Santacroce، مائیکروسافٹ ریسرچ؛

کے

(5) Ahmed Awadallah، Microsoft Research and Correspondence to [email protected]؛

کے

(6) Tengyang Xie، مائیکروسافٹ ریسرچ اور [email protected] پر خطوط.

کے

Authors:

(1) Corby Rosset، مائیکروسافٹ تحقیق اور Correspondence [email protected] پر؛

(2) Ching-An Cheng، مائیکروسافٹ تحقیق؛

(3) Arindam Mitra، مائیکروسافٹ ریسرچ

(4) مائیکل Santacroce، مائیکروسافٹ ریسرچ؛

(5) Ahmed Awadallah، Microsoft Research and Correspondence to [email protected]؛

(6) Tengyang Xie، مائیکروسافٹ ریسرچ اور [email protected] پر خطوط.

خلاصہ اور 1 داخلہ

2 ابتدائی

2.1 RLHF انعام کے ماڈل پر مبنی

2.2 RLHF کے ساتھ عام ترجیحات

Direct Nash Optimization and 3.1 Derivation of Algorithm کے مترادفات

3.2 نظریاتی تجزیہ

4 عملی الگورتھم - iterative contrastive self-improvement

5 تجربات اور 5.1 تجرباتی ترتیبات

5.2 نتائج اور تجزیہ

6 متعلقہ کام

7 نقطہ نظر اور حوالہ جات


Appendix

قانونی ترجیحات کے لئے ایک توسیع

B. تفصیلی اثرات

C اضافی تجرباتی تفصیلات

abstract کے

یہ طویل عرصے سے استعمال کیا جا رہا ہے کے بارے میں جاننے کے لئے کے طور پر، یہ کاروباری تحقیق کے لئے استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر استعمال کیا جاتا ہے. یہ کاروباری تحقیق کے طور پر

1 داخلہ

انسانی اقدار اور ترجیحات کے ساتھ مطابقت کرتے ہوئے، انسانی اقدار اور ترجیحات کے ساتھ طے شدہ مواد پیدا کرنے کے لئے پیچیدہ ہدایات کو سمجھنے، سمجھنے، پیروی کرنے اور تخلیق کرنے کے لئے اعلی درجے کی ماڈل کی طرف رجوع کر رہا ہے. بڑے زبان ماڈل (LLMs) (مثال کے طور پر، Brown et al. 2020؛ Ouyang et al. 2022؛ Touvron et al. 2023؛ OpenAI et al. 2023) انسان کی طرح متن پیدا کرنے، سوالات کا جواب دینے اور کوڈنگ میں حیرت انگیز صلاحیتوں کو ظاہر کیا ہے، لیکن وہ اب بھی اعلی درجے کی قابل اعتماد، سیکورٹی، اور اخلاقی مطابقت کی ضرورت ہے کاموں میں چیلنجوں کا سامنا کرنے کے لئے. ان چیلنجوں کو حل کرنے کے لئے، اچھی طرح سے ایڈج


RLHF کے ایک ہی فریم ورک کو طویل عرصے سے ترجیحات پر مبنی مضبوطی سیکھنے (RL) یا انسانی ترجیحات (مثال کے طور پر، Knox and Stone، 2008؛ Akrour et al., 2012؛ Griffith et al., 2013; Wirth et al., 2017؛ Christiano et al., 2017) کے سلسلے میں مطالعہ کیا گیا ہے. RLHF کے لئے روایتی طریقے عام طور پر یہ فرض کرتے ہیں کہ ترجیحات انسانی ترجیحات (مثال کے طور پر، Knox and Stone، 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017). RLHF پھر ایک دو مرحلے کے عمل میں ترجیحات کی طرف سے بہتر بناتا ہے: پاداش سیکھنے، پالیسی کو بہتر بنانے (RL کے ذریعے)


Figure 1: Direct Nash Optimization achieves state-of-the-art results for a 7B parameter large language model, being the first to surpass 30% in both raw win-rate and length-controlled (LC) win-rate against GPT-4-Turbo. Win Rate and LC Win Rate have 0.93 to 0.98 correlation with ChatBot Arena scores.


انعام کی زیادہ سے زیادہ کرنے کی فریمنگ ایک اہم محدودیت ہے. انعام کے افعال، انعام کی زیادہ سے زیادہ کرنے کے لئے ایک واحد جواب y کے لئے ایک سکالری پوائنٹ r(x، y) پیدا کرنے کے لئے مقرر کیا جاتا ہے، انعام کے تمام صورتوں میں ایک جوڑے کے outputs کے درمیان عام ترجیحات کو ظاہر نہیں کر سکتے ہیں، مثال کے طور پر، غیر متبادل یا سائیکل ترجیحات (Elo، 1978). اس وجہ سے، انعام کے زیادہ سے زیادہ کرنے کے تحت تربیت یافتہ LLMs ہمیشہ انسانی ترجیحات کے ساتھ مطابقت نہیں کرسکتے ہیں. اس کے علاوہ، حالیہ کاموں سے پتہ چلتا ہے کہ یہاں تک کہ ترتیبات میں جہاں ترجیحات انعام پر مبنی BT ماڈل کے تحت مکمل طور پر بیان کیا جا سکتا ہے، انعام کی طرف سے آپریٹنگ کو بہتر بنانے



ہم دو منفرد چیلنجوں کو حل کرنے کے لئے حوصلہ افزائی رکھتے ہیں: انعام پر مبنی RLHF کی محدود بیانات، اور عام ترجیحات کے مقابلے میں بہتر بنانے کے لئے کس طرح کی روشنی کی کمی. تازہ ترین ترقیوں میں انعام پر مبنی بہتر بنانے، مثال کے طور پر، DPO، پہلے سے ہی مؤثر اور وسیع پیمانے پر انضمام کر رہے ہیں - ہم عام ترجیحات کے تحت ایک اسی طرح کے مؤثر حل کی تلاش کر رہے ہیں.


ہم ایک ثابت اور مقناطیسی RLHF الگورتھم پیش کرتے ہیں -Nash Optimization کے مترادفات(DNO) (Algorithm 1) جو دونوں دنیاوں میں سب سے بہتر حاصل کرتا ہے، متضاد مقاصد کی پیمائش کی صلاحیت کو عام ترجیحات کو بہتر بنانے کی نظریاتی صحت کے ساتھ منسلک کرتا ہے. DNO ایک رجسٹریشن پر مبنی سیکھنے کے مقاصد کے ساتھ ایک پلیٹنگ پر الگ الگ الگورتھم کے طور پر ڈیزائن کیا گیا ہے؛ یہ ڈیزائن کا انتخاب DNO کو مستحکم اور وسیع پیمانے پر بناتا ہے، تنصیب کی کارکردگی اور متوازنگی کے درمیان ایک توازن حاصل کرتا ہے.

Nash Optimization کے مترادفات


ہم نیچے DNO کے اہم اجزاء اور نقطہ نظر کو ایک اعلی سطح پر خلاصہ دیتے ہیں.


    کے
  1. اس مسئلے کو حل کرنے کے لئے کہ اجر کے افعال عام ترجیحات کا اظہار نہیں کرسکتے ہیں، ہم حالیہ نقطہ نظر کا استعمال کرتے ہیں کہ اجر کے تصور کو ایک عام ترجیحات کے افعال کے مقابلے میں توقع کردہ جیت کی شرح کے طور پر بیان کیا جانا چاہئے.[2]
  2. کے
  3. پچھلے کاموں میں پایا گیا مسئلہ کو حل کرنے کے لئے کہ آن لائن الگورتھمز کے ساتھ اس زیادہ عام مقصد کو بہتر بنانا نمونہ غیر مؤثر یا غیر مستحکم ہے، ہم سیکھنے کے عمل کو "پولیٹی پر بیچنے والے" تکراروں کی ایک سلسلہ میں تقسیم کرتے ہیں، جہاں ہر قدم اس کے بجائے ایک سادہ رجسٹریشن مقصد کو بہتر بناتا ہے.
  4. کے
  5. رجسٹریشن کے مقاصد (ہم بائنری cross-entropy منتخب کرتے ہیں) پالیسی کے "انٹرویو فیکٹری" کو خود کے مقابلے میں توقع کردہ جیت کی شرح کے ساتھ مطابقت کرتا ہے (جیسا کہ الگرافٹ 1 کے لائن 3 میں بیان کیا گیا ہے).
  6. کے
  7. ہمارا فریم ورک کافی عام ہے کہ تربیت میں غیر پالیسی نمونے کو قبول کرسکتا ہے، اہم طور پر، ایک زیادہ طاقتور استاد کی طرف سے (ایک الگورتھم میں μ1 اور μ2 کا انتخاب دیکھیں).
  8. کے
  9. اس کے علاوہ، مستحکم اور کمپیوٹنگ کی کارکردگی کو یقینی بنانے کے لئے، ہم ایک فلٹرنگ سسٹم پیش کرتے ہیں تاکہ انعام رجسٹریشن صرف کافی بڑے مارجن کے ساتھ ترجیحات جوڑوں پر کیا جاتا ہے (ایک نظریاتی وضاحت کے لئے، سیکشن 4 دیکھیں؛ عملی طور پر، سیکشن 5.2 دیکھیں).
  10. کے
  11. DNO اس عمل کو کئی دوبارہ کرنے کے لئے دوبارہ کرتا ہے تاکہ پالیسی عام ترجیحات کی طرف سے بہتر بنائے۔ کیونکہ ہر مرحلے میں رجسٹریشن کا مسئلہ ہوتا ہے، یہ آسانی سے مقیاس میں لاگو کیا جا سکتا ہے.
  12. کے


نظریاتی طور پر، ہم اس بات کا ثبوت دیتے ہیں کہ DNO اوسط طور پر منصوبہ بندی شدہ نیش توازن کے ساتھ ملتا ہے، اور یہ دوبارہ دوبارہ شروع کرنے کے دوران ایکٹونک طور پر بہتر ہوسکتا ہے (مثال کے طور پر سیکشن 3.1)۔ اس کے علاوہ، ہمارے محدود نمونے کا تجزیہ یہ دکھاتا ہے کہ سیکھنے والی پالیسی اور مقصد کے درمیان کسی بھی دوبارہ شروع ہونے کے دوران توازن کی غلطی کو سختی سے محدود کیا جاتا ہے (سیٹرم 1).


عملی طور پر، ہم DNO (Algorithm 2) کا ایک وسیع پیمانے پر ایپلی کیشن فراہم کرتے ہیں: ایک متضاد اپ ڈیٹ کے ساتھ ایک متضاد خود کو بہتر بنانے والا الگورتھم، جس میں کئی اہم ڈیزائن کے اختیارات کے تحت الگورتھم 1 کا تعین کیا جاتا ہے. ان اختیارات میں شامل ہیں: تربیت یافتہ پالیسی سے متعدد آن لائن پیداواروں کی نمائش، GPT-4 کو ترجیحات کے طور پر استعمال کرتے ہوئے، پالیسی پر نمونے کو GPT-4 کے اپنے (دوسری) پیداواروں کے ساتھ موازنہ، اور صرف "گلی مارجن" کے جوڑوں پر تربیت (ایک نظریاتی وضاحت کے لئے، سیکشن 4 دیکھیں؛ عملی طور پر، سیکشن 5.2 دیکھیں).


Nash-MD (Munos et al., 2023) اور SPO (Swamy et al., 2024) کے متعلق متعلقہ کاموں کے بارے میں ہمارے کام کا بنیادی فرق یہ ہے کہ وہ دونوں نمونے کی کارکردگی کے مسائل (دو وقت کی پیمائش اپ ڈیٹ یا نمونہ غیر مؤثر RL اقدامات) دکھاتے ہیں، اور دونوں صرف پالیسی پر نمونے کا استعمال کرتے ہیں. ہم ایک نمونہ مؤثر مقصد کے ساتھ کارکردگی کا مسئلہ حل کرتے ہیں جو عملی طور پر کام کرتا ہے، اور DNO ایک طاقتور استاد سے غیر پالیسی نمونے کو شامل کرنے کے لئے زیادہ انعطاف پذیر ہے.


سب سے اہم بات یہ ہے کہ DNO عملی طور پر کام کرتا ہے - ہم جامع تجرباتی تجزیات فراہم کرتے ہیں، جس کے نتیجے میں اعلی درجے کی کارکردگی:


• پیدا ہونے والے 7B پیرامیٹر Orca-2.5 ماڈل، DNO (الگرامی 2) کے عملی نافذ کا استعمال کرتے ہوئے منسلک، کسی بھی 7B ماڈل کی جدید ترین جیت کی شرح حاصل کرتا ہے، AlpacaEval 2.0 پر GPT-4-Turbo کے مقابلے میں 33٪ سے زیادہ، طویل کے لئے کنٹرول کرنے کے بعد بھی. یہ ابتدائی ماڈل کے مقابلے میں 26٪ سے زائد بالکل فائدہ (7٪→33%) ہے. یہ کئی حالیہ اعلی درجے کے بند سٹور ماڈلوں سے بہتر ہے، جن میں Mistral Large اور GPT-4-0613 شامل ہیں، اور بہت زیادہ (10×) پیرامیٹرز کے ساتھ کھلے سٹور ماڈل، جیسے Self-Rewarding LM (Yuan et al., 2024) جس میں 70B پیرامیٹرز ہیں


• سیکشن 5.2 میں ہمارے تفصیلی ablation مطالعہ کے اختیارات کے اختیارات کے بارے میں اہم ڈیزائن ٹکٹ پوائنٹس کا جائزہ لیں (تفتیش شدہ finetuning یا کنٹراسیو), تربیت کے پیرامیڈم (ان پالیسی پر نمونے کے ساتھ یا بغیر), ترجیحات annotator معیار (گلی مارجن یا نہیں) اور تربیت جوڑے کی تعمیر (آپ کے ساتھ کھیلنے، استاد کے مقابلے میں طالب علم، وغیرہ).


• ہم چند مثالیں دکھاتے ہیں کہ دوبارہ ہونے والی پیداواروں میں سے کچھ جو ذہنی بہتریاں دکھاتے ہیں جیسے ذہنی مسائل اور ممکنہ سوالات کو بہتر طریقے سے حل کرنے کے لئے (ٹیبل 5)، بہتر تنظیم اور واضحات کو ظاہر کرتے ہوئے غلط بیانات (ٹیبل 6)، اور جوابات میں زیادہ معلومات کی گہرائی (ٹیبل 7).


ہم امید کرتے ہیں کہ یہاں پیش کردہ نتائج کمیونٹی کو تربیت کے بعد LLMs کے لئے AI Feedback کا استعمال کے بارے میں واضحات فراہم کریں گے.


کے

یہ مضمون CC BY 4.0 DEED لائسنس کے تحت archiv پر دستیاب ہے.

کے

یہ مضمون CC BY 4.0 DEED لائسنس کے تحت archiv پر دستیاب ہے.


[1] ہم ایک فریم ورک کا اشارہ کرنے کے لئے "عطیہ ماڈل" کا استعمال کرتے ہیں جو ترجیحات کو انعامات میں ترجمہ کرتا ہے، مثال کے طور پر، Bradley-Terry، جبکہ "عطیہ فریم ورک" ایک (ایک ممکنہ طور پر سیکھا) فریم ورک ہے جو انعامات سکالروں کو پیدا کرتا ہے.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks