آپ:
(1) Corby Rosset، Microsoft Research and Correspondence to [email protected];
(2) Ching-An Cheng، Microsoft Research;
(3) Arindam Mitra، Microsoft Research;
(4) Michael Santacroce، Microsoft Research;
(5) Ahmed Awadallah، Microsoft Research and Correspondence to [email protected];
(6) Tengyang Xie، Microsoft Research and Correspondence to [email protected].
ڈاکٹرز:
ڈائریکٹرز:(1) Corby Rosset، مائیکروسافٹ تحقیق اور Correspondence to [email protected]؛
(2) Ching-An Cheng، مائیکروسافٹ تحقیق؛
(3) Arindam Mitra، مائیکروسافٹ تحقیق؛
(4) Michael Santacroce، مائیکروسافٹ ریسرچ؛
(5) Ahmed Awadallah، Microsoft Research and Correspondence to [email protected]؛
(6) Tengyang Xie، مائیکروسافٹ ریسرچ اور [email protected] کی مرضی کے مطابق.
Table of Links
کے مترادفاتAbstract and 1 Introduction2 Preliminaries2.1 RLHF Based on Reward Models
2.1 RLHF Based on Reward Models2.2 RLHF with General Preferences
2.2 RLHF with General Preferences3 Direct Nash Optimization and 3.1 Derivation of Algorithm 1
3 Direct Nash Optimization and 3.1 Derivation of Algorithm 13.2 Theoretical Analysis4 Practical Algorithm – Iterative Contrastive Self-Improvement
4 Practical Algorithm – Iterative Contrastive Self-Improvement5 Experiments and 5.1 Experimental Setup
5 Experiments and 5.1 Experimental Setup5.2 Results and Analysis6 Related Work7 Conclusion and References
مقالات
تصویرA Extension to Regularized Preferences
A Extension to Regularized PreferencesB Detailed ProofsC Additional Experimental Details
C Additional Experimental Detailsتصویر
آپ کے لئے یہ کام کرنے کے لئے ایک ماڈل کی مدد کرنے کے لئے ایک طاقتور اوراکل سے ترجیحات کی واپسی کا استعمال کرتے ہوئے اس کے بعد کی تربیت کے بڑے زبان کے ماڈل (LLMs) کے بارے میں خود کار طریقے سے پیشہ ورانہ مطالعہ کرتے ہیں. AI کے بعد کی تربیت کے LLMs کے لئے ہمارے معمولی نقطہ نظر کے طور پر کار طریقے سے بہتر بنانے میں مدد ملتی ہے، جس میں انسان کی واپسی (RLHF) کی طرف سے پیچیدہ غیر متبادل یا سائیکل ترجیحات کے پیرامیٹرز کو بیان کرنے میں ناکام ہوتا ہے. جس میں روایتی طور پر RLHF پر کامیابی کی تعلیم اور بعد کی پالیسی کے بہتر بنانے کے تجربات کو تقسیم کیا جا سکتا ہے. تاہم، اس طرح کی ایک ترجیحات کی زیادہ سے زیادہ سازی کے نقطہ نظر کے بارے میں ایک
1 انٹرویو
مطابق انسانی اقدار اور ترجیحات کے ساتھ، انسانی اقدار اور ترجیحات کے ساتھ مطابقت کرتے ہوئے پیچیدہ ہدایات کو سمجھنے، سمجھنے، پیروی کرنے اور رنگین مواد پیدا کرنے کے لئے اعلی درجے کی ماڈل کی طرف بڑھ رہا ہے. بڑے زبان ماڈل (LLMs) (مثال کے طور پر، Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023; OpenAI et al., 2023) انسان کی طرح کے متن پیدا کرنے، سوالات کا جواب دینے اور کوڈنگ میں حیرت انگیز صلاحیتوں کا مظاہرہ کر رہے ہیں، لیکن وہ اب بھی ایک اعلی درجے کی قابل اعتماد، سیکورٹی اور اخلاقی ترجیح کی ضرورت ہے کاموں میں چیلنجوں کا سامنا کرنے کے لئے. ان چیلنجوں کو حل کرنے کے لئے، اچھی ترسیل LLM
ایک RLHF فریم ورک طویل عرصے سے ترجیحات پر مبنی مضبوطی سیکھنے (RL) یا انسانی ترجیحات (مثال کے طور پر Knox and Stone، 2008; Akrour et al., 2012; Griffith et al., 2013; Wirth et al., 2017; Christiano et al., 2017) پر مبنی RLHF کے فریم ورک طویل عرصے سے مطالعہ کیا گیا ہے. RLHF کے لئے معمولی طریقے عام طور پر یہ فرض کرتے ہیں کہ ترجیحات کو کچھ ماڈل کے ذریعہ ایک سکالری پاداش فیکٹری کی طرف سے مقرر کیا جاتا ہے، جیسے بار بار بار استعمال کیا Bradley-Terry (BT) ماڈل (Bradley and Terry, 1952).[1] RLHF پھر ایک دو مرحلے کے عمل میں ترجیحات کی طرف سے بہتر بناتا ہے:
عطیہ زیادہ سے زیادہ کرنے کی فریمنگ ایک اہم حد کا سامنا کرتا ہے.عطیہ فریمنگ، input x کے لئے ایک واحد جواب y کے لئے ایک سکالری پوائنٹ r(x، y) کے لئے پیدا کرنے کے لئے مقرر کیا گیا ہے، ہر صورت میں ایک جوڑے کے outputs کے درمیان عام ترجیحات y y ′, x کو بیان نہیں کر سکتے ہیں، مثال کے طور پر، غیر متبادل یا سائیکل ترجیحات (Elo, 1978). اس وجہ سے، انعامات زیادہ سے زیادہ کرنے کے تحت تربیت یافتہ LLMs ہمیشہ انسانی ترجیحات کے ساتھ مطابقت نہیں کرسکتے ہیں. اس کے علاوہ، حالیہ کاموں سے پتہ چلتا ہے کہ یہاں تک کہ ان ترتیبات میں جہاں ترجیحات عطیہ پر مبنی BT ماڈل کے تحت مکمل طور پر بیان کیا جا سکتا ہے، انعامات کی
ہم دو منفرد چیلنجوں کو حل کرنے کے لئے حوصلہ افزائی رکھتے ہیں: انعام پر مبنی RLHF کی محدود بیانات، اور عام ترجیحات کے مقابلے میں بہتر بنانے کے لئے کس طرح کی روشنی کی کمی.
ہم ایک ثابت شدہ اور وسیع پیمانے پر RLHF الگورتھم پیش کرتے ہیں - Direct Nash Optimization (DNO) (اعداد و شمار 1) جو دونوں دنیاوں میں سب سے بہتر حاصل کرتا ہے، متضاد مقاصد کی وسیع پیمانے کی صلاحیت کو عام ترجیحات کو بہتر بنانے کے نظریے کے ساتھ منسلک کرتا ہے. DNO کو رجسٹریشن پر مبنی سیکھنے کے مقاصد کے ساتھ ایک بیچ پر مبنی الگورتھم کے طور پر ڈیزائن کیا گیا ہے؛ یہ ڈیزائن کا انتخاب DNO کو مستحکم اور وسیع پیمانے پر بناتا ہے، ڈپلوڈنگ کی کارکردگی اور متوازنگی کے درمیان ایک توازن حاصل کرتا ہے.
Direct Nash OptimizationDirect Nash Optimization براہ راست Nash Optimization
ہم نیچے DNO کے اہم اجزاء اور نقطہ نظر کو ایک اعلی سطح پر خلاصہ دیتے ہیں.
اس مسئلے کو حل کرنے کے لئے کہ انعامات کے افعال عام ترجیحات بیان نہیں کرسکتے ہیں، ہم حالیہ نقطہ نظر کا استعمال کرتے ہیں کہ انعامات کے تصور کو ایک عام ترجیحات کے افعال کے بارے میں توقع کردہ جیت کی شرح کے طور پر بیان کیا جانا چاہئے.[2]
<
اس مسئلے کو حل کرنے کے لئے کہ اجر کے افعال عام ترجیحات کو بیان نہیں کرسکتے ہیں، ہم حالیہ نقطہ نظر کا استعمال کرتے ہیں کہ اجر کے تصور کو ایک عام ترجیحات کے افعال کے مقابلے میں انتظار شدہ جیت کی شرح کے طور پر بیان کیا جانا چاہئے.[2]
پچھلے کاموں میں پایا گیا مسئلہ کو حل کرنے کے لئے کہ آن لائن الگورتھمز کے ساتھ اس زیادہ عام مقصد کو بہتر بنانے کے لئے نمونہ غیر مؤثر یا غیر مستحکم ہے، ہم سیکھنے کے عمل کو ایک سلسلے میں تقسیم کرتے ہیں "پولیس پر بیچنے والے" تکرار، جہاں ہر مرحلہ اس کے بجائے ایک سادہ رجسٹریشن مقصد کو بہتر بناتا ہے.
پچھلے کاموں میں پایا گیا مسئلہ کو حل کرنے کے لئے کہ آن لائن الگورتھمز کے ساتھ اس زیادہ عام مقصد کو بہتر بنانے کے لئے نمونہ غیر مؤثر یا غیر مستحکم ہے، ہم سیکھنے کے عمل کو ایک سلسلہ میں تقسیم کرتے ہیں، جہاں ہر قدم اس کے بجائے ایک سادہ رجسٹریشن مقصد کو بہتر بناتا ہے.
ریگولیشن کے مقاصد (ہم بائنری cross-entropy کا انتخاب کرتے ہیں) پالیسی کے "انٹرویو فیکٹری" کو خود کے مقابلے میں توقع کردہ جیت کی شرح کے ساتھ منسلک کرتا ہے (جیسا کہ الگوارم 1 کے لائن 3 میں بیان کیا جاتا ہے). تربیت کے لئے استعمال کرنے کے لئے موجودہ پالیسی سے نکالنے کے ذریعہ پیداوار (مثلا، "اپنا کھیل") اس عمل کو خود بہتر کرنے والے رویے کو حوصلہ افزائی کرتا ہے.
ریگراسی مقاصد (ہم بائنری cross-entropy کا انتخاب کرتے ہیں) پالیسی کے "انٹرویو فیکٹری" کو خود کے مقابلے میں توقع کردہ جیت کی شرح کے ساتھ مطابقت کرتا ہے (جیسا کہ الگرامی 1 کے لائن 3 میں بیان کیا جاتا ہے).
ہماری فریم ورک کافی عام ہے تاکہ غیر پالیسی کے نمونے کو تربیت میں شامل کیا جاسکتا ہے، اہم طور پر، ایک زیادہ طاقتور استاد کی طرف سے (ایک الگورتھم میں μ1 اور μ2 کا انتخاب دیکھیں).
ہماری فریم ورک کافی عام ہے کہ تربیت میں غیر پالیسی نمونے کو قبول کرسکتا ہے، اہم طور پر، ایک زیادہ طاقتور استاد کی طرف سے (ایک الگورتھم میں μ1 اور μ2 کا انتخاب دیکھیں).
اس کے علاوہ، استحکام اور کمپیوٹرک کارکردگی کو یقینی بنانے کے لئے، ہم ایک فلٹرنگ سسٹم پیش کرتے ہیں تاکہ انعام رجسٹریشن صرف کافی بڑے مارجن کے ساتھ ترجیحات جوڑوں پر کیا جاتا ہے (ایک نظریاتی وضاحت کے لئے، سیکشن 4 دیکھیں؛ عملی طور پر، سیکشن 5.2 دیکھیں).
اس کے علاوہ، مستحکم اور محاسباتی کارکردگی کو یقینی بنانے کے لئے، ہم ایک فلٹرنگ کے نظام کی پیشکش کرتے ہیں تاکہ انعام رجسٹریشن صرف کافی بڑے مارجن کے ساتھ ترجیحات جوڑوں پر کیا جاتا ہے (ایک نظریاتی وضاحت کے لئے، سیکشن 4 دیکھیں؛ عملی طور پر، سیکشن 5.2)
.
DNO اس عمل کو کئی دوبارہ کرنے کے لئے دوبارہ کرتا ہے تاکہ پالیسی عام ترجیحات کی طرف سے بہتر بنائے۔ کیونکہ ہر مرحلے میں رجسٹریشن کا مسئلہ ہوتا ہے تو یہ آسانی سے مقیاس میں لاگو کیا جا سکتا ہے۔
DNO اس عمل کو کئی دوبارہ کرنے کے لئے دوبارہ کرتا ہے تاکہ پالیسی عام ترجیحات کی طرف سے بہتر بنائے۔ کیونکہ ہر مرحلے میں رجسٹریشن کا مسئلہ ہوتا ہے تو یہ آسانی سے مقیاس میں لاگو کیا جا سکتا ہے۔
ترجمہ طور پر، ہم اس بات کو ثابت کرتے ہیں کہ DNO اوسط طور پر منصوبہ بندی شدہ نیش توازن کے ساتھ ملتا ہے، اور یہ دوبارہ دوبارہ شروع کرنے کے دوران ایکٹونک طور پر بہتر ہوسکتا ہے (مثال کے طور پر سیکشن 3.1)۔ اس کے علاوہ، ہمارے محدود نمونے کا تجزیہ یہ ظاہر کرتا ہے کہ سیکشن کی پالیسی اور مقصد کے درمیان کسی بھی دوبارہ شروع ہونے پر توازن کی غلطی کو مضبوطی سے محدود کیا جاتا ہے (سیٹرم 1).
ایک عملی نقطہ نظر پر، ہم DNO (آگراف 2) کا ایک وسیع پیمانے پر ایپلی کیشن فراہم کرتے ہیں: ایک متنازعہ اپ ڈیٹ کے ساتھ ایک متنازعہ خود بہتر بنانے والا آگراف، جس میں کئی اہم ڈیزائن کے اختیارات کے تحت آگراف 1 کی نسبت ہوتی ہے. ان اختیارات میں شامل ہیں: تربیت حاصل کرنے والے پالیسی سے متعدد آن لائن پیداواروں کی نمائش، GPT-4 کو ترجیح کے طور پر استعمال کرتے ہوئے، اس پالیسی پر نمونے کو GPT-4 کے اپنے (تقاریر) پیداواروں کے ساتھ موازنہ، اور صرف "گھر مارجن" کے جوڑوں پر تربیت (ایک نظریاتی وضاحت کے لئے، سیکشن 4 دیکھیں؛ عملی طور پر، سیکشن 5.2) دیکھیں.
Nash-MD (Munos et al., 2023) اور SPO (Swamy et al., 2024) کے متعلق متعلقہ کاموں کے بارے میں ہمارے کام کا بنیادی فرق یہ ہے کہ وہ دونوں نمونہ کارکردگی کے مسائل (دو وقت کی پیمائش اپ ڈیٹ یا نمونہ غیر مؤثر RL اقدامات) دکھاتے ہیں، اور دونوں صرف پالیسی پر نمونے کا استعمال کرتے ہیں. ہم ایک نمونہ کارکردگی کے مقصد کے ساتھ حل کرتے ہیں جو عملی طور پر کام کرتا ہے، اور DNO ایک طاقتور استاد سے غیر پالیسی نمونے کو شامل کرنے کے لئے زیادہ انعطاف پذیر ہے.
سب سے اہم بات یہ ہے کہ DNO عملی طور پر کام کرتا ہے - ہم جامع تجرباتی تجزیات فراہم کرتے ہیں، جس کے نتیجے میں جدید کارکردگی:
• پیدا ہونے والے 7B پیرامیٹر Orca-2.5 ماڈل، DNO (الگوارڈ 2) کے عملی نافذ کا استعمال کرتے ہوئے منسلک، کسی بھی 7B ماڈل کی اعلی درجے کی جیت کی شرح حاصل کرتا ہے، AlpacaEval 2.0 پر GPT-4-Turbo کے مقابلے میں 33٪ سے زیادہ، طول کے لئے کنٹرول کرنے کے بعد بھی. یہ ابتدائی ماڈل کے مقابلے میں 26٪ سے زائد بالکل فائدہ (7٪→33%) ہے. یہ 70B پیرامیٹرز کے ساتھ کئی حالیہ اعلی درجے کے بند سائڈ ماڈلوں، جیسے Mistral Large اور GPT-4-0613، اور بہت زیادہ (10×) پیرامیٹرز کے ساتھ کھلی سائڈ ماڈلوں کے مقابلے میں بہتر ہے.
• سیکشن 5.2 میں ہمارے تفصیلی ablation مطالعہ کے اختیارات کے اختیارات کے بارے میں اہم ڈیزائن ٹکٹ پوائنٹس کا جائزہ لیں (تفتیش شدہ finetuning یا contrastive)، تربیت کے پیرامیڈم (ان پالیسی پر نمونے کے ساتھ یا بغیر)، ترجیحات annotator معیار (گلے مارجن یا نہیں) اور تربیت جوڑے کی تعمیر (آپ کے ساتھ کھیلنے، استاد کے مقابلے میں طالب علم، وغیرہ).
• ہم چند مثالیں دکھاتے ہیں کہ دوبارہ شروع ہونے والی پیداواروں میں سے کچھ جو معیار کی بہتریاں دکھاتے ہیں جیسے ذہنی مسائل اور ممکنہ سوالات کو بہتر طریقے سے حل کرنے کے لئے (ٹیبل 5)، بہتر تنظیم اور واضحات کو ظاہر کرتے ہوئے غلط بیانات (ٹیبل 6)، اور جوابات میں زیادہ معلومات کی گہرائی (ٹیبل 7).
ہم امید کرتے ہیں کہ یہاں پیش کردہ نتائج کمیونٹی کو تربیت کے بعد LLMs کے لئے AI Feedback کا استعمال کے بارے میں واضحات فراہم کریں گے.
This paper is available on arxiv under CC BY 4.0 DEED license.
This paper is available on arxiv under CC BY 4.0 DEED license.
available on arxiv→ HR[1] ہم "عطیہ ماڈل" کا استعمال کرتے ہیں کہ ایک فریم ورک کا حوالہ دیتے ہیں جو ترجیحات کو انعامات میں ترجمہ کرتا ہے، مثال کے طور پر، Bradley-Terry، جبکہ "عطیہ فیکٹری" ایک (ایک ممکنہ طور پر سیکھا) فیکٹری ہے جو انعامات سکالروں کو پیدا کرتا ہے.