مصنفین:
(1) ڈیوڈ راپوسو، گوگل ڈیپ مائنڈ اور مساوی شراکت کے ساتھ؛
(2) سیم رائٹر، گوگل ڈیپ مائنڈ؛
(3) بلیک رچرڈز، گوگل ڈیپ مائنڈ اور میک گل یونیورسٹی اور میلا؛
(4) Timothy Lillicrap, Google DeepMind;
(5) پیٹر کونوے ہمفریز، گوگل ڈیپ مائنڈ؛
(6) ایڈم سینٹورو، گوگل ڈیپ مائنڈ اور مساوی شراکت کے ساتھ۔
ایڈیٹر کا نوٹ: یہ ایک مطالعہ کے 5 کا حصہ 1 ہے جس میں کمپیوٹیشنل وسائل کو متحرک طور پر مختص کرکے ٹرانسفارمر پر مبنی لینگویج ماڈلز کو زیادہ موثر بنانے کے طریقے کی تفصیل ہے۔ باقی نیچے پڑھیں۔
3.1 حسابی بجٹ کی تعریف
3.2 ٹرانسفارمر بلاکس کے ارد گرد روٹنگ
3.3 روٹنگ اسکیمیں
3.4 روٹنگ کا نفاذ
3.5 نمونے لینے اور 3.6۔ تربیت کے طریقے
ٹرانسفارمر پر مبنی لینگویج ماڈلز FLOPs کو یکساں طور پر ان پٹ سیکونسز میں پھیلاتے ہیں۔ اس کام میں ہم یہ ظاہر کرتے ہیں کہ ٹرانسفارمرز ماڈل کی گہرائی میں مختلف تہوں کے لیے ترتیب کے ساتھ مختص کو بہتر بناتے ہوئے، ایک ترتیب میں FLOPs (یا کمپیوٹ) کو متحرک طور پر مخصوص جگہوں پر مختص کرنا سیکھ سکتے ہیں۔ ہمارا طریقہ ٹوکنز (𝑘) کی تعداد کو محدود کر کے کل کمپیوٹ بجٹ کو نافذ کرتا ہے جو ایک دی گئی پرت پر خود توجہ اور MLP کمپیوٹیشن میں حصہ لے سکتے ہیں۔ پروسیس کیے جانے والے ٹوکنز کا تعین نیٹ ورک کے ذریعے ٹاپ 𝑘 روٹنگ میکانزم کے ذریعے کیا جاتا ہے۔ چونکہ 𝑘 کو ترجیح دی گئی ہے، اس لیے یہ سادہ طریقہ کار دیگر مشروط حسابی تکنیکوں کے برعکس، معلوم ٹینسر سائز کے ساتھ ایک جامد حسابی گراف استعمال کرتا ہے۔ اس کے باوجود، چونکہ 𝑘 ٹوکنز کی شناخت سیال ہوتی ہے، اس لیے یہ طریقہ FLOPs کو وقت اور ماڈل کی گہرائی کے طول و عرض میں غیر یکساں طور پر خرچ کر سکتا ہے۔ اس طرح، حسابی اخراجات مکمل طور پر مجموعی طور پر متوقع ہیں، لیکن ٹوکن کی سطح پر متحرک اور سیاق و سباق کے لحاظ سے حساس ہیں۔ نہ صرف اس طرح سے تربیت یافتہ ماڈلز متحرک طور پر کمپیوٹ کو مختص کرنا سیکھتے ہیں، بلکہ وہ اتنی مؤثر طریقے سے کرتے ہیں۔ یہ ماڈلز ٹریننگ کے لیے مساوی FLOPS اور وال کلاک ٹائمز کے لیے بنیادی کارکردگی سے مماثل ہیں، لیکن فی فارورڈ پاس کے لیے FLOPs کا ایک حصہ درکار ہے، اور تربیت کے بعد کے نمونے لینے کے دوران قدم اٹھانے کے لیے 50% سے زیادہ تیز ہو سکتے ہیں۔
تمام مسائل کو حل کرنے کے لیے یکساں وقت یا کوشش کی ضرورت نہیں ہوتی۔ یکساں طور پر، لینگویج ماڈلنگ میں تمام ٹوکنز اور سیکوینسز کو درست طریقے سے پیشین گوئی کرنے کے لیے ایک ہی وقت یا کوشش کی ضرورت نہیں ہے۔ اور پھر بھی، ٹرانسفارمر ماڈلز ایک فارورڈ پاس میں فی ٹوکن کمپیوٹ کی اتنی ہی رقم خرچ کرتے ہیں۔ مثالی طور پر، ٹرانسفارمرز کمپیوٹ کو غیر ضروری طور پر خرچ نہ کرکے چھوٹے کل کمپیوٹ بجٹ استعمال کریں گے۔
مشروط کمپیوٹیشن ایک ایسی تکنیک ہے جو صرف ضرورت کے وقت اسے خرچ کرکے کل حساب کو کم کرنے کی کوشش کرتی ہے (Bengio et al., 2016; Bengio, 2013; Bengio et al., 2013)۔ مختلف الگورتھم اس بات کا حل پیش کرتے ہیں کہ کب اور کتنا کمپیوٹ استعمال کیا جانا چاہیے (Ainslie et al., 2023; Bapna et al., 2020; Fedus et al., 2022)۔ تاہم، اس مشکل مسئلے کی عمومی شکلیں موجودہ ہارڈ ویئر کی رکاوٹوں کے ساتھ اچھی طرح سے کام نہیں کرسکتی ہیں کیونکہ وہ متحرک کمپیوٹنگ گراف متعارف کرواتے ہیں (Dehghani et al., 2018; Graves, 2016)۔ اس کے بجائے سب سے زیادہ امید افزا مشروط گنتی کے طریقے وہ ہوسکتے ہیں جو ہمارے موجودہ ہارڈویئر اسٹیک کے ساتھ ہم آہنگ ہوں، جو جامد کمپیوٹیشن گرافس کو ترجیح دیتے ہیں، اور معلوم ٹینسر سائز جو ہارڈ ویئر کے استعمال کو زیادہ سے زیادہ کرنے کے لیے منتخب کیے گئے ہیں۔
یہاں ہم جامد کمپیوٹ بجٹ کا استعمال کرتے ہوئے لینگویج ماڈلنگ کے مسئلے پر غور کرتے ہیں جسے ونیلا ٹرانسفارمر کے استعمال سے کم بنایا جا سکتا ہے۔ نیٹ ورک کو یہ سیکھنا چاہیے کہ دستیاب بجٹ سے کمپیوٹ کہاں خرچ کرنا ہے اس بارے میں کہ ہر ایک پرت میں فی ٹوکن فیصلے کرکے دستیاب کمپیوٹ کو متحرک طور پر کیسے مختص کرنا ہے۔ ہمارے نفاذ میں کل کمپیوٹ نیٹ ورک کے آن دی فلائی فیصلوں کا ایک فنکشن بننے کے بجائے ٹریننگ سے پہلے صارف کی وضاحت اور غیر تبدیل شدہ ہے۔ اس طرح، ہارڈ ویئر کی کارکردگی میں حاصل ہونے والے فوائد—جیسے میموری کے اثرات میں کمی، یا فی فارورڈ پاس میں کم ہونے والے FLOPs— کا وقت سے پہلے ہی اندازہ اور فائدہ اٹھایا جا سکتا ہے۔ جیسا کہ ہم دکھائیں گے، یہ فوائد مجموعی کارکردگی کو قربان کیے بغیر حاصل کیے جا سکتے ہیں۔
ہم مکسچر آف ایکسپرٹس (MoE) ٹرانسفارمرز کے مشابہ ایک نقطہ نظر کا فائدہ اٹھاتے ہیں، جس میں نیٹ ورک کی گہرائی میں متحرک ٹوکن لیول روٹنگ کے فیصلے کیے جاتے ہیں۔ MoE سے نکلتے ہوئے، ہم یا تو ایک ٹوکن پر حساب لگانے کا انتخاب کرتے ہیں (جیسا کہ ایک معیاری ٹرانسفارمر کا معاملہ ہوگا)، یا اسے بقایا کنکشن (بقیہ غیر تبدیل شدہ اور بچتی کمپیوٹ) سے گزرنا ہے۔ نیز MoE کے برعکس، ہم اس روٹنگ کو فارورڈ MLPs اور ملٹی ہیڈ توجہ دونوں پر لاگو کرتے ہیں۔ چونکہ اس سے ان کلیدوں اور سوالات پر بھی اثر پڑتا ہے جن پر ہم کارروائی کرتے ہیں، روٹنگ نہ صرف یہ فیصلہ کرتی ہے کہ کون سے ٹوکنز کو اپ ڈیٹ کرنا ہے، بلکہ یہ بھی کہ کون سے ٹوکنز کو حاضر ہونے کے لیے دستیاب کرایا جائے۔ ہم اس حکمت عملی کو مکسچر آف ڈیپتھز (MoD) کے طور پر کہتے ہیں تاکہ اس بات پر زور دیا جا سکے کہ انفرادی ٹوکن کس طرح ٹرانسفارمر کی گہرائی سے مختلف نمبروں کی تہوں، یا بلاکس سے گزرتے ہیں (شکل 1 دیکھیں)۔
MoD تکنیک کسی کو رفتار کے ساتھ کارکردگی کو ختم کرنے کی بھی اجازت دیتی ہے۔ ایک طرف، کوئی ایک MoD ٹرانسفارمر کو تربیت دے سکتا ہے جو ونیلا ٹرانسفارمرز پر 1.5% تک بہتر کرتا ہے مساوی تربیتی FLOPs (isoFLOP) کے لیے حتمی لاگ امکانی تربیتی مقصد پر، اور تربیت کے لیے وال کلاک کے مساوی وقت لگاتا ہے۔ دوسری طرف، کوئی ایک ایسے MoD ٹرانسفارمر کو تربیت دے سکتا ہے جو isoFLOP بہترین ونیلا ٹرانسفارمر کے ساتھ تربیتی نقصان کی برابری حاصل کرتا ہے، لیکن جو FLOPs کا ایک حصہ (50% سے اوپر) فی فارورڈ پاس استعمال کرتا ہے، اور اس لیے قدم بڑھانا تیز تر ہے۔ ایک ساتھ، ان نتائج سے یہ ظاہر ہوتا ہے کہ MoD ٹرانسفارمرز ذہانت سے روٹ کرنا سیکھتے ہیں (یعنی، غیر ضروری حسابات کو چھوڑنا) کیونکہ وہ فارورڈ پاس کے چھوٹے FLOP فوٹ پرنٹ کے باوجود فی تسلسل کے برابر یا بہتر لاگ امکانات حاصل کر سکتے ہیں۔
یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔