مصنفین:
(1) گمنام مصنفین پیپر انڈر ڈبل بلائنڈ ریویو Jarrod Haas, SARlab, Department of Engineering Science Simon Fraser University; ڈیجیٹلسٹ گروپ کینیڈا اور [email protected]؛
(2) ولیم یولینڈ، میٹا اوپٹیما اور [email protected]؛
(3) Bernhard Rabus, SARlab, Department of Engineering Science, Simon Fraser University and [email protected]۔
ہم معیاری ResNet architectures میں ایک سادہ ترمیم کی تجویز پیش کرتے ہیں – L2 کو فیچر اسپیس پر نارملائزیشن – جو پہلے سے تجویز کردہ ڈیپ ڈیٹرمینسٹک غیر یقینی (DDU) بینچ مارک پر آؤٹ آف ڈسٹری بیوشن (OoD) کارکردگی کو کافی حد تک بہتر بناتا ہے۔ ہم یہ ظاہر کرتے ہیں کہ یہ تبدیلی ابتدائی نیورل کولیپس (NC) کو بھی آمادہ کرتی ہے، جو بہتر OoD کارکردگی سے منسلک ہے۔ ہمارا طریقہ بینچ مارک کے تربیتی وقت کے ایک چھوٹے سے حصے میں موازنہ یا اعلی OoD پتہ لگانے کے اسکور اور درجہ بندی کی درستگی حاصل کرتا ہے۔ مزید برآں، یہ ایک سے زیادہ، تصادفی طور پر شروع کیے گئے ماڈلز پر بدترین کیس OoD کارکردگی کو کافی حد تک بہتر بناتا ہے۔ اگرچہ ہم یہ تجویز نہیں کرتے ہیں کہ NC واحد طریقہ کار ہے یا ڈیپ نیورل نیٹ ورکس (DNN) میں OoD رویے کے لیے ایک جامع وضاحت ہے، ہمیں یقین ہے کہ NC کا سادہ ریاضیاتی اور ہندسی ڈھانچہ مستقبل کے کام میں اس پیچیدہ رجحان کے تجزیہ کے لیے ایک فریم ورک فراہم کر سکتا ہے۔
یہ بات اچھی طرح سے معلوم ہے کہ ڈیپ نیورل نیٹ ورکس (DNNs) میں ڈسٹری بیوشن شفٹ میں مضبوطی کا فقدان ہے اور ہو سکتا ہے کہ آؤٹ آف ڈسٹری بیوشن (OoD) ان پٹ (Rabanser et al. خاص طور پر، نیٹ ورک ان صورتوں میں پراعتماد پیشین گوئیاں کر سکتے ہیں جہاں ان پٹ مکمل طور پر غیر متعلق ہوں، مثلاً کتوں یا بلیوں کی درجہ بندی کرنے کے لیے تربیت یافتہ نیٹ ورک میں ہوائی جہاز کے ان پٹ کی تصویر کتے یا بلیوں میں سے کسی ایک کے لیے اعلیٰ اعتماد کے اسکور پیدا کر سکتی ہے۔ نیٹ ورکس کے لیے "یہ جاننے میں ناکامی کہ وہ کیا نہیں جانتے" انجینئرنگ اور دیگر حفاظتی اہم ڈومینز (Henne et al., 2020) میں مشین لرننگ کے اطلاق میں رکاوٹ ہے۔
حالیہ پیش رفتوں کی ایک بڑی تعداد نے اس مسئلے کو حل کرنے کی کوشش کی ہے، جس میں سب سے زیادہ استعمال ہونے والا مونٹی کارلو ڈراپ آؤٹ (MCD) اور جوڑا (Gal and Ghahramani, 2016; Lakshminarayanan et al., 2017)۔ ایک معقول نظریاتی پس منظر کی حمایت کرتے ہوئے، MCD کچھ ایپلی کیشنز میں کارکردگی کا فقدان ہے اور تربیت کے بعد ماڈل کے متعدد فارورڈ پاسز کی ضرورت ہوتی ہے (Haas and Rabus, 2021; Ovadia et al., 2019)۔ اینسمبلز MCD سے بہتر درستگی فراہم کر سکتے ہیں، ساتھ ہی ساتھ بڑی ڈسٹری بیوشن شفٹوں کے تحت بہتر OoD کا پتہ لگا سکتے ہیں، لیکن کمپیوٹ میں خاطر خواہ اضافے کی ضرورت ہے (Ovadia et al., 2019)۔
ان حدود نے تعییناتی اور سنگل فارورڈ پاس طریقوں میں دلچسپی کو فروغ دیا ہے۔ ان میں قابل ذکر ڈیپ ڈیٹرمینسٹک غیر یقینی صورتحال (DDU) (Mukhoti et al., 2021) ہے۔ DDU بہت سے مسابقتی طریقوں سے بہت آسان ہے (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021)، مسابقتی نتائج پیدا کرتا ہے اور اسے غیر یقینی کے طریقوں کے لیے ایک معیار کے طور پر تجویز کیا گیا ہے۔ ایک حد، جیسا کہ ہمارے تجربات میں دکھایا گیا ہے، یہ ہے کہ DDU کو طویل تربیتی وقت درکار ہوتا ہے اور وہ ایسے ماڈل تیار کرتا ہے جن کی کارکردگی متضاد ہے۔
ہم یہ ظاہر کرتے ہیں کہ معیاری ResNet آرکیٹیکچرز میں خصوصیت کی جگہ پر L2 نارملائزیشن کے ذریعے DDU کو کافی حد تک بہتر بنایا جا سکتا ہے۔ درستگی اور OoD کا پتہ لگانے میں کارکردگی کے فوائد کی پیشکش کے علاوہ، L2 نارملائزیشن معیاری تربیت سے بہت پہلے اعصابی گرنے (NC) کو آمادہ کرتی ہے۔ این سی کو حال ہی میں بہت سے این این آرکیٹیکچرز میں پایا گیا جب وہ زیادہ تربیت یافتہ ہیں (پاپیان ایٹ ال۔، 2020)۔ یہ گہرے عصبی نیٹ ورکس کی پیچیدگی کو مزید قابل عمل بنانے کا ایک طریقہ فراہم کر سکتا ہے، جیسے کہ سمپلیکس ایکوی اینگولر ٹائٹ فریمز (سمپلیکس ای ٹی ایف) (مکسون ایٹ ال۔، 2022؛ زو ایٹ ال۔، 2020؛ جیو ایٹ ال۔، 2020؛ جیو ایٹ ال۔، 2020؛ جیو ایٹ ال۔ 2021)۔ اگرچہ یہ سمپلیکس ETF فیچر لیئر اور فیصلہ کن درجہ بندی تک محدود ہے، لیکن یہ پرتیں نیٹ ورک کی فعالیت کی کافی مقدار کا خلاصہ کرتی ہیں۔ جبکہ پاپیان وغیرہ۔ NC کے تحت بڑھتی ہوئی مخالفانہ مضبوطی کا مظاہرہ، ہمارے بہترین علم کے مطابق، ہم OoD کا پتہ لگانے اور NC کے درمیان تعلق کا پہلا مطالعہ پیش کرتے ہیں۔
ہم اپنی شراکت کا خلاصہ اس طرح کرتے ہیں:
1) ڈیپ لرننگ ماڈلز کی خصوصیت کی جگہ پر L2 نارملائزیشن کے نتیجے میں OoD کا پتہ لگانے اور درجہ بندی کی کارکردگی ہوتی ہے جو DDU بینچ مارک کی کارکردگی کے ساتھ مسابقتی ہے یا اس سے زیادہ ہے۔ خاص طور پر، ماڈل کے بیجوں میں بدترین کیس OoD کا پتہ لگانے کی کارکردگی کافی حد تک بہتر ہوئی ہے۔
2) خصوصیت کی جگہ پر L2 نارملائزیشن کے ساتھ تربیت یافتہ ماڈل DDU بینچ مارک کے تربیتی وقت کے 17% (ResNet18) سے 29% (ResNet50) میں مذکورہ بالا کارکردگی کے فوائد پیدا کرتے ہیں۔ ہمارا مجوزہ L2 نارملائزیشن اس کے بغیر ماڈلز کے مقابلے میں کوئی اہم ٹریننگ ٹائم شامل نہیں کرتا ہے۔
3) خصوصیت کی جگہ پر L2 نارملائزیشن NC کو معیاری تربیت سے پانچ گنا زیادہ تیز تر بناتی ہے۔ NC کی شرح کو کنٹرول کرنا DNN کے رویے کا تجزیہ کرنے کے لیے مفید ہو سکتا ہے۔
4) NC DDU طریقہ کار میں ہماری مجوزہ ترمیم کے تحت OoD کا پتہ لگانے کے ساتھ منسلک ہے۔ ہم ثبوت دکھاتے ہیں کہ تیز NC کم تربیت کے ساتھ OoD کا پتہ لگانے کی کارکردگی کو حاصل کرنے میں ایک کردار ادا کرتا ہے، اور یہ کہ NC پر براہ راست تربیت معیاری کراس اینٹروپی (CE) ٹریننگ سے OoD کارکردگی پر کافی مختلف اثر رکھتی ہے۔ Simplex ETFs کے درمیان یہ تعلق جو قدرتی طور پر DNNs اور OoD کی کارکردگی میں پیدا ہوتا ہے، ان بنیادی میکانزم کے مزید مطالعہ کے لیے ایک خوبصورت تجزیاتی فریم ورک کی اجازت دیتا ہے جو DNNs میں غیر یقینی اور مضبوطی کو کنٹرول کرتے ہیں۔
یہ کاغذ CC BY-NC-ND 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔