paint-brush
یہ چھوٹی تبدیلی AI ماڈلز کو غیر مانوس ڈیٹا پر زیادہ ہوشیار بناتی ہے۔کی طرف سے@deeplinking
329 ریڈنگز
329 ریڈنگز

یہ چھوٹی تبدیلی AI ماڈلز کو غیر مانوس ڈیٹا پر زیادہ ہوشیار بناتی ہے۔

کی طرف سے Deep Linking Technology5m2025/02/07
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

محققین معیاری ResNet آرکیٹیکچرز میں ایک سادہ ترمیم کی تجویز دے رہے ہیں جو DDU بینچ مارک پر OoD کارکردگی کو کافی حد تک بہتر بناتا ہے۔
featured image - یہ چھوٹی تبدیلی AI ماڈلز کو غیر مانوس ڈیٹا پر زیادہ ہوشیار بناتی ہے۔
Deep Linking Technology HackerNoon profile picture
0-item

مصنفین:

(1) گمنام مصنفین پیپر انڈر ڈبل بلائنڈ ریویو Jarrod Haas, SARlab, Department of Engineering Science Simon Fraser University; ڈیجیٹلسٹ گروپ کینیڈا اور [email protected]؛

(2) ولیم یولینڈ، میٹا اوپٹیما اور [email protected]؛

(3) Bernhard Rabus, SARlab, Department of Engineering Science, Simon Fraser University and [email protected]۔


  • خلاصہ اور 1 تعارف
  • 2 پس منظر
    • 2.1 مسئلہ کی تعریف
    • 2.2 متعلقہ کام
    • 2.3 گہری تعییناتی غیر یقینی صورتحال
    • 2.4 L2 فیچر اسپیس اور عصبی خاتمے کو معمول پر لانا
  • 3 طریقہ کار
    • 3.1 ماڈلز اور نقصان کے افعال
    • 3.2 اعصابی گرنے کی پیمائش کرنا
  • 4 تجربات
    • 4.1 تیز اور زیادہ مضبوط OoD نتائج
    • 4.2 OoD کا پتہ لگانے کے ساتھ اعصابی گرنے کو جوڑنا
  • 5 نتیجہ اور مستقبل کا کام، اور حوالہ جات
    • ایک ضمیمہ
    • A.1 تربیت کی تفصیلات
    • A.2 OoD کا پتہ لگانے کے لیے سافٹ میکس اسکورز پر L2 نارملائزیشن کا اثر
    • A.3 لاگٹ اسپیس پر جی ایم ایم کو فٹ کرنا
    • A.4 L2 نارملائزیشن کے ساتھ اوور ٹریننگ
    • NC نقصان کی مداخلت کے لئے A.5 اعصابی گرنے کی پیمائش
    • A.6 اضافی اعداد و شمار

خلاصہ

ہم معیاری ResNet architectures میں ایک سادہ ترمیم کی تجویز پیش کرتے ہیں – L2 کو فیچر اسپیس پر نارملائزیشن – جو پہلے سے تجویز کردہ ڈیپ ڈیٹرمینسٹک غیر یقینی (DDU) بینچ مارک پر آؤٹ آف ڈسٹری بیوشن (OoD) کارکردگی کو کافی حد تک بہتر بناتا ہے۔ ہم یہ ظاہر کرتے ہیں کہ یہ تبدیلی ابتدائی نیورل کولیپس (NC) کو بھی آمادہ کرتی ہے، جو بہتر OoD کارکردگی سے منسلک ہے۔ ہمارا طریقہ بینچ مارک کے تربیتی وقت کے ایک چھوٹے سے حصے میں موازنہ یا اعلی OoD پتہ لگانے کے اسکور اور درجہ بندی کی درستگی حاصل کرتا ہے۔ مزید برآں، یہ ایک سے زیادہ، تصادفی طور پر شروع کیے گئے ماڈلز پر بدترین کیس OoD کارکردگی کو کافی حد تک بہتر بناتا ہے۔ اگرچہ ہم یہ تجویز نہیں کرتے ہیں کہ NC واحد طریقہ کار ہے یا ڈیپ نیورل نیٹ ورکس (DNN) میں OoD رویے کے لیے ایک جامع وضاحت ہے، ہمیں یقین ہے کہ NC کا سادہ ریاضیاتی اور ہندسی ڈھانچہ مستقبل کے کام میں اس پیچیدہ رجحان کے تجزیہ کے لیے ایک فریم ورک فراہم کر سکتا ہے۔

1 تعارف

یہ بات اچھی طرح سے معلوم ہے کہ ڈیپ نیورل نیٹ ورکس (DNNs) میں ڈسٹری بیوشن شفٹ میں مضبوطی کا فقدان ہے اور ہو سکتا ہے کہ آؤٹ آف ڈسٹری بیوشن (OoD) ان پٹ (Rabanser et al. خاص طور پر، نیٹ ورک ان صورتوں میں پراعتماد پیشین گوئیاں کر سکتے ہیں جہاں ان پٹ مکمل طور پر غیر متعلق ہوں، مثلاً کتوں یا بلیوں کی درجہ بندی کرنے کے لیے تربیت یافتہ نیٹ ورک میں ہوائی جہاز کے ان پٹ کی تصویر کتے یا بلیوں میں سے کسی ایک کے لیے اعلیٰ اعتماد کے اسکور پیدا کر سکتی ہے۔ نیٹ ورکس کے لیے "یہ جاننے میں ناکامی کہ وہ کیا نہیں جانتے" انجینئرنگ اور دیگر حفاظتی اہم ڈومینز (Henne et al., 2020) میں مشین لرننگ کے اطلاق میں رکاوٹ ہے۔


حالیہ پیش رفتوں کی ایک بڑی تعداد نے اس مسئلے کو حل کرنے کی کوشش کی ہے، جس میں سب سے زیادہ استعمال ہونے والا مونٹی کارلو ڈراپ آؤٹ (MCD) اور جوڑا (Gal and Ghahramani, 2016; Lakshminarayanan et al., 2017)۔ ایک معقول نظریاتی پس منظر کی حمایت کرتے ہوئے، MCD کچھ ایپلی کیشنز میں کارکردگی کا فقدان ہے اور تربیت کے بعد ماڈل کے متعدد فارورڈ پاسز کی ضرورت ہوتی ہے (Haas and Rabus, 2021; Ovadia et al., 2019)۔ اینسمبلز MCD سے بہتر درستگی فراہم کر سکتے ہیں، ساتھ ہی ساتھ بڑی ڈسٹری بیوشن شفٹوں کے تحت بہتر OoD کا پتہ لگا سکتے ہیں، لیکن کمپیوٹ میں خاطر خواہ اضافے کی ضرورت ہے (Ovadia et al., 2019)۔


ان حدود نے تعییناتی اور سنگل فارورڈ پاس طریقوں میں دلچسپی کو فروغ دیا ہے۔ ان میں قابل ذکر ڈیپ ڈیٹرمینسٹک غیر یقینی صورتحال (DDU) (Mukhoti et al., 2021) ہے۔ DDU بہت سے مسابقتی طریقوں سے بہت آسان ہے (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021)، مسابقتی نتائج پیدا کرتا ہے اور اسے غیر یقینی کے طریقوں کے لیے ایک معیار کے طور پر تجویز کیا گیا ہے۔ ایک حد، جیسا کہ ہمارے تجربات میں دکھایا گیا ہے، یہ ہے کہ DDU کو طویل تربیتی وقت درکار ہوتا ہے اور وہ ایسے ماڈل تیار کرتا ہے جن کی کارکردگی متضاد ہے۔


شکل 1: مخوتی وغیرہ سے DDU طریقہ کار کی ایک مثال۔ (2021) بائیں: دو جہتی خصوصیت کی جگہ کے ساتھ اس فرضی مثال میں، DDU گاوسیوں کو تین کلاسوں میں سے ہر ایک پر GMM، q(y, z) کے اجزاء کے طور پر فٹ کرتا ہے۔ دائیں: معیاری فیصلہ کی حدود (سرخ) کے ساتھ، اس جگہ میں ایمبیڈنگز جو کلاس سینٹروائڈز سے دور ہیں (پیلے پوائنٹس) پر اعلی اعتماد کا لیبل لگا ہوا ہے (گہرے علاقے زیادہ اعتماد ہیں)۔


ہم یہ ظاہر کرتے ہیں کہ معیاری ResNet آرکیٹیکچرز میں خصوصیت کی جگہ پر L2 نارملائزیشن کے ذریعے DDU کو کافی حد تک بہتر بنایا جا سکتا ہے۔ درستگی اور OoD کا پتہ لگانے میں کارکردگی کے فوائد کی پیشکش کے علاوہ، L2 نارملائزیشن معیاری تربیت سے بہت پہلے اعصابی گرنے (NC) کو آمادہ کرتی ہے۔ این سی کو حال ہی میں بہت سے این این آرکیٹیکچرز میں پایا گیا جب وہ زیادہ تربیت یافتہ ہیں (پاپیان ایٹ ال۔، 2020)۔ یہ گہرے عصبی نیٹ ورکس کی پیچیدگی کو مزید قابل عمل بنانے کا ایک طریقہ فراہم کر سکتا ہے، جیسے کہ سمپلیکس ایکوی اینگولر ٹائٹ فریمز (سمپلیکس ای ٹی ایف) (مکسون ایٹ ال۔، 2022؛ زو ایٹ ال۔، 2020؛ جیو ایٹ ال۔، 2020؛ جیو ایٹ ال۔، 2020؛ جیو ایٹ ال۔ 2021)۔ اگرچہ یہ سمپلیکس ETF فیچر لیئر اور فیصلہ کن درجہ بندی تک محدود ہے، لیکن یہ پرتیں نیٹ ورک کی فعالیت کی کافی مقدار کا خلاصہ کرتی ہیں۔ جبکہ پاپیان وغیرہ۔ NC کے تحت بڑھتی ہوئی مخالفانہ مضبوطی کا مظاہرہ، ہمارے بہترین علم کے مطابق، ہم OoD کا پتہ لگانے اور NC کے درمیان تعلق کا پہلا مطالعہ پیش کرتے ہیں۔


ہم اپنی شراکت کا خلاصہ اس طرح کرتے ہیں:


1) ڈیپ لرننگ ماڈلز کی خصوصیت کی جگہ پر L2 نارملائزیشن کے نتیجے میں OoD کا پتہ لگانے اور درجہ بندی کی کارکردگی ہوتی ہے جو DDU بینچ مارک کی کارکردگی کے ساتھ مسابقتی ہے یا اس سے زیادہ ہے۔ خاص طور پر، ماڈل کے بیجوں میں بدترین کیس OoD کا پتہ لگانے کی کارکردگی کافی حد تک بہتر ہوئی ہے۔


2) خصوصیت کی جگہ پر L2 نارملائزیشن کے ساتھ تربیت یافتہ ماڈل DDU بینچ مارک کے تربیتی وقت کے 17% (ResNet18) سے 29% (ResNet50) میں مذکورہ بالا کارکردگی کے فوائد پیدا کرتے ہیں۔ ہمارا مجوزہ L2 نارملائزیشن اس کے بغیر ماڈلز کے مقابلے میں کوئی اہم ٹریننگ ٹائم شامل نہیں کرتا ہے۔


3) خصوصیت کی جگہ پر L2 نارملائزیشن NC کو معیاری تربیت سے پانچ گنا زیادہ تیز تر بناتی ہے۔ NC کی شرح کو کنٹرول کرنا DNN کے رویے کا تجزیہ کرنے کے لیے مفید ہو سکتا ہے۔


4) NC DDU طریقہ کار میں ہماری مجوزہ ترمیم کے تحت OoD کا پتہ لگانے کے ساتھ منسلک ہے۔ ہم ثبوت دکھاتے ہیں کہ تیز NC کم تربیت کے ساتھ OoD کا پتہ لگانے کی کارکردگی کو حاصل کرنے میں ایک کردار ادا کرتا ہے، اور یہ کہ NC پر براہ راست تربیت معیاری کراس اینٹروپی (CE) ٹریننگ سے OoD کارکردگی پر کافی مختلف اثر رکھتی ہے۔ Simplex ETFs کے درمیان یہ تعلق جو قدرتی طور پر DNNs اور OoD کی کارکردگی میں پیدا ہوتا ہے، ان بنیادی میکانزم کے مزید مطالعہ کے لیے ایک خوبصورت تجزیاتی فریم ورک کی اجازت دیتا ہے جو DNNs میں غیر یقینی اور مضبوطی کو کنٹرول کرتے ہیں۔


جدول 1: ResNet18 اور ResNet50 ماڈلز کے لیے OoD کا پتہ لگانے اور درجہ بندی کی درستگی کے نتائج، 15 بیج فی تجربہ، CIFAR10 پر تربیت یافتہ، اور SVHN، CIFAR100 اور OoD ڈیٹا کے طور پر استعمال ہونے والے چھوٹے امیج نیٹ ٹیسٹ سیٹس۔ تمام ماڈلز کے لیے، ہم اس بات کی نشاندہی کرتے ہیں کہ آیا فیچر اسپیس پر L2 نارملائزیشن کا استعمال کیا گیا تھا (L2/No L2) اور کتنے تربیتی دور واقع ہوئے (60/100/350)، اور DDU بیس لائن (No L2 350) سے موازنہ کریں۔ نوٹ کریں کہ فیچر اسپیس کے L2 نارملائزیشن کے تحت AUROC سکور کی تغیر پذیری کافی حد تک کم ہو گئی ہے۔ بہت کم تربیت کے ساتھ، ماڈل کے بیجوں میں بدترین OoD کی کارکردگی بیس لائن پر کافی حد تک بہتر ہوتی ہے، اور اس کا مطلب ہے کہ کارکردگی بہتر ہوتی ہے یا تمام معاملات میں مسابقتی ہے۔


یہ کاغذ CC BY-NC-ND 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔