paint-brush
هذا التغيير البسيط يجعل نماذج الذكاء الاصطناعي أكثر ذكاءً في التعامل مع البيانات غير المألوفةبواسطة@deeplinking
329 قراءة٪ s
329 قراءة٪ s

هذا التغيير البسيط يجعل نماذج الذكاء الاصطناعي أكثر ذكاءً في التعامل مع البيانات غير المألوفة

بواسطة Deep Linking Technology5m2025/02/07
Read on Terminal Reader

طويل جدا؛ ليقرأ

يقترح الباحثون تعديلاً بسيطًا للهندسة المعمارية القياسية لشبكات ResNet من شأنه أن يحسن بشكل كبير أداء OoD على معيار DDU.
featured image - هذا التغيير البسيط يجعل نماذج الذكاء الاصطناعي أكثر ذكاءً في التعامل مع البيانات غير المألوفة
Deep Linking Technology HackerNoon profile picture
0-item

المؤلفون:

(1) مؤلفون مجهولون ورقة بحثية تخضع لمراجعة مزدوجة التعمية جارود هاس، مختبر SAR، قسم علوم الهندسة، جامعة سيمون فريزر؛ مجموعة Digitalist كندا و[email protected]؛

(2) ويليام يولاند، MetaOptima و [email protected]؛

(3) برنهارد رابوس، مختبر SAR، قسم علوم الهندسة، جامعة سيمون فريزر و[email protected].


  • الملخص و1 مقدمة
  • 2 الخلفية
    • 2.1 تعريف المشكلة
    • 2.2 العمل ذو الصلة
    • 2.3 عدم اليقين الحتمي العميق
    • 2.4 تطبيع L2 لمساحة الميزة والانهيار العصبي
  • 3 المنهجية
    • 3.1 النماذج ووظائف الخسارة
    • 3.2 قياس الانهيار العصبي
  • 4 تجارب
    • 4.1 نتائج OoD أسرع وأكثر قوة
    • 4.2 ربط الانهيار العصبي باكتشاف OoD
  • 5 الخاتمة والأعمال المستقبلية والمراجع
    • الملحق
    • أ.1 تفاصيل التدريب
    • أ.2 تأثير تطبيع L2 على درجات Softmax لكشف OoD
    • أ.3 تركيب GMMs على مساحة Logit
    • أ.4 الإفراط في التدريب مع التطبيع L2
    • أ.5 قياسات الانهيار العصبي للتدخل في فقدان العصب السمعي
    • أ.6 أرقام إضافية

خلاصة

نقترح تعديلاً بسيطاً على بنيات ResNet القياسية - التطبيع L2 على مساحة الميزة - والذي يحسن بشكل كبير أداء خارج التوزيع (OoD) على معيار عدم اليقين الحتمي العميق (DDU) المقترح سابقًا. نظهر أن هذا التغيير يحفز أيضًا الانهيار العصبي المبكر (NC)، وهو التأثير المرتبط بأداء أفضل خارج التوزيع. تحقق طريقتنا درجات كشف OoD مماثلة أو متفوقة ودقة تصنيف في جزء صغير من وقت تدريب المعيار. بالإضافة إلى ذلك، فإنه يحسن بشكل كبير أسوأ أداء OoD على نماذج متعددة يتم تهيئتها عشوائيًا. على الرغم من أننا لا نقترح أن NC هي الآلية الوحيدة أو التفسير الشامل لسلوك OoD في الشبكات العصبية العميقة (DNN)، إلا أننا نعتقد أن البنية الرياضية والهندسية البسيطة لـ NC يمكن أن توفر إطارًا لتحليل هذه الظاهرة المعقدة في العمل المستقبلي.

1 المقدمة

من المعروف أن الشبكات العصبية العميقة تفتقر إلى المتانة في مواجهة تحول التوزيع وقد لا تشير بشكل موثوق إلى الفشل عند تلقي مدخلات خارج التوزيع (OoD) (رابانسر وآخرون، 2018؛ تشين وآخرون، 2020). على وجه التحديد، قد تقدم الشبكات تنبؤات واثقة في الحالات التي تكون فيها المدخلات غير ذات صلة تمامًا، على سبيل المثال، قد تنتج صورة لمدخل مستوي في شبكة مدربة على تصنيف الكلاب أو القطط درجات ثقة عالية للكلاب أو القطط. هذا العجز عن "معرفة ما لا تعرفه" يعيق تطبيق التعلم الآلي في الهندسة وغيرها من المجالات الحرجة للسلامة (هين وآخرون، 2020).


حاول عدد من التطورات الحديثة معالجة هذه المشكلة، وأكثرها استخدامًا هو Monte Carlo Dropout (MCD) والمجموعات (Gal and Ghahramani, 2016; Lakshminarayanan et al., 2017). على الرغم من دعمها بخلفية نظرية معقولة، فإن MCD تفتقر إلى الأداء في بعض التطبيقات وتتطلب تمريرات أمامية متعددة للنموذج بعد التدريب (Haas and Rabus, 2021; Ovadia et al., 2019). يمكن أن توفر المجموعات دقة أفضل من MCD، بالإضافة إلى اكتشاف أفضل لـ OoD في ظل تحولات توزيع أكبر، ولكنها تتطلب زيادة كبيرة في الحوسبة (Ovadia et al., 2019).


وقد حفزت هذه القيود الاهتمام بالطرق الحتمية وطرق التمريرة الأمامية المفردة. ومن أبرز هذه الطرق عدم اليقين الحتمي العميق (DDU) (Mukhoti et al.، 2021). إن عدم اليقين الحتمي العميق أبسط بكثير من العديد من الطرق المنافسة (Liu et al.، 2020؛ Van Amersfoort et al.، 2020؛ van Amersfoort et al.، 2021)، وينتج نتائج تنافسية وقد تم اقتراحه كمعيار لطرق عدم اليقين. ومن القيود، كما هو موضح في تجاربنا، أن عدم اليقين الحتمي العميق يتطلب أوقات تدريب طويلة وينتج نماذج ذات أداء غير متسق.


الشكل 1: رسم توضيحي لطريقة DDU من Mukhoti et al. (2021) على اليسار: في هذا المثال الافتراضي مع مساحة ميزة ثنائية الأبعاد، تلائم DDU Gaussians على كل من الفئات الثلاث كمكونات لـ GMM، q(y, z). على اليمين: مع حدود القرار القياسية (باللون الأحمر)، يتم تمييز التضمينات في هذه المساحة البعيدة (النقاط الصفراء) عن مراكز ثقل الفئة بثقة عالية (المناطق الداكنة هي ثقة أعلى).


نوضح أنه يمكن تحسين DDU بشكل كبير من خلال تطبيع L2 على مساحة الميزة في بنيات ResNet القياسية. بالإضافة إلى تقديم مكاسب الأداء في الدقة واكتشاف OoD، فإن تطبيع L2 يحفز الانهيار العصبي (NC) في وقت أبكر بكثير من التدريب القياسي. تم العثور مؤخرًا على حدوث NC في العديد من بنيات NN عندما يتم تدريبها بشكل مفرط (Papyan et al.، 2020). قد يوفر هذا طريقة لجعل تعقيد الشبكات العصبية العميقة أكثر قابلية للحل، بحيث يمكن تحليلها من خلال البساطة الهندسية والرياضية النسبية لإطارات Equiangular Tight Frames البسيطة (simplex ETF) (Mixon et al.، 2022؛ Zhu et al.، 2021؛ Lu and Steinerberger، 2020؛ Ji et al.، 2021). على الرغم من أن ETF البسيط هذا يقتصر على طبقة الميزة ومصنف القرار، إلا أن هذه الطبقات تلخص قدرًا كبيرًا من وظائف الشبكة. بينما Papyan et al. لإثبات زيادة قوة التحمل التنافسية في ظل التحكم العددي، وعلى حد علمنا، نقدم أول دراسة للعلاقة بين اكتشاف OoD والتحكم العددي.


ونلخص مساهماتنا على النحو التالي:


1) يؤدي تطبيع L2 على مساحة الميزة لنماذج التعلم العميق إلى أداء اكتشاف وتصنيف OoD ينافس أو يتجاوز أداء معيار DDU. والأمر الأكثر أهمية هو أن أسوأ أداء لاكتشاف OoD عبر بذور النموذج قد تحسن بشكل كبير.


2) تنتج النماذج المدربة باستخدام التطبيع L2 على مساحة الميزة فوائد الأداء المذكورة أعلاه بنسبة 17% (ResNet18) إلى 29% (ResNet50) من وقت تدريب معيار DDU. لا يضيف التطبيع L2 المقترح لدينا أي وقت تدريب كبير مقارنة بالنماذج التي لا تحتوي عليه.


3) يؤدي تطبيع L2 على مساحة الميزة إلى تحفيز NC أسرع بخمس مرات من التدريب القياسي. قد يكون التحكم في معدل NC مفيدًا لتحليل سلوك DNN.


4) يرتبط NC باكتشاف OoD بموجب التعديل المقترح على طريقة DDU. لقد أظهرنا أدلة على أن NC السريع يلعب دورًا في تحقيق أداء اكتشاف OoD مع تدريب أقل، وأن التدريب مباشرة على NC له تأثير مختلف بشكل كبير على أداء OoD مقارنة بتدريب الإنتروبيا المتقاطعة القياسية (CE). يسمح هذا الارتباط بين ETFs البسيط الذي ينشأ بشكل طبيعي في DNNs وأداء OoD بإطار تحليلي أنيق لمزيد من الدراسة للآليات الأساسية التي تحكم عدم اليقين والمتانة في DNNs.


الجدول 1: نتائج دقة اكتشاف وتصنيف OoD لنماذج ResNet18 وResNet50، 15 بذرة لكل تجربة، تم تدريبها على CIFAR10، ومجموعات اختبار SVHN وCIFAR100 وTiny ImageNet المستخدمة كبيانات OoD. بالنسبة لجميع النماذج، نشير إلى ما إذا كان قد تم استخدام التطبيع L2 على مساحة الميزة (L2/No L2) وعدد عصور التدريب التي حدثت (60/100/350)، وقارنا مع خط الأساس DDU (No L2 350). لاحظ أن تباين درجات AUROC ينخفض بشكل كبير تحت تطبيع L2 لمساحة الميزة. مع تدريب أقل بكثير، يتحسن أداء OoD في أسوأ الحالات عبر بذور النموذج بشكل كبير على خط الأساس، ويتحسن متوسط الأداء أو يكون تنافسيًا في جميع الحالات.


هذه الورقة متاحة على arxiv بموجب رخصة CC BY-NC-ND 4.0 DEED.