المؤلفون:
(1) مؤلفون مجهولون ورقة بحثية تخضع لمراجعة مزدوجة التعمية جارود هاس، مختبر SAR، قسم علوم الهندسة، جامعة سيمون فريزر؛ مجموعة Digitalist كندا و[email protected]؛
(2) ويليام يولاند، MetaOptima و [email protected]؛
(3) برنهارد رابوس، مختبر SAR، قسم علوم الهندسة، جامعة سيمون فريزر و[email protected].
نقترح تعديلاً بسيطاً على بنيات ResNet القياسية - التطبيع L2 على مساحة الميزة - والذي يحسن بشكل كبير أداء خارج التوزيع (OoD) على معيار عدم اليقين الحتمي العميق (DDU) المقترح سابقًا. نظهر أن هذا التغيير يحفز أيضًا الانهيار العصبي المبكر (NC)، وهو التأثير المرتبط بأداء أفضل خارج التوزيع. تحقق طريقتنا درجات كشف OoD مماثلة أو متفوقة ودقة تصنيف في جزء صغير من وقت تدريب المعيار. بالإضافة إلى ذلك، فإنه يحسن بشكل كبير أسوأ أداء OoD على نماذج متعددة يتم تهيئتها عشوائيًا. على الرغم من أننا لا نقترح أن NC هي الآلية الوحيدة أو التفسير الشامل لسلوك OoD في الشبكات العصبية العميقة (DNN)، إلا أننا نعتقد أن البنية الرياضية والهندسية البسيطة لـ NC يمكن أن توفر إطارًا لتحليل هذه الظاهرة المعقدة في العمل المستقبلي.
من المعروف أن الشبكات العصبية العميقة تفتقر إلى المتانة في مواجهة تحول التوزيع وقد لا تشير بشكل موثوق إلى الفشل عند تلقي مدخلات خارج التوزيع (OoD) (رابانسر وآخرون، 2018؛ تشين وآخرون، 2020). على وجه التحديد، قد تقدم الشبكات تنبؤات واثقة في الحالات التي تكون فيها المدخلات غير ذات صلة تمامًا، على سبيل المثال، قد تنتج صورة لمدخل مستوي في شبكة مدربة على تصنيف الكلاب أو القطط درجات ثقة عالية للكلاب أو القطط. هذا العجز عن "معرفة ما لا تعرفه" يعيق تطبيق التعلم الآلي في الهندسة وغيرها من المجالات الحرجة للسلامة (هين وآخرون، 2020).
حاول عدد من التطورات الحديثة معالجة هذه المشكلة، وأكثرها استخدامًا هو Monte Carlo Dropout (MCD) والمجموعات (Gal and Ghahramani, 2016; Lakshminarayanan et al., 2017). على الرغم من دعمها بخلفية نظرية معقولة، فإن MCD تفتقر إلى الأداء في بعض التطبيقات وتتطلب تمريرات أمامية متعددة للنموذج بعد التدريب (Haas and Rabus, 2021; Ovadia et al., 2019). يمكن أن توفر المجموعات دقة أفضل من MCD، بالإضافة إلى اكتشاف أفضل لـ OoD في ظل تحولات توزيع أكبر، ولكنها تتطلب زيادة كبيرة في الحوسبة (Ovadia et al., 2019).
وقد حفزت هذه القيود الاهتمام بالطرق الحتمية وطرق التمريرة الأمامية المفردة. ومن أبرز هذه الطرق عدم اليقين الحتمي العميق (DDU) (Mukhoti et al.، 2021). إن عدم اليقين الحتمي العميق أبسط بكثير من العديد من الطرق المنافسة (Liu et al.، 2020؛ Van Amersfoort et al.، 2020؛ van Amersfoort et al.، 2021)، وينتج نتائج تنافسية وقد تم اقتراحه كمعيار لطرق عدم اليقين. ومن القيود، كما هو موضح في تجاربنا، أن عدم اليقين الحتمي العميق يتطلب أوقات تدريب طويلة وينتج نماذج ذات أداء غير متسق.
نوضح أنه يمكن تحسين DDU بشكل كبير من خلال تطبيع L2 على مساحة الميزة في بنيات ResNet القياسية. بالإضافة إلى تقديم مكاسب الأداء في الدقة واكتشاف OoD، فإن تطبيع L2 يحفز الانهيار العصبي (NC) في وقت أبكر بكثير من التدريب القياسي. تم العثور مؤخرًا على حدوث NC في العديد من بنيات NN عندما يتم تدريبها بشكل مفرط (Papyan et al.، 2020). قد يوفر هذا طريقة لجعل تعقيد الشبكات العصبية العميقة أكثر قابلية للحل، بحيث يمكن تحليلها من خلال البساطة الهندسية والرياضية النسبية لإطارات Equiangular Tight Frames البسيطة (simplex ETF) (Mixon et al.، 2022؛ Zhu et al.، 2021؛ Lu and Steinerberger، 2020؛ Ji et al.، 2021). على الرغم من أن ETF البسيط هذا يقتصر على طبقة الميزة ومصنف القرار، إلا أن هذه الطبقات تلخص قدرًا كبيرًا من وظائف الشبكة. بينما Papyan et al. لإثبات زيادة قوة التحمل التنافسية في ظل التحكم العددي، وعلى حد علمنا، نقدم أول دراسة للعلاقة بين اكتشاف OoD والتحكم العددي.
ونلخص مساهماتنا على النحو التالي:
1) يؤدي تطبيع L2 على مساحة الميزة لنماذج التعلم العميق إلى أداء اكتشاف وتصنيف OoD ينافس أو يتجاوز أداء معيار DDU. والأمر الأكثر أهمية هو أن أسوأ أداء لاكتشاف OoD عبر بذور النموذج قد تحسن بشكل كبير.
2) تنتج النماذج المدربة باستخدام التطبيع L2 على مساحة الميزة فوائد الأداء المذكورة أعلاه بنسبة 17% (ResNet18) إلى 29% (ResNet50) من وقت تدريب معيار DDU. لا يضيف التطبيع L2 المقترح لدينا أي وقت تدريب كبير مقارنة بالنماذج التي لا تحتوي عليه.
3) يؤدي تطبيع L2 على مساحة الميزة إلى تحفيز NC أسرع بخمس مرات من التدريب القياسي. قد يكون التحكم في معدل NC مفيدًا لتحليل سلوك DNN.
4) يرتبط NC باكتشاف OoD بموجب التعديل المقترح على طريقة DDU. لقد أظهرنا أدلة على أن NC السريع يلعب دورًا في تحقيق أداء اكتشاف OoD مع تدريب أقل، وأن التدريب مباشرة على NC له تأثير مختلف بشكل كبير على أداء OoD مقارنة بتدريب الإنتروبيا المتقاطعة القياسية (CE). يسمح هذا الارتباط بين ETFs البسيط الذي ينشأ بشكل طبيعي في DNNs وأداء OoD بإطار تحليلي أنيق لمزيد من الدراسة للآليات الأساسية التي تحكم عدم اليقين والمتانة في DNNs.
هذه الورقة متاحة على arxiv بموجب رخصة CC BY-NC-ND 4.0 DEED.