ავტორები:
(1) ანონიმური ავტორების ნაშრომი ორმაგად ბრმა მიმოხილვის ქვეშ Jarrod Haas, SARlab, საინჟინრო მეცნიერების დეპარტამენტი Simon Fraser University; Digitalist Group კანადა და [email protected];
(2) უილიამ იოლლანდი, MetaOptima და [email protected];
(3) ბერნჰარდ რაბუსი, SARlab, საიმონ ფრეიზერის უნივერსიტეტის საინჟინრო მეცნიერების დეპარტამენტი და [email protected].
ჩვენ ვთავაზობთ მარტივ მოდიფიკაციას ResNet-ის სტანდარტული არქიტექტურებისთვის – L2 ნორმალიზება ფუნქციების სივრცეში – რაც არსებითად აუმჯობესებს განაწილების გარეშე (OoD) შესრულებას ადრე შემოთავაზებულ ღრმა დეტერმინისტული განუსაზღვრელობის (DDU) საორიენტაციო ნიშნულზე. ჩვენ ვაჩვენებთ, რომ ეს ცვლილება ასევე იწვევს ადრეულ ნერვულ კოლაფსს (NC), ეფექტი, რომელიც დაკავშირებულია OoD-ის უკეთეს შესრულებასთან. ჩვენი მეთოდი აღწევს შესადარებელ ან მაღალ OoD გამოვლენის ქულებს და კლასიფიკაციის სიზუსტეს საორიენტაციო მომზადების დროის მცირე ნაწილში. გარდა ამისა, ის არსებითად აუმჯობესებს უარეს შემთხვევაში OoD შესრულებას მრავალ, შემთხვევით ინიციალიზებულ მოდელზე. მიუხედავად იმისა, რომ ჩვენ არ ვარაუდობთ, რომ NC არის ერთადერთი მექანიზმი ან ყოვლისმომცველი ახსნა OoD ქცევისთვის ღრმა ნერვულ ქსელებში (DNN), ჩვენ გვჯერა, რომ NC-ის მარტივი მათემატიკური და გეომეტრიული სტრუქტურა შეუძლია უზრუნველყოს ამ რთული ფენომენის ანალიზის ჩარჩო მომავალ სამუშაოებში.
ცნობილია, რომ ღრმა ნერვულ ქსელებს (DNN) არ გააჩნიათ გამძლეობა განაწილების ცვლის მიმართ და შეიძლება საიმედოდ არ მიუთითებდეს წარუმატებლობაზე განაწილების გარეშე (OoD) შეყვანის მიღებისას (Rabanser et al., 2018; Chen et al., 2020). კონკრეტულად, ქსელებმა შეიძლება უზრუნველყონ დამაჯერებელი პროგნოზები იმ შემთხვევებში, როდესაც შეყვანები სრულიად შეუსაბამოა, მაგ., თვითმფრინავის გამოსახულება, რომელიც შეყვანილია ქსელში, რომელიც გაწვრთნილია ძაღლების ან კატების კლასიფიკაციისთვის, შეიძლება გამოიწვიოს მაღალი ნდობის ქულები ძაღლებისთვის ან კატებისთვის. ქსელების ეს უუნარობა „იცოდნენ ის, რაც არ იციან“ ხელს უშლის მანქანათმცოდნეობის გამოყენებას ინჟინერიაში და უსაფრთხოების სხვა კრიტიკულ სფეროებში (Henne et al., 2020).
არაერთმა ბოლოდროინდელმა განვითარებამ სცადა ამ პრობლემის მოგვარება, ყველაზე ფართოდ გამოყენებული იყო Monte Carlo Dropout (MCD) და ანსამბლები (Gal and Ghahramani, 2016; Lakshminarayanan et al., 2017). მიუხედავად იმისა, რომ მხარდაჭერილია გონივრული თეორიული ფონი, MCD-ს არ გააჩნია შესრულება ზოგიერთ აპლიკაციაში და მოითხოვს მოდელის მრავალჯერადი წინსვლას ტრენინგის შემდეგ (Haas and Rabus, 2021; Ovadia et al., 2019). ანსამბლებს შეუძლიათ უზრუნველყონ უკეთესი სიზუსტე, ვიდრე MCD, ისევე როგორც უკეთესი OoD გამოვლენა უფრო დიდი განაწილების ცვლილებებში, მაგრამ საჭიროებს გამოთვლების მნიშვნელოვან ზრდას (Ovadia et al., 2019).
ამ შეზღუდვებმა აღძრა ინტერესი განმსაზღვრელი და ერთი წინ გადასვლის მეთოდების მიმართ. მათ შორის აღსანიშნავია ღრმა დეტერმინისტული გაურკვევლობა (DDU) (მუხოტი და სხვ., 2021). DDU ბევრად უფრო მარტივია, ვიდრე ბევრი კონკურენტი მიდგომა (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), აწარმოებს კონკურენტულ შედეგებს და შემოთავაზებულია, როგორც ბენჩმარკი გაურკვევლობის მეთოდებისთვის. შეზღუდვა, როგორც ნაჩვენებია ჩვენს ექსპერიმენტებში, არის ის, რომ DDU მოითხოვს ხანგრძლივი ვარჯიშის დროს და აწარმოებს მოდელებს არათანმიმდევრული ეფექტურობით.
ჩვენ ვაჩვენებთ, რომ DDU შეიძლება არსებითად გაუმჯობესდეს L2 ნორმალიზების მეშვეობით ფუნქციების სივრცეში სტანდარტულ ResNet არქიტექტურებში. სიზუსტისა და OoD-ის გამოვლენის შესრულების მიღწევების მიღმა, L2 ნორმალიზება იწვევს ნერვულ კოლაფსს (NC) ბევრად უფრო ადრე, ვიდრე სტანდარტული ვარჯიში. ცოტა ხნის წინ აღმოჩნდა, რომ NC გვხვდება ბევრ NN არქიტექტურაში, როდესაც ისინი ზედმეტად ვარჯიშობენ (Papyan et al., 2020). ამან შეიძლება უზრუნველყოს ღრმა ნერვული ქსელების სირთულის უფრო დახვეწილი, ისე, რომ მათი გაანალიზება შესაძლებელი იყოს მარტივი ტოლკუთხა მჭიდრო ჩარჩოების შედარებითი გეომეტრიული და მათემატიკური სიმარტივის მეშვეობით (Simplex ETF) (Mixon et al., 2022; Zhu et al., 2021; Jiber, 20, 20; 2021). მიუხედავად იმისა, რომ ეს მარტივი ETF შემოიფარგლება ფუნქციების ფენით და გადაწყვეტილების კლასიფიკატორით, ეს ფენები აჯამებს ქსელის ფუნქციონირების მნიშვნელოვან რაოდენობას. მაშინ როცა პაპიანი და სხვ. ვაჩვენოთ გაზრდილი წინააღმდეგობის გამძლეობა NC-ის პირობებში, ჩვენი ცოდნის მიხედვით, ჩვენ წარმოგიდგენთ პირველ კვლევას OoD გამოვლენასა და NC-ს შორის ურთიერთობის შესახებ.
ჩვენ ვაჯამებთ ჩვენს წვლილს შემდეგნაირად:
1)L2 ნორმალიზება ღრმა სწავლის მოდელების ფუნქციების სივრცეში იწვევს OoD-ის გამოვლენისა და კლასიფიკაციის ეფექტურობას, რომელიც კონკურენტუნარიანია ან აღემატება DDU სტანდარტის შესრულებას. რაც მთავარია, უარეს შემთხვევაში OoD გამოვლენის შესრულება მოდელის თესლებში არსებითად გაუმჯობესებულია.
2)მოდელები, რომლებიც გაწვრთნილნი არიან L2 ნორმალიზებით ფუნქციების სივრცეში, აწარმოებენ მუშაობის ზემოხსენებულ სარგებელს DDU საორიენტაციო დროის 17%-დან (ResNet18) 29%-მდე (ResNet50). ჩვენი შემოთავაზებული L2 ნორმალიზება არ მატებს რაიმე მნიშვნელოვან დროს ტრენინგის მოდელებს მის გარეშე.
3)L2 ნორმალიზება ფუნქციათა სივრცეში იწვევს NC ხუთჯერ უფრო სწრაფად, ვიდრე სტანდარტული ვარჯიში. NC-ის სიჩქარის კონტროლი შეიძლება სასარგებლო იყოს DNN ქცევის გასაანალიზებლად.
4) NC დაკავშირებულია OoD გამოვლენასთან DDU მეთოდის ჩვენი შემოთავაზებული მოდიფიკაციის მიხედვით. ჩვენ ვაჩვენებთ მტკიცებულებას, რომ სწრაფი NC თამაშობს როლს OoD გამოვლენის შესრულების მიღწევაში ნაკლები ვარჯიშით და რომ უშუალოდ NC-ზე ვარჯიშს აქვს არსებითად განსხვავებული ეფექტი OoD შესრულებაზე, ვიდრე სტანდარტული ჯვარედინი ენტროპიის (CE) ვარჯიში. ეს კავშირი მარტივ ETF-ებს შორის, რომლებიც ბუნებრივად წარმოიქმნება DNN-ებში და OoD შესრულება იძლევა ელეგანტურ ანალიტიკურ ჩარჩოს იმ ძირითადი მექანიზმების შემდგომი შესწავლისთვის, რომლებიც მართავენ გაურკვევლობას და სიმტკიცეს DNN-ებში.
ეს ნაშრომი ხელმისაწვდომია arxiv-ზე CC BY-NC-ND 4.0 DEED ლიცენზიით.