paint-brush
Šīs mazās izmaiņas padara AI modeļus viedākus, izmantojot nepazīstamus datusautors@deeplinking
329 lasījumi
329 lasījumi

Šīs mazās izmaiņas padara AI modeļus viedākus, izmantojot nepazīstamus datus

autors Deep Linking Technology5m2025/02/07
Read on Terminal Reader

Pārāk ilgi; Lasīt

Pētnieki piedāvā vienkāršu modifikāciju standarta ResNet arhitektūrām, kas būtiski uzlabo OoD veiktspēju DDU etalonā.
featured image - Šīs mazās izmaiņas padara AI modeļus viedākus, izmantojot nepazīstamus datus
Deep Linking Technology HackerNoon profile picture
0-item

Autori:

(1) Anonīmi autori Dokuments dubultmaskētā pārskatā Jarrod Haas, SARlab, Inženierzinātņu katedra Simona Freizera universitāte; Digitalist Group Canada un [email protected];

(2) William Yolland, MetaOptima un [email protected];

(3) Bernhard Rabus, SARlab, Saimona Freizera universitātes Inženierzinātņu nodaļa un [email protected].


  • Abstract un 1 Ievads
  • 2 Fons
    • 2.1. Problēmas definīcija
    • 2.2. Saistīts darbs
    • 2.3. Dziļa deterministiskā nenoteiktība
    • 2.4. L2. Objekta telpas normalizācija un neironu sabrukums
  • 3 Metodoloģija
    • 3.1 Modeļi un zudumu funkcijas
    • 3.2. Neironu kolapsa mērīšana
  • 4 Eksperimenti
    • 4.1 Ātrāki un stabilāki OoD rezultāti
    • 4.2. Neironu sabrukuma saistīšana ar OoD noteikšanu
  • 5 Secinājumi un turpmākais darbs, un atsauces
    • A pielikums
    • A.1. Informācija par apmācību
    • A.2 L2 normalizēšanas ietekme uz Softmax rādītājiem OoD noteikšanai
    • A.3 GMM uzstādīšana Logit Space
    • A.4 Pārtrenēšanās ar L2 normalizēšanu
    • A.5. Neironu sabrukuma mērījumi NC zuduma iejaukšanās gadījumā
    • A.6 Papildu skaitļi

Abstrakts

Mēs piedāvājam vienkāršu modifikāciju standarta ResNet arhitektūrām — L2 normalizēšanai, izmantojot funkciju telpu —, kas būtiski uzlabo ārpusdistributīvas (OoD) veiktspēju iepriekš ierosinātajā dziļās deterministiskās nenoteiktības (DDU) etalonā. Mēs parādām, ka šīs izmaiņas izraisa arī agrīnu neironu sabrukumu (NC), kas ir saistīts ar labāku OoD veiktspēju. Mūsu metode nodrošina salīdzināmus vai labākus OoD noteikšanas rādītājus un klasifikācijas precizitāti nelielā etalona apmācības laika daļā. Turklāt tas ievērojami uzlabo sliktākā gadījuma OoD veiktspēju vairākos nejauši inicializētos modeļos. Lai gan mēs neuzskatām, ka NC ir vienīgais mehānisms vai visaptverošs skaidrojums OoD uzvedībai dziļajos neironu tīklos (DNN), mēs uzskatām, ka NC vienkāršā matemātiskā un ģeometriskā struktūra var nodrošināt pamatu šīs sarežģītās parādības analīzei turpmākajā darbā.

1 Ievads

Ir labi zināms, ka dziļajiem neironu tīkliem (DNN) trūkst izturības pret sadales maiņu un tie var droši nenorādīt uz kļūmi, saņemot ārpus izplatīšanas (OoD) ievades (Rabanser et al., 2018; Chen et al., 2020). Konkrētāk, tīkli var sniegt pārliecinošas prognozes gadījumos, kad ievades dati ir pilnīgi nenozīmīgi, piemēram, attēls ar plaknes ievadi tīklā, kas apmācīts klasificēt suņus vai kaķus, var radīt augstus ticamības rādītājus gan suņiem, gan kaķiem. Šī tīklu nespēja "zināt to, ko viņi nezina" kavē mašīnmācības izmantošanu inženierzinātnēs un citās drošībai kritiskās jomās (Henne et al., 2020).


Vairāki jaunākie notikumi ir mēģinājuši risināt šo problēmu, un visplašāk izmantotie ir Monte Carlo Dropout (MCD) un ansambļi (Gal un Ghahramani, 2016; Lakshminarayanan et al., 2017). Lai gan to atbalsta saprātīgs teorētiskais pamatojums, dažās lietojumprogrammās MCD trūkst veiktspējas, un pēc apmācības ir nepieciešamas vairākas modeļa uz priekšu (Haas un Rabus, 2021; Ovadia et al., 2019). Ansambļi var nodrošināt labāku precizitāti nekā MCD, kā arī labāku OoD noteikšanu lielākās izplatīšanas nobīdēs, taču tiem ir nepieciešams ievērojams skaitļošanas pieaugums (Ovadia et al., 2019).


Šie ierobežojumi ir veicinājuši interesi par deterministiskām un vienas pārejas metodēm. Starp tiem ievērojama ir dziļa deterministiskā nenoteiktība (DDU) (Mukhoti et al., 2021). DDU ir daudz vienkāršāka nekā daudzas konkurējošas pieejas (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), rada konkurētspējīgus rezultātus un ir ierosināts kā etalons nenoteiktības metodēm. Ierobežojums, kā parādīts mūsu eksperimentos, ir tāds, ka DDU ir nepieciešams ilgs apmācības laiks un tiek ražoti modeļi ar nekonsekventu veiktspēju.


1. attēls: DDU metodes ilustrācija no Mukhoti et al. (2021) Pa kreisi: šajā hipotētiskajā piemērā ar divdimensiju pazīmju telpu DDU iederas Gauss katrā no trim klasēm kā GMM komponentiem, q(y, z). Pa labi: ar standarta lēmumu robežām (sarkanā krāsā) iegulumi šajā telpā, kas atrodas tālu (dzelteni punkti) no klases centroīdiem, ir marķēti ar augstu ticamību (tumšāki apgabali nodrošina lielāku ticamību).


Mēs parādām, ka DDU var būtiski uzlabot, izmantojot L2 normalizēšanu, izmantojot funkciju vietu standarta ResNet arhitektūrā. Papildus veiktspējas uzlabošanai precizitātes un OoD noteikšanas jomā L2 normalizēšana izraisa nervu kolapsu (NC) daudz agrāk nekā standarta apmācība. Nesen tika atklāts, ka NC parādās daudzās NN arhitektūrās, kad tās ir pārtrenētas (Papyan et al., 2020). Tas var nodrošināt veidu, kā padarīt dziļo neironu tīklu sarežģītību vieglāk izsekojamu, lai tos varētu analizēt, izmantojot simplekso Equiangular Tight Frames (simplex ETF) relatīvo ģeometrisko un matemātisko vienkāršību (Mixon et al., 2022; Zhu et al., 2021; Lu un Steinerberger, 2, 2, 020, 2). Lai gan šis vienkāršās ETF ir ierobežots līdz funkciju slānim un lēmumu klasifikatoram, šie slāņi apkopo ievērojamu tīkla funkcionalitātes apjomu. Kamēr Papjans et al. demonstrējot paaugstinātu pretrunīgo noturību saskaņā ar NC, cik mums ir zināms, mēs piedāvājam pirmo pētījumu par saistību starp OoD noteikšanu un NC.


Mēs apkopojam savu ieguldījumu šādi:


1) L2 normalizācija dziļās mācīšanās modeļu funkciju telpā nodrošina OoD noteikšanas un klasifikācijas veiktspēju, kas ir konkurētspējīga ar DDU etalona veiktspēju vai pārsniedz to. Vissvarīgākais ir tas, ka sliktākā gadījuma OoD noteikšanas veiktspēja modeļa sēklās ir ievērojami uzlabota.


2) Modeļi, kas apmācīti ar L2 normalizēšanu pa funkciju vietu, nodrošina iepriekšminētos veiktspējas ieguvumus no 17% (ResNet18) līdz 29% (ResNet50) no DDU etalona apmācības laika. Mūsu piedāvātā L2 normalizācija nepalielina būtisku apmācības laiku salīdzinājumā ar modeļiem bez tā.


3) L2 normalizēšana, izmantojot funkciju telpu, izraisa NC pat piecas reizes ātrāk nekā standarta apmācība. NC ātruma kontrole var būt noderīga, lai analizētu DNN uzvedību.


4) NC ir saistīts ar OoD noteikšanu saskaņā ar mūsu ierosināto DDU metodes modifikāciju. Mēs parādām pierādījumus tam, ka ātrai NC ir nozīme OoD noteikšanas veiktspējas sasniegšanā ar mazāku apmācību un ka apmācībai tieši uz NC ir būtiski atšķirīga ietekme uz OoD veiktspēju nekā standarta krusteniskās entropijas (CE) apmācībai. Šī saikne starp simpleksiem ETF, kas dabiski rodas DNN un OoD veiktspēju, ļauj izveidot elegantu analītisko sistēmu, lai turpinātu pētīt pamatā esošos mehānismus, kas nosaka DNN nenoteiktību un robustumu.


1. tabula. OoD noteikšanas un klasifikācijas precizitātes rezultāti ResNet18 un ResNet50 modeļiem, 15 sēklas vienā eksperimentā, apmācītas CIFAR10, un SVHN, CIFAR100 un Tiny ImageNet testa komplekti, kas izmantoti kā OoD dati. Visiem modeļiem mēs norādām, vai tika izmantota L2 normalizēšana pa funkciju telpu (L2/No L2) un cik apmācības periodi notika (60/100/350), un salīdzinām ar DDU bāzes līniju (Nr. L2 350). Ņemiet vērā, ka AUROC rādītāju mainīgums ir ievērojami samazināts, normalizējot funkciju telpu L2. Ar daudz mazāku apmācību sliktākā gadījuma OoD veiktspēja starp modeļu sēklām ievērojami uzlabojas salīdzinājumā ar sākotnējo līmeni, un vidējā veiktspēja uzlabojas vai ir konkurētspējīga visos gadījumos.


Šis papīrs ir pieejams vietnē arxiv saskaņā ar CC BY-NC-ND 4.0 DEED licenci.