Skrywers:
(1) Anonieme skrywers Referaat onder dubbelblinde resensie Jarrod Haas, SARlab, Departement Ingenieurswetenskappe Simon Fraser Universiteit; Digitalist Group Canada en [email protected];
(2) William Yolland, MetaOptima en [email protected];
(3) Bernhard Rabus, SARlab, Departement Ingenieurswetenskap, Simon Fraser Universiteit en [email protected].
Ons stel 'n eenvoudige wysiging aan standaard ResNet-argitekture voor – L2-normalisering oor kenmerkruimte – wat buite-verspreiding (OoD) werkverrigting aansienlik verbeter op die voorheen voorgestelde Deep Deterministic Uncertainty (DDU) maatstaf. Ons wys dat hierdie verandering ook vroeë neurale ineenstorting (NC) veroorsaak, 'n effek wat gekoppel is aan beter OoD-prestasie. Ons metode behaal vergelykbare of beter OoD-opsporingtellings en klassifikasieakkuraatheid in 'n klein fraksie van die opleidingstyd van die maatstaf. Boonop verbeter dit die ergste geval OoD-prestasie aansienlik oor veelvuldige, ewekansig geïnisialiseerde modelle. Alhoewel ons nie voorstel dat NC die enigste meganisme of 'n omvattende verduideliking vir OoD-gedrag in diep neurale netwerke (DNN) is nie, glo ons dat NC se eenvoudige wiskundige en geometriese struktuur 'n raamwerk vir ontleding van hierdie komplekse verskynsel in toekomstige werk kan verskaf.
Dit is algemeen bekend dat Deep Neural Networks (DNN's) 'n gebrek aan robuustheid vir verspreidingverskuiwing het en moontlik nie betroubaar op mislukking dui wanneer insette buite verspreiding (OoD) ontvang word nie (Rabanser et al., 2018; Chen et al., 2020). Spesifiek, netwerke kan selfversekerde voorspellings gee in gevalle waar insette heeltemal irrelevant is, bv. 'n beeld van 'n vliegtuiginvoer in 'n netwerk wat opgelei is om honde of katte te klassifiseer, kan hoë vertrouetellings vir óf honde óf katte lewer. Hierdie onvermoë vir netwerke om te "weet wat hulle nie weet nie" belemmer die toepassing van masjienleer in ingenieurswese en ander veiligheidskritiese domeine (Henne et al., 2020).
'n Aantal onlangse ontwikkelings het gepoog om hierdie probleem aan te spreek, waarvan die mees gebruikte Monte Carlo Dropout (MCD) en ensembles is (Gal en Ghahramani, 2016; Lakshminarayanan et al., 2017). Alhoewel dit deur 'n redelike teoretiese agtergrond ondersteun word, het MCD 'n gebrek aan prestasie in sommige toepassings en vereis veelvuldige vorentoe-passe van die model na opleiding (Haas en Rabus, 2021; Ovadia et al., 2019). Ensembles kan beter akkuraatheid as MCD bied, sowel as beter OoD-opsporing onder groter verspreidingsverskuiwings, maar vereis 'n aansienlike toename in berekening (Ovadia et al., 2019).
Hierdie beperkings het belangstelling in deterministiese en enkel vorentoe aangee metodes aangespoor. Opvallend onder hierdie is Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021). DDU is baie eenvoudiger as baie mededingende benaderings (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), lewer mededingende resultate en is voorgestel as 'n maatstaf vir onsekerheidsmetodes. 'n Beperking, soos getoon in ons eksperimente, is dat DDU lang opleidingstye vereis en modelle met inkonsekwente werkverrigting produseer.
Ons demonstreer dat DDU aansienlik verbeter kan word via L2-normalisering bo kenmerkspasie in standaard ResNet-argitekture. Behalwe om prestasieverbeterings in akkuraatheid en OoD-opsporing te bied, veroorsaak L2-normalisering neurale ineenstorting (NC) baie vroeër as standaard opleiding. Daar is onlangs gevind dat NC in baie NN-argitekture voorkom wanneer hulle oorgeoefen is (Papyan et al., 2020). Dit kan 'n manier bied om die kompleksiteit van diep neurale netwerke meer hanteerbaar te maak, sodat hulle ontleed kan word deur die relatiewe geometriese en wiskundige eenvoud van simplekse Equiangular Tight Frames (simplex ETF) (Mixon et al., 2022; Zhu et al., 2021; Lu en al. Steinerberger, 202. Steinerberger, 202). Alhoewel hierdie simpleks-ETF beperk is tot die kenmerklaag en besluitklassifiseerder, som hierdie lae 'n aansienlike hoeveelheid netwerkfunksionaliteit op. Terwyl Papyan et al. demonstreer verhoogde teenstrydige robuustheid onder NC, na die beste van ons kennis, bied ons die eerste studie van die verhouding tussen OoD-opsporing en NC aan.
Ons som ons bydraes soos volg op:
1) L2-normalisering oor die kenmerkruimte van diepleermodelle lei tot OoD-opsporing en klassifikasieprestasie wat mededingend is met of die prestasie van die DDU-maatstaf oorskry. Die mees opvallende is dat die ergste geval OoD-opsporingsprestasie oor modelsade aansienlik verbeter word.
2) Modelle wat met L2-normalisering oor kenmerkspasie opgelei is, lewer die voorgenoemde prestasievoordele in 17% (ResNet18) tot 29% (ResNet50) van die opleidingstyd van die DDU-maatstaf. Ons voorgestelde L2-normalisering voeg geen beduidende opleidingstyd by teenoor modelle daarsonder nie.
3) L2 normalisering oor kenmerkspasie veroorsaak NC soveel as vyf keer vinniger as standaard opleiding. Die beheer van die tempo van NC kan nuttig wees vir die ontleding van DNN-gedrag.
4) NC is gekoppel aan OoD-opsporing onder ons voorgestelde wysiging aan die DDU-metode. Ons toon bewyse dat vinnige NC 'n rol speel in die bereiking van OoD-opsporingsprestasie met minder opleiding, en dat opleiding direk op NC 'n wesenlik ander effek op OoD-prestasie het as standaard kruisentropie (CE) opleiding. Hierdie verband tussen simpleks-ETF's wat natuurlik in DNN's voorkom en OoD-prestasie laat 'n elegante analitiese raamwerk toe vir verdere studie van die onderliggende meganismes wat onsekerheid en robuustheid in DNN's beheer.
Hierdie vraestel is beskikbaar op arxiv onder CC BY-NC-ND 4.0 AKTE-lisensie.