Tekijät:
(1) Anonyymit kirjoittajat Paperi kaksoissokkoarvioinnissa Jarrod Haas, SARlab, tekniikan laitos Simon Fraser University; Digitalist Group Canada ja [email protected];
(2) William Yolland, MetaOptima ja [email protected];
(3) Bernhard Rabus, SARlab, tekniikan laitos, Simon Fraser University ja [email protected].
Ehdotamme yksinkertaista muutosta ResNet-standardiarkkitehtuureihin – L2-normalisointi ominaisuustilan yli –, joka parantaa merkittävästi jakelun ulkopuolista (OoD) suorituskykyä aiemmin ehdotettuun Deep Deterministic Uncertainty (DDU) -vertailuarvoon verrattuna. Osoitamme, että tämä muutos aiheuttaa myös varhaisen hermoston romahduksen (NC), joka liittyy parempaan OoD-suorituskykyyn. Menetelmämme saavuttaa vertailukelpoiset tai ylivoimaiset OoD-tunnistuspisteet ja luokittelutarkkuuden pienessä osassa vertailun harjoitusaikaa. Lisäksi se parantaa huomattavasti pahimman mahdollisen OoD-suorituskykyä useissa satunnaisesti alustettuissa malleissa. Vaikka emme väitä, että NC on ainoa mekanismi tai kattava selitys OoD-käyttäytymiselle syvissa hermoverkoissa (DNN), uskomme, että NC:n yksinkertainen matemaattinen ja geometrinen rakenne voi tarjota puitteet tämän monimutkaisen ilmiön analysoinnille tulevassa työssä.
On hyvin tiedossa, että Deep Neural Networks (DNN) -verkoilla ei ole kestävyyttä jakelun siirtymisessä, eivätkä ne välttämättä osoita luotettavasti epäonnistumista vastaanotettaessa jakelun ulkopuolisia (OoD) -syötteitä (Rabanser et al., 2018; Chen et al., 2020). Erityisesti verkot voivat antaa luotettavia ennusteita tapauksissa, joissa syötteet ovat täysin epäolennaisia, esim. kuva koneen syötöstä verkkoon, joka on koulutettu luokittelemaan koiria tai kissoja, voi tuottaa korkeita luottamuspisteitä joko koirille tai kissoille. Tämä verkkojen kyvyttömyys "tietää, mitä he eivät tiedä" estää koneoppimisen soveltamisen suunnittelussa ja muilla turvallisuuskriittisillä aloilla (Henne et al., 2020).
Useat viimeaikaiset kehityssuunnat ovat yrittäneet ratkaista tätä ongelmaa, joista laajimmin käytetty ovat Monte Carlo Dropout (MCD) ja yhtyeet (Gal ja Ghahramani, 2016; Lakshminarayanan et al., 2017). Kohtuullisen teoreettisen taustan tukemana MCD:llä ei ole suorituskykyä joissakin sovelluksissa ja se vaatii mallin useita eteenpäinsiirtoja koulutuksen jälkeen (Haas ja Rabus, 2021; Ovadia et al., 2019). Ensemblet voivat tarjota paremman tarkkuuden kuin MCD, sekä paremman OoD-tunnistuksen suuremmissa jakautumissiirtymissä, mutta vaativat huomattavan lisäyksen laskentaan (Ovadia et al., 2019).
Nämä rajoitukset ovat herättäneet kiinnostusta deterministisiä ja yhden eteenpäin meneviä menetelmiä kohtaan. Näistä huomionarvoinen on Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021). DDU on paljon yksinkertaisempi kuin monet kilpailevat lähestymistavat (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), tuottaa kilpailukykyisiä tuloksia ja sitä on ehdotettu mittapuuksi epävarmuusmenetelmille. Kuten kokeissamme näkyy, rajoituksena on, että DDU vaatii pitkiä koulutusaikoja ja tuottaa malleja, joiden suorituskyky on epäjohdonmukainen.
Osoitamme, että DDU:ta voidaan merkittävästi parantaa L2-normalisoinnilla ominaisuustilan yli standardeissa ResNet-arkkitehtuureissa. Sen lisäksi, että L2-normalisointi parantaa suorituskykyä tarkkuudessa ja OoD-tunnistuksessa, se indusoi hermoston romahduksen (NC) paljon aikaisemmin kuin tavallinen harjoittelu. Hiljattain havaittiin, että NC:tä esiintyy monissa NN-arkkitehtuureissa, kun niitä on ylikoulutettu (Papyan et al., 2020). Tämä voi tarjota tavan tehdä syvien hermoverkkojen monimutkaisuudesta helpommin seurattavaa, jotta niitä voidaan analysoida simplex Equiangular Tight Frames (simplex ETF) -kehyksien suhteellisen geometrisen ja matemaattisen yksinkertaisuuden kautta (Mixon et al., 2022; Zhu et al., 2021; Lu ja Steinerberger, 2020; 2020; 2020; Vaikka tämä yksipuolinen ETF rajoittuu ominaisuuskerrokseen ja päätösluokittimeen, nämä kerrokset tiivistävät huomattavan määrän verkon toimintoja. Vaikka Papyan et ai. osoittavat lisääntynyttä kilpailevaa kestävyyttä NC:ssä, parhaan tietomme mukaan esittelemme ensimmäisen tutkimuksen OoD-tunnistuksen ja NC:n välisestä suhteesta.
Tiivistämme panoksemme seuraavasti:
1) L2-normalisointi syväoppimismallien ominaisuusavaruudessa johtaa OoD-tunnistus- ja luokittelusuorituskykyyn, joka on kilpailukykyinen DDU-vertailuarvon kanssa tai ylittää sen. Merkittävin on se, että pahimman tapauksen OoD-tunnistuksen suorituskyky mallin siemenissä on parantunut huomattavasti.
2) Mallit, jotka on koulutettu L2-normalisoinnilla ominaisuustilan yli, tuottavat edellä mainitut suorituskykyedut 17 % (ResNet18) - 29 % (ResNet50) DDU-benchmarkin harjoitusajasta. Ehdottamamme L2-normalisointimme ei lisää merkittävää harjoitusaikaa verrattuna malleihin ilman sitä.
3) L2-normalisointi ominaisuustilan yli indusoi NC:n jopa viisi kertaa nopeammin kuin tavallinen harjoittelu. NC-nopeuden säätäminen voi olla hyödyllistä DNN-käyttäytymisen analysoinnissa.
4) NC on linkitetty OoD-tunnistukseen ehdottamamme DDU-menetelmän muutoksen mukaisesti. Osoitamme todisteita siitä, että nopealla NC:llä on rooli OoD-tunnistussuorituskyvyn saavuttamisessa pienemmällä harjoittelulla ja että suoraan NC:llä harjoittamisella on olennaisesti erilainen vaikutus OoD-suorituskykyyn kuin tavallisella ristientropiaharjoittelulla (CE). Tämä DNN:issä luonnollisesti syntyvien simplex-ETF:ien ja OoD-suorituskyvyn välinen yhteys mahdollistaa tyylikkään analyyttisen kehyksen DNN-verkkojen epävarmuutta ja kestävyyttä säätelevien taustalla olevien mekanismien lisätutkimukselle.
Tämä paperi on saatavilla arxivissa CC BY-NC-ND 4.0 DEED -lisenssillä.