paint-brush
Tämä pieni muutos tekee tekoälymalleista älykkäämpiä tuntemattomien tietojen suhteenkirjoittaja@deeplinking
329 lukemat
329 lukemat

Tämä pieni muutos tekee tekoälymalleista älykkäämpiä tuntemattomien tietojen suhteen

kirjoittaja Deep Linking Technology5m2025/02/07
Read on Terminal Reader

Liian pitkä; Lukea

Tutkijat ehdottavat yksinkertaista muutosta tavallisiin ResNet-arkkitehtuureihin, jotka parantavat huomattavasti OoD-suorituskykyä DDU-benchmarkissa.
featured image - Tämä pieni muutos tekee tekoälymalleista älykkäämpiä tuntemattomien tietojen suhteen
Deep Linking Technology HackerNoon profile picture
0-item

Tekijät:

(1) Anonyymit kirjoittajat Paperi kaksoissokkoarvioinnissa Jarrod Haas, SARlab, tekniikan laitos Simon Fraser University; Digitalist Group Canada ja [email protected];

(2) William Yolland, MetaOptima ja [email protected];

(3) Bernhard Rabus, SARlab, tekniikan laitos, Simon Fraser University ja [email protected].


  • Tiivistelmä ja 1 Johdanto
  • 2 Tausta
    • 2.1 Ongelman määritelmä
    • 2.2 Aiheeseen liittyvät työt
    • 2.3 Deep Deterministinen epävarmuus
    • 2.4 L2 Ominaisuusavaruuden normalisointi ja hermoston romahdus
  • 3 Metodologia
    • 3.1 Mallit ja häviöfunktiot
    • 3.2 Hermoston romahtamisen mittaaminen
  • 4 Kokeilua
    • 4.1 Nopeammat ja kestävämmät OoD-tulokset
    • 4.2 Neuraalisen romahduksen yhdistäminen OoD-tunnistukseen
  • 5 Johtopäätös ja tuleva työ sekä lähteet
    • A Liite
    • A.1 Koulutuksen tiedot
    • A.2 L2-normalisoinnin vaikutus OoD-tunnistuksen Softmax-pisteisiin
    • A.3 GMM:ien sovittaminen Logit Spaceen
    • A.4 Ylikuntoutus L2-normalisoinnilla
    • A.5 Hermoston romahtamisen mittaukset NC-häviön interventioon
    • A.6 Lisäkuvat

Abstrakti

Ehdotamme yksinkertaista muutosta ResNet-standardiarkkitehtuureihin – L2-normalisointi ominaisuustilan yli –, joka parantaa merkittävästi jakelun ulkopuolista (OoD) suorituskykyä aiemmin ehdotettuun Deep Deterministic Uncertainty (DDU) -vertailuarvoon verrattuna. Osoitamme, että tämä muutos aiheuttaa myös varhaisen hermoston romahduksen (NC), joka liittyy parempaan OoD-suorituskykyyn. Menetelmämme saavuttaa vertailukelpoiset tai ylivoimaiset OoD-tunnistuspisteet ja luokittelutarkkuuden pienessä osassa vertailun harjoitusaikaa. Lisäksi se parantaa huomattavasti pahimman mahdollisen OoD-suorituskykyä useissa satunnaisesti alustettuissa malleissa. Vaikka emme väitä, että NC on ainoa mekanismi tai kattava selitys OoD-käyttäytymiselle syvissa hermoverkoissa (DNN), uskomme, että NC:n yksinkertainen matemaattinen ja geometrinen rakenne voi tarjota puitteet tämän monimutkaisen ilmiön analysoinnille tulevassa työssä.

1 Johdanto

On hyvin tiedossa, että Deep Neural Networks (DNN) -verkoilla ei ole kestävyyttä jakelun siirtymisessä, eivätkä ne välttämättä osoita luotettavasti epäonnistumista vastaanotettaessa jakelun ulkopuolisia (OoD) -syötteitä (Rabanser et al., 2018; Chen et al., 2020). Erityisesti verkot voivat antaa luotettavia ennusteita tapauksissa, joissa syötteet ovat täysin epäolennaisia, esim. kuva koneen syötöstä verkkoon, joka on koulutettu luokittelemaan koiria tai kissoja, voi tuottaa korkeita luottamuspisteitä joko koirille tai kissoille. Tämä verkkojen kyvyttömyys "tietää, mitä he eivät tiedä" estää koneoppimisen soveltamisen suunnittelussa ja muilla turvallisuuskriittisillä aloilla (Henne et al., 2020).


Useat viimeaikaiset kehityssuunnat ovat yrittäneet ratkaista tätä ongelmaa, joista laajimmin käytetty ovat Monte Carlo Dropout (MCD) ja yhtyeet (Gal ja Ghahramani, 2016; Lakshminarayanan et al., 2017). Kohtuullisen teoreettisen taustan tukemana MCD:llä ei ole suorituskykyä joissakin sovelluksissa ja se vaatii mallin useita eteenpäinsiirtoja koulutuksen jälkeen (Haas ja Rabus, 2021; Ovadia et al., 2019). Ensemblet voivat tarjota paremman tarkkuuden kuin MCD, sekä paremman OoD-tunnistuksen suuremmissa jakautumissiirtymissä, mutta vaativat huomattavan lisäyksen laskentaan (Ovadia et al., 2019).


Nämä rajoitukset ovat herättäneet kiinnostusta deterministisiä ja yhden eteenpäin meneviä menetelmiä kohtaan. Näistä huomionarvoinen on Deep Deterministic Uncertainty (DDU) (Mukhoti et al., 2021). DDU on paljon yksinkertaisempi kuin monet kilpailevat lähestymistavat (Liu et al., 2020; Van Amersfoort et al., 2020; van Amersfoort et al., 2021), tuottaa kilpailukykyisiä tuloksia ja sitä on ehdotettu mittapuuksi epävarmuusmenetelmille. Kuten kokeissamme näkyy, rajoituksena on, että DDU vaatii pitkiä koulutusaikoja ja tuottaa malleja, joiden suorituskyky on epäjohdonmukainen.


Kuva 1: Kuvaus DDU-menetelmästä julkaisusta Mukhoti et ai. (2021) Vasemmalla: Tässä hypoteettisessa esimerkissä, jossa on kaksiulotteinen piirreavaruus, DDU sopii Gaussin jokaiseen kolmeen luokkaan GMM:n komponentteina, q(y, z). Oikealla: vakiopäätösrajoilla (punainen) tämän tilan upotukset, jotka ovat kaukana (keltaiset pisteet) luokkakeskuksista, merkitään korkealla luotettavuudella (tummemmat alueet ovat korkeampia).


Osoitamme, että DDU:ta voidaan merkittävästi parantaa L2-normalisoinnilla ominaisuustilan yli standardeissa ResNet-arkkitehtuureissa. Sen lisäksi, että L2-normalisointi parantaa suorituskykyä tarkkuudessa ja OoD-tunnistuksessa, se indusoi hermoston romahduksen (NC) paljon aikaisemmin kuin tavallinen harjoittelu. Hiljattain havaittiin, että NC:tä esiintyy monissa NN-arkkitehtuureissa, kun niitä on ylikoulutettu (Papyan et al., 2020). Tämä voi tarjota tavan tehdä syvien hermoverkkojen monimutkaisuudesta helpommin seurattavaa, jotta niitä voidaan analysoida simplex Equiangular Tight Frames (simplex ETF) -kehyksien suhteellisen geometrisen ja matemaattisen yksinkertaisuuden kautta (Mixon et al., 2022; Zhu et al., 2021; Lu ja Steinerberger, 2020; 2020; 2020; Vaikka tämä yksipuolinen ETF rajoittuu ominaisuuskerrokseen ja päätösluokittimeen, nämä kerrokset tiivistävät huomattavan määrän verkon toimintoja. Vaikka Papyan et ai. osoittavat lisääntynyttä kilpailevaa kestävyyttä NC:ssä, parhaan tietomme mukaan esittelemme ensimmäisen tutkimuksen OoD-tunnistuksen ja NC:n välisestä suhteesta.


Tiivistämme panoksemme seuraavasti:


1) L2-normalisointi syväoppimismallien ominaisuusavaruudessa johtaa OoD-tunnistus- ja luokittelusuorituskykyyn, joka on kilpailukykyinen DDU-vertailuarvon kanssa tai ylittää sen. Merkittävin on se, että pahimman tapauksen OoD-tunnistuksen suorituskyky mallin siemenissä on parantunut huomattavasti.


2) Mallit, jotka on koulutettu L2-normalisoinnilla ominaisuustilan yli, tuottavat edellä mainitut suorituskykyedut 17 % (ResNet18) - 29 % (ResNet50) DDU-benchmarkin harjoitusajasta. Ehdottamamme L2-normalisointimme ei lisää merkittävää harjoitusaikaa verrattuna malleihin ilman sitä.


3) L2-normalisointi ominaisuustilan yli indusoi NC:n jopa viisi kertaa nopeammin kuin tavallinen harjoittelu. NC-nopeuden säätäminen voi olla hyödyllistä DNN-käyttäytymisen analysoinnissa.


4) NC on linkitetty OoD-tunnistukseen ehdottamamme DDU-menetelmän muutoksen mukaisesti. Osoitamme todisteita siitä, että nopealla NC:llä on rooli OoD-tunnistussuorituskyvyn saavuttamisessa pienemmällä harjoittelulla ja että suoraan NC:llä harjoittamisella on olennaisesti erilainen vaikutus OoD-suorituskykyyn kuin tavallisella ristientropiaharjoittelulla (CE). Tämä DNN:issä luonnollisesti syntyvien simplex-ETF:ien ja OoD-suorituskyvyn välinen yhteys mahdollistaa tyylikkään analyyttisen kehyksen DNN-verkkojen epävarmuutta ja kestävyyttä säätelevien taustalla olevien mekanismien lisätutkimukselle.


Taulukko 1: OoD-tunnistuksen ja luokittelun tarkkuustulokset ResNet18- ja ResNet50-malleille, 15 siementä koetta kohden, koulutettu CIFAR10:llä, ja SVHN-, CIFAR100- ja Tiny ImageNet -testisarjat, joita käytettiin OoD-tietoina. Kaikille malleille osoitamme, käytettiinkö L2-normalisointia piirreavaruudessa (L2/Ei L2) ja kuinka monta harjoitusjaksoa tapahtui (60/100/350), ja vertaamme DDU-perusviivaan (No L2 350). Huomaa, että AUROC-pisteiden vaihtelu vähenee huomattavasti piirreavaruuden L2-normalisoinnin yhteydessä. Paljon pienemmällä harjoittelulla pahimman mahdollisen OoD-suorituskyky mallin siemenissä paranee huomattavasti perusviivasta ja keskimääräinen suorituskyky paranee tai on kilpailukykyinen kaikissa tapauksissa.


Tämä paperi on saatavilla arxivissa CC BY-NC-ND 4.0 DEED -lisenssillä.