Ինչու է AI-ն պետք է կորցնի (մի քիչ) ձեր դեմքը ավելի լավ ճանաչելու համար

Վերջին տարիներին զգալի առաջընթաց է գրանցվել դեմքի ճանաչման ոլորտում: Այս վերանայումն առաջարկում է հիմնական առաջադրանքների, մոդելների և լուծման մեթոդների համառոտ ակնարկ՝ կենտրոնանալով կորստի գործառույթների էվոլյուցիայի վրա:

Պարզ ասած՝ դեմքի ճանաչումը մարդու ինքնությունը պարզելու կամ ստուգելու մեթոդ է՝ օգտագործելով լուսանկարներ, տեսանյութեր կամ իրական ժամանակի կադրեր: Այս վերանայումը կուսումնասիրի նույնականացումը՝ հիմնված մեկ թվային պատկերի կամ վիդեո շրջանակի վրա:

Դեմքի ճանաչում և դրա իրականացում

Դեմքի ճանաչումը (FR) ունի լայնածավալ կիրառություններ: Այն օգտագործվում է ֆինանսական ոլորտում՝ կիբերանվտանգության, տեսահսկման, խելացի տան ծառայությունների, բազմագործոն նույնականացման և այլնի մեջ:

Այս գործնական կիրառություններից դուրս, FR մոդելները նաև առանցքային դեր են խաղում ժամանակակից գեներատիվ մոդելներում: Դրանք սովորաբար օգտագործվում են նույնականացման կորստի համար Դեմքի վերականգնման մոդելներում, ինչպիսիք են GFPGAN-ը և CodeFormer-ը, Face Swapping գործիքները, ինչպիսիք են SimSwap-ը և FaceShifter-ը, Image-to-Image GAN-ի վրա հիմնված մոդելները, ինչպիսիք են pSp-ը և HyperStyle-ը, ինչպես նաև տրանսֆորմատորների վրա հիմնված և կայուն դիֆուզիոն մոդելներում ինքնության պահպանման համար:

ArcFace (2018–2019) նույնականացման կորստի ամենաշատ օգտագործվող ֆունկցիան է, մինչդեռ CosFace (2018) և FaceNet-ը շատ ավելի քիչ են օգտագործվում:

Այս վերանայման համար ես կկենտրոնանամ այն բանի վրա, թե ինչպես է փոխվել FR լանդշաֆտը ArcFace-ից հետո, հատկապես վերջին տարիներին:

Դեմքի ճանաչման խողովակաշարի համառոտ ակնարկ

Fce-ի ճանաչումը պահանջում է որոշակի նախնական մշակում. դեմքի հայտնաբերում, կտրում և հավասարեցում: Նախամշակումը պետք է լինի նույնը թե՛ վերապատրաստման, թե՛ փորձարկման տվյալների համար՝ սովորաբար օգտագործելով FFHQ-ի նմանվող հավասարեցում (Flickr-Faces-HQ Dataset): Սովորաբար դրա համար օգտագործվում են երկու առանձին լրացուցիչ դետեկտորներ՝ դեմքի սահմանափակող տուփի դետեկտոր և դեմքի ուղենիշային դետեկտոր: Կան վերջնական մոդելներ՝ դասավորվածությամբ, որոնք վերապատրաստվում են հիմնական մոդելի հետ միասին, բայց ես դրանք չեմ համարում վերանայման այս մասում: Այստեղ մենք ենթադրում ենք, որ ուսուցման և փորձարկման տվյալների հավաքածուները միատեսակ կտրված են և հավասարեցված: Այսպիսով, մոդելը սնվում է կտրված և հավասարեցված մուտքերով:

FR առաջադրանքի համար ուսուցման տվյալների բազայում կան մի քանի պատկերներ յուրաքանչյուր ինքնության (անձի) համար: Մոդելի խնդիրն է սովորել տարբերել նույն անձին պատկանող լուսանկարները տարբեր մարդկանց լուսանկարներից։

Մոդելը սովորաբար բաղկացած է երկու բաղադրիչից.

ողնաշար. Ողնաշարը, որը կարող է նաև կոչվել հատկանիշի արդյունահանող, վերցնում է նախապես մշակված դեմքի լուսանկարը որպես մուտքագրում և թողարկում է ներկառուցման առանձնահատկությունների վեկտորը: Դասական ողնաշարը կոնվոլյուցիոն նեյրոնային ցանցերն են (CNN), ինչպիսիք են ResNet, VGGNet, ResFace, SE-ResNet և այլն: Սրանք կարող են լինել նաև VisionTransformer կամ Feature Pyramid Network մոդելները կամ դրանց ավելի բարդ տարբերակները: Վերանայման այս մասում մենք մանրամասն չենք խոսի մոդելների ողնաշարի մասին:
Կորստի գործառույթ. Վերապատրաստման փուլում կիրառվում է կորստի ֆունկցիա՝ ողնաշարի մարզումը վերահսկելու համար: Թրեյնինգի նպատակն է ձեռք բերել մոդել, որը կստեղծի սերտ ներկառուցումներ նույն մարդու տարբեր լուսանկարների համար, իսկ հեռավորները՝ տարբեր մարդկանց դեմքերի համար: Մենք խոսում ենք ներկառուցված վեկտորների միջև հեռավորությունը չափելու մասին՝ օգտագործելով, օրինակ, կոսինուսային հեռավորությունը կամ L2 հեռավորությունը։

Կորստի գործառույթների տեսակները

Զույգի վրա հիմնված կորուստ

Առաջին կատեգորիան կոչվում է «զույգերի վրա հիմնված կորուստ», երբեմն դրանք կոչվում են «մետրական ուսուցման վրա հիմնված մեթոդներ».

Այս մեթոդները կա՛մ միավորում են դրական և բացասական նմուշների զույգերը մոդելային ուսուցումից առաջ, կա՛մ դինամիկ կերպով համատեղում են օրինակելի զույգերը առցանց դասընթացի ընթացքում: Այս երկու ռեժիմները թույլ են տալիս արդյունահանել դեմքի բովանդակալից պատկերներ նմուշի մակարդակով, բայց երկրաչափականորեն կմեծացնեն տվյալների չափը:

Եռյակի կորստի օգտագործմամբ ուսուցման սխեման այսպիսի տեսք ունի. Միևնույն պիտակով երկու օրինակները պետք է իրենց ներդիրները մոտ լինեն ներկառուցման տարածքում: Տարբեր պիտակներով երկու օրինակներ ունեն իրենց ներդիրները հեռու:

Տվյալների հավաքածուի չափի հետ հնարավոր զույգերի քանակի արագ աճը ստիպում է մեզ փնտրել զույգերի ընտրության ռազմավարություններ, որոնք սովորաբար էմպիրիկ են և հաշվողականորեն բարդ:

Դասակարգման վրա հիմնված կորուստ

Մեկ այլ կատեգորիա կոչվում է «դասակարգման վրա հիմնված կորուստ» կամ երբեմն կոչվում է «ուսուցման վրա հիմնված նախատիպի մեթոդներ». Softmax կորուստ, CosFace, ArcFace, NormFace: Նրանք աշխատում են դասերի մասին ընդհանրացված տեղեկատվության հետ՝ օգտագործելով նախատիպը, որը նաև կոչվում է դասի վստահված անձի կամ դասի կենտրոն: Նախատիպերը սովորելի պարամետրեր են, որոնք թարմացվում են մոդելային ուսուցման ընթացքում: Ներկայումս դասակարգման վրա հիմնված կորուստները հիմնականում օգտագործվում են դեմքի ճանաչման մոդելների համար:

Դասակարգման վրա հիմնված կորուստների պատմություն

Եթե FR առաջադրանքը դիտարկենք որպես դասակարգում, ապա կարող ենք օգտագործել softmax կորուստը (մեկ այլ անուն՝ կատեգորիկ խաչաձև էնտրոպիայի կորուստ)։ Ըստ էության, Softmax-ի կորուստը Softmax-ի ակտիվացման գործառույթ է + Cross-Entropy կորուստ:

Հիշենք բանաձևերը. Առաջինը Softmax-ի ակտիվացումն է, իսկ երկրորդը՝ Cross-Entropy կորուստը:

Համակցելով ստանալ.

Կորստի ֆունկցիան ստանում է վերջին լիովին միացված շերտի արդյունքը, որտեղ 𝒙𝒊 նշանակում է 𝑖-րդ մարզման պատկերի ներկառուցման հատկանիշը, 𝑦𝑖 պիտակը 𝒙𝒊 է, իսկ 𝑾 նշանակում է վերջին լիովին միացված շերտի քաշը։

Սա աշխատում է, բայց խնդիր կա՝ դասերի միջև սահմանները լղոզված են: FR-ում նոր քայլ կատարվեց 2018 թվականին՝ ArcFace մոդելի հայտնվելով։ Հիմքը մնում է softmax կորուստը, բայց մենք անցնում ենք վեկտորների միջև անկյունների դիտարկմանը: Հիշենք կոսինուսի նմանության բանաձևը.

Եկեք փոխարինում կատարենք softmax կորստի բանաձևում

Այնուհետև ավելացվում է լուսանցք, որպեսզի ներդասային անկյուններն ավելի փոքր լինեն, իսկ միջդասային անկյունները՝ ավելի մեծ: Սա դասերի միջև բաց է տալիս softmax կորստի մշուշոտ սահմանների փոխարեն:

Նմանատիպ մեթոդներ. եթե cos(θ + m)-ը փոխարինենք cos θ − m-ով, կստանանք CosFace կորուստ:

Softmax-ի վրա հիմնված մեթոդներում նախատիպը համարվում է պահված վերջին գծային շերտի գործակիցների մատրիցայում, այսինքն՝ Pi = Wi, նախատիպը թարմացվում է՝ օգտագործելով իր գրադիենտը հետտարածման մեջ (այդ պատճառով էլ հայտնվեց «նախատիպի ուսուցման վրա հիմնված մեթոդներ» անվանումը։

Այստեղից է սկսվում FR-ի համար ժամանակակից կորուստների գործառույթների պատմությունը: Տարիների ընթացքում ի հայտ են եկել բազմաթիվ փոփոխություններ և բարելավումներ, սակայն վերը նշված բանաձևերը բավարար են հետագա նյութը հասկանալու համար։

ArcFace ենթակենտրոն

Բարելավումներից մեկը հայտնվել է 2020 թվականին, այն կոչվում է Sub-center ArcFace և նախատեսված է աղմկոտ տվյալների հավաքածուների համար։ Կոմպակտության ներդասակարգային սահմանափակումը հանգեցնում է աղմկոտ տվյալների չափից ավելի տեղակայմանը: ArcFace ենթակենտրոնը ներկայացնում է ենթադասեր: Վերապատրաստման խմբաքանակի նմուշը պետք է մոտ լինի դրական ենթակենտրոններից մեկին, ոչ բոլորին: Սա նվազեցնում է աղմուկի ազդեցությունը տվյալների վրա:

2020 թ. թուղթ , insightface իրականացում

Ե՛վ ArcFace, և՛ Sub-center ArcFace մոդելներն ունեն ներդրում insightface գրադարանի ներսում՝ ներառյալ ուսուցման կոդը և նախապես պատրաստված կշիռները:

Insightface-ն ունի ArcFace-ի ներդրում տարբեր հիմքերով՝ iresnet (34,50,100,200,2060), mobilefacenet, vit (VisionTransformer):

Տարբեր ողնաշարի դիտարկումը դուրս է այս հոդվածի շրջանակներից, ուստի ես կներկայացնեմ միայն այն ողնաշարի անունները, որոնք օգտագործվում են դիտարկվող յուրաքանչյուր կորուստի հետ կապված: Շատ դեպքերում կորուստների հեղինակները չեն փորձել ընտրել օպտիմալ ողնաշարը, այլ պարզապես օգտագործել են հայտնիներից մեկը կամ այն, որն օգտագործվել է այն մոդելներում, որոնց հետ ցանկանում էին համեմատություն անել։

Վերապատրաստման համար օգտագործվել են MS1M, Glint360K, WebFace42M տվյալների հավաքածուները:

Ճկուն մարժա

Դեմքի ճանաչման մեթոդների հիմնական մարտահրավերը տվյալների աղմուկն է: Նախատիպային ուսուցման վրա հիմնված մեթոդները զգայուն են նախատիպի կողմնակալության նկատմամբ, որը ներկայացնում է աղմուկը: Չափազանցման և թերհարմարեցման միջև հավասարակշռության ձևերից մեկը մարժայի կարգավորումն է, որը հիմնական պարամետրն է softmax-բազային կորուստների դեպքում:

AdaCos

Սանդղակը և անկյունային լուսանցքը կարգավորելու առաջին մեթոդներից մեկը կոսինուսի վրա հիմնված softmax կորուստների համար, ինչպիսիք են L2-softmax, CosFace և ArcFace:

Իրականացնում է էմպիրիկ սկզբունքը, որ ուսուցման արագությունը պետք է դանդաղի, քանի որ ցանցը օպտիմալացվում է: Հոդվածում ներկայացված է մոդուլացնող փոփոխական, որը հավասար է մինի խմբաքանակի բոլոր անկյունների միջինին համապատասխան դասերի համար, որը մոտավորապես ներկայացնում է մոդելի օպտիմալացման ներկայիս աստիճանը: Երբ միջին անկյունը մեծ է, ցանցի պարամետրերը հեռու են օպտիմալից և կիրառվում են ավելի մեծ մասշտաբներ և լուսանցքներ, և հակառակը:

2019թ. թուղթ , pytorch-ի իրականացում (բայց ոչ նախապես պատրաստված կշիռներ)

Վերապատրաստվել է CASIA-WebFace և MS1M տվյալների շտեմարանների վրա, մուտքային թույլտվություն 144 × 144: Փորձարկվել է LFW, MegaFace և IJB-C տվյալների հավաքածուների վրա՝ համեմատած L2-softmax, CosFace և ArcFace կորուստների հետ:

Անցած տարիների ընթացքում FR-ում հարմարվողական մարժան կիրառելու մի քանի ուղենիշ մեթոդներ են ի հայտ եկել, ինչպիսիք են Dyn-ArcFace (2022), MagFace (2021), ElasticFace (2021), բայց մենք կկենտրոնանանք այս ոլորտում վերջին աշխատանքներից մեկի վրա՝ X2-Softmax (2023):

X2-Softmax

AdaCos-ի համեմատ X2-Softmax-ը փորձում է հաշվի առնել դասերի անհավասար բաշխումը: Ֆիքսված լուսանցքը, որը հարմար է որոշ դասերի միջև, կարող է չափազանց մեծ լինել այլ դասերի միջև համընկնելու համար կամ չափազանց փոքր՝ որոշ այլ դասերի միջև դեմքի դիմագծերի զգալի ներդասակարգային կոմպակտությունը խթանելու համար:

2023 թ. թուղթ , pytorch-ի իրականացում

Մեծ անկյուններով դասերի համար կոմպակտությունը մեծացնելու համար անհրաժեշտ է մեծ լուսանցք, փոքր անկյուններով դասերի համար՝ ավելի փոքր:

Եկեք հիշենք softmax-ի վրա հիմնված կորուստների ընդհանուր բանաձևը.

Այստեղ, այնպիսի կորուստների համար, ինչպիսիք են ArcFace-ը կամ CosFace-ը, տարբերվում է միայն logits ֆունկցիան f(θ): X2-Softmax կորստի ֆունկցիայի համար այն ունի հետևյալ տեսքը.

Ավանդական softmax-ի վրա հիմնված կորուստները օգտագործում են կոսինուս, բայց կոսինուսը վերածվում է քառակուսի ֆունկցիայի, երբ ընդլայնվում է Taylor շարքի, ուստի X2-Softmax-ի համար ընտրվում է քառակուսի ֆունկցիա: X-ի բարձր կարգի պայմանները մերժելը և հաստատուն և քառակուսի անդամները պահպանելը կարող է խուսափել մոդելի գերհամապատասխանությունից:

Այստեղ a, h և k-ը հիպերպարամետրեր են. h և k-ը որոշում են լոգիտս ֆունկցիայի կորի գագաթային դիրքը, իսկ a-ն որոշում է կորի բացման ուղղությունը և կլաստերավորման աստիճանը։

X2-Softmax-ում, երբ θ կշիռների միջև անկյունը մեծանում է, Δθ անկյունային լուսանցքը միաժամանակ միապաղաղ մեծանում է:

Եվս երկու նմանատիպ դասերի համար փոքր մարժան հեշտացնում է մոդելի մերձեցումը: Երկու ավելի քիչ նման դասերի համար ավելի մեծ լուսանցք կհատկացվի դեմքի հատկությունների միջդասակարգային բաժանումը բարձրացնելու համար:

Վերապատրաստման համար հեղինակներն ընտրել են Resnet50 ողնաշարը: Մոդելը վերապատրաստվել է MS1Mv3 տվյալների բազայի վրա (հիմնված MS-Celeb-1M-ի վրա, որը նախապես մշակվել է RetinaFace-ի կողմից՝ աղմկոտ պատկերները հեռացնելու համար) – 93 հազար ինքնություն և 5,1 միլիոն դեմքի պատկերներ:

SFace. սիգմոիդով սահմանափակված հիպերսֆերայի կորուստ՝ դեմքի կայուն ճանաչման համար

Ճկուն մարժաներով կորուստների մեծ մասը մնում է softmax-ի վրա հիմնված կորուստների մեջ, սակայն կան բացառություններ: SFace-ը հրաժարվում է softmax-ի վրա հիմնված կորուստներից, բայց պահպանում է ներդասակարգային և միջդասակարգային հեռավորությունների օպտիմալացման գաղափարը: Մոդելը ներդասային և միջդասային սահմանափակումներ է դնում հիպերսֆերային բազմազանության վրա, որոնք կառավարվում են երկու սիգմոիդ կորերով։ Կորերը փոխակերպում են գրադիենտները՝ վերահսկելով այն արագությունը, որով փոխվում են գործակիցները, երբ նրանք մոտենում են թիրախի կամ օտար դասի կենտրոնին:

2022 թ. թուղթ , pytorch-ի իրականացում (Նախապես մարզված կշիռները հասանելի են նաև ներբեռնման համար)

Ուղղակի մարժայի օպտիմիզացման մեթոդների համեմատ՝ սա ավելի նուրբ հավասարակշռություն է ապահովում գերհարմարեցման և անբավարար տեղադրման միջև՝ առանձին աղմկոտ նմուշների ավելի քիչ ազդեցություն վերջնական կորստի վրա:

Դեմքի ներկառուցումը սահմանափակելու գաղափարը, որպեսզի դրանք խտրական լինեն հիպերսֆերային բազմազանության վրա, արդեն տեսել են, օրինակ, Sphereface-ում (Deep hypersphere embedding for face recognition, 2017):

Նպատակն է նվազեցնել ներդասակարգային հեռավորությունը և մեծացնել միջդասակարգային հեռավորությունը, այնպես որ սիգմոիդով սահմանափակված հիպերսֆերայի կորուստը կարող է ձևակերպվել որպես.

Որտեղ 𝜃𝑦𝑖 անկյունային հեռավորությունն է 𝑖-րդ մարզման պատկերի ներկառուցման հատկանիշի և համապատասխան նախատիպի միջև: 𝜃j-ն անկյունային հեռավորությունն է օտար նախատիպերին:

Գործառույթներ 𝑟𝑖𝑛𝑡𝑟 և 𝑟𝑖𝑛𝑡𝑒𝑟 գործառույթները, որոնք նախատեսված են համապատասխանաբար ներդասակարգային և միջդասակարգային նպատակները վերամշակելու և օպտիմալացման աստիճանը վերահսկելու համար: [·]𝑏-ը բլոկային գրադիենտ օպերատորն է, որը թույլ չի տալիս հաշվի առնել իր մուտքերի ներդրումը հաշվողական գրադիենտների համար:

Սիգմոիդ ֆունկցիաները ընտրվում են որպես գրադիենտ վերամաշտաբային ֆունկցիաներ.

Հեղինակները ընտրել են սիգմոիդ ֆունկցիաները որպես գրադիենտ վերասանդղակի ֆունկցիաներ.

𝑠 երկու սիգմոիդ կորերի վերին ասիմպտոտն է՝ որպես գրադիենտի սկզբնական սանդղակ, իսկ 𝑘-ը սիգմոիդ կորերի թեքության կառավարումն է։ Հիպերպարամետրերը 𝑎 և 𝑏 որոշում են երկու սիգմոիդ կորերի հորիզոնական հատումը և իրականում վերահսկում են ճկուն միջակայքը՝ ճնշելու շարժման արագությունը:

Համեմատած softmax-ի վրա հիմնված կորստի ֆունկցիաների հետ՝ SFace-ի և՛ ներդասային, և՛ միջդասային հեռավորությունը կարող է սահմանափակվել նախագծված աստիճանով, ուստի կարելի է օպտիմալացնել չափավոր եղանակով, ինչը հենց SFace-ի առավելությունն է:

Վերապատրաստման համար հեղինակներն ընտրել են ResNet backbone-ը (ինչպես Arcface-ի համար):

Մոդելը վերապատրաստվել է CASIA-WebFace, VGGFace2 և MS-Celeb-1M տվյալների հավաքածուների վրա:

Նախատիպը որպես բաշխում

Աղմկոտ տվյալների հետ գործ ունենալու մեկ այլ միջոց է նկատի ունենալ, որ մեկ ինքնության ներկառուցումը (մեկ անձի պատկանող բոլոր դեմքերի համար) ոչ թե տարածության կետ է, այլ ավելի շուտ բաշխում, որն ունի ակնկալիք, շեղում և կարող է ունենալ արտանետումներ:

VPL (Variational Prototype Learning)

Դեմքի ճանաչման ժամանակ զույգերի վրա հիմնված կորուստները լքվեցին մարզումների բարդության պատճառով, բայց աշխատելով միջինացված նախատիպերի հետ՝ մենք կորցնում ենք որոշ տեղեկություններ: Նախատիպի վրա հիմնված մոտեցման դեպքում ուսուցումը կարող է խրվել տեղային մինիմումներում կամ գերազանցել նախատիպերի վրա դրսևորումների ազդեցության պատճառով:

2021 թ. թուղթ , insightface իրականացում

VPL – յուրաքանչյուր դասը ներկայացնում է որպես բաշխում, այլ ոչ թե որպես կետ լատենտ տարածության մեջ:

VPL-ն օպտիմիզացնում է ուսուցման հավաքածուի օրինակների և մի շարք փոփոխական նախատիպերի նմանությունը, որոնք ընտրված են դասակարգային բաշխումից:

Նախատիպերի բաշխումը պահվում է M-ում և քայքայվում Δt քայլերի ընթացքում: Հեղինակները վերապատրաստել են կորուստը ResNet50, ResNet100 և MXNet ողնաշարով, իսկ MXNet-ն ընտրվել է որպես վերջնական փորձարկման համար: MS1M տվյալների բազան օգտագործվում է վերապատրաստման համար, դեմքի մշակաբույսերի մուտքային չափը 112×112 է:

Կան մի քանի մոտեցումներ, որոնք շարունակում են նախատիպի վրա հիմնված մեթոդները լրացնելու թեման զույգերի վրա հիմնված կորուստների առավելություններով (կամ այլ կերպ կոչվում են նմուշից նմուշի վրա հիմնված մոդելներ), ինչպիսիք են UniTSFace (2023) կամ UNPG (Unified Negative Pair Generation to Well-discriminative Feature Space for Face Recognition): Այս հոդվածում ես կկենտրոնանամ նորագույն կորուստներից մեկի վրա՝ EPL:

EPL. Էմպիրիկ նախատիպի ուսուցում դեմքի խորը ճանաչման համար

Մարգինայի վրա հիմնված softmax կորստի դեպքում կորուստը հաշվարկվում է նախատիպերի (դասի կենտրոնների) համեմատությամբ. մեկ դասի բոլոր նմուշները վերապատրաստման գործընթացում քաշվում են ընդհանուր կենտրոն: Որը համարվում է միջինը վերապատրաստման գործընթացի ընթացքում և մեծապես ազդում է օրինակների արտանետումների վրա, որոնք կարող են շեղել նախատիպային կենտրոնը: Softmax-ի վրա հիմնված մեթոդներում նախատիպը համարվում է պահված վերջին գծային շերտի գործակիցների մատրիցայում, այսինքն՝ Pi = Wi, նախատիպը թարմացվում է՝ օգտագործելով իր գրադիենտը հետտարածման մեջ, իսկ կորստի ֆունկցիան առավելագույնի է հասցնում օրինակների հատկանիշների և համապատասխան նախատիպերի նմանությունը:

2024 թ. թուղթ , pytorch-ի իրականացում (Նախապես մարզված կշիռները հասանելի են նաև ներբեռնման համար)

EPL-ում նախատիպերը ստեղծվում և թարմացվում են.

Պարապմունքների սկզբում պատահականորեն
Մոդելի վերապատրաստման ընթացքում յուրաքանչյուր օրինակ (X) իր հատկանիշներով x = E(X) թարմացնում է համապատասխան էմպիրիկ նախատիպը Pi(e), որտեղ E-ն դեմքի կոդավորիչ է.

Այն դեպքում, երբ «α»-ն հարմարվողական թարմացման գործակիցն է, որը ստեղծվել է x հատկանիշի և դրա նախատիպի միջոցով, «σ»-ը ակտիվացման ֆունկցիա է՝ թարմացման գործակիցը համապատասխան տիրույթում հարմարեցնելու համար, իսկ s(·, ·)-ը նմանության ֆունկցիա է, որը սովորաբար ընդունվում է որպես կոսինուսի ֆունկցիա:

Էմպիրիկ նախատիպը թարմացվում է միայն «դրական» օրինակների միջոցով՝ խուսափելու հարևան դասերի արտանետումների ազդեցությունից:

Ուսուցման գործընթաց. կոդավորիչը հանում է առանձնահատկությունները, α հարմարվողական գործակիցները հաշվարկվում են էմպիրիկ նախատիպը թարմացնելու համար, հատկանիշների և նախատիպերի միջև նմանությունները օգտագործվում են կոդավորիչի վերապատրաստման կորուստը հաշվարկելու համար:

Ե՛վ նախատիպի ուսուցման, և՛ էմպիրիկ նախատիպի ուսուցման հնարավորությունները համակողմանիորեն օգտագործելու համար EPL-ը միավորում է դրանք միասին որպես գումար և ներկայացնում է հստակ սահմաններ: ResNet backbone-ը օգտագործվել է վերապատրաստման համար, իսկ CASIA-WebFace-ը որպես ուսումնական տվյալների բազա: Մոդելը փորձարկվել է MRF, IJB-C, LFW, CFP-FP, AgeDB և MegaFace տվյալների հավաքածուների վրա:

Transformer-ArcFace

Ինչպես պարզ է վերը նշվածից, մեծ մասամբ, կորստի մոդիֆիկացիան օգտագործվում է աղմկոտ տվյալների և գերհարմարեցման խնդիրը լուծելու համար, մինչդեռ ողնաշարը պատասխանատու է մոդելի «բարդության» համար, բայց կան բացառություններ:

Այս հոդվածը ներկայացնում է տրանսֆորմատոր-մետրային կորուստը՝ ստանդարտ մետրային կորստի և տրանսֆորմատորային կորստի համադրություն (տրանսֆորմատորային ցանց՝ որպես հավելումների կորուստ): Տրանսֆորմատորային ցանցերն ուժ ունեն պահպանելու հաջորդական տարածական հարաբերությունները, ինչը թույլ է տալիս մեծացնել կորստի ֆունկցիայի խտրական ուժը և կիրառել մոդելը ավելի բարդ դեպքերում (օրինակ, տարիքային անփոփոխ FR-ի համար):

Այս մոդելի առանձնահատկությունն այն է, որ տրանսֆորմատորը չի օգտագործվում որպես ողնաշար, ինչպես սովորաբար, օրինակ, Face Transformer մոդելում։ Փոխարենը, վերջին կոնվոլյուցիոն շերտի հատկանիշներն ուղարկվում են կորստի երկու ճյուղ: Առաջին ճյուղը սովորական հարթեցնող շերտ է և դրանից հետո մետրային կորուստ (այս դեպքում՝ ArcFace, բայց դա կարող է լինել դասակարգման վրա հիմնված ցանկացած կորուստ):

2-րդ ճյուղում մենք վերցնում ենք H × W × D չափի ելքը և այն վերածում 1 × 1 × D չափի S վեկտորների։ Տրանսֆորմատորի կոդավորման շերտից հետո կիրառվում է գծային շերտ՝ առանց ակտիվացման կամ դուրս գալու լրացուցիչ պարամետրերի: Դրանից հետո խաչաձև էնտրոպիայի ֆունկցիան գնահատում է կորուստը ելքային հավանականության բաշխման համար (նպատակային N դասերի համար): Երկու «ճյուղ-1» և «ճյուղ-2» կորուստները միավորվում են կշռված գումարի միջոցով:

Վավերացման (փորձարկման) փուլում երկրորդ ճյուղը կտրվում է և օգտագործվում են միայն ստանդարտ առաջին ճյուղի ներդիրները: MS1M-arcface և WebFace4M (WebFace 260M ենթաբազմություն) փորձարկելու համար:

Եզրակացություն

Այս վերանայման մեջ մենք կենտրոնացել ենք Դեմքի ճանաչման համակարգերի մեկ ոլորտի վրա՝ կորստի գործառույթների վրա: Սա մեզ թույլ տվեց ակնարկ անել այս ոլորտում նոր ուղղությունների և վերջին հոդվածների վերաբերյալ: Այս բոլոր ոլորտները շարունակում են զարգանալ ամեն տարի։

Ստուգատեսի այս մասից դուրս են մնացել հետևյալ թեմաները.

FR մոդելների ողնաշարը
FR մոդելներ հատուկ դեպքերի համար, ինչպիսիք են խցանման գիտակցումը, դիմահարդարումը-/տարիքը-/Լուսավորությունը-/պոզը-Դեմքի անփոփոխ ճանաչումը
3D / Dynamic FR
FR տվյալների հավաքածուների վերանայում Դրանք կուսումնասիրվեն հետևյալ մասերում:

Ինչու է AI-ն պետք է կորցնի (մի քիչ) ձեր դեմքը ավելի լավ ճանաչելու համար

Չափազանց երկար; Կարդալ

Դեմքի ճանաչում և դրա իրականացում

Դեմքի ճանաչման խողովակաշարի համառոտ ակնարկ