365 საკითხავი

რატომ სჭირდება ხელოვნური ინტელექტის დაკარგვა (ცოტა) თქვენი სახის უკეთ ამოცნობისთვის

მიერ Eva Vanski13m2025/03/13

Ძალიან გრძელი; Წაკითხვა

სახის ამოცნობა (FR) ფართოდ გამოიყენება ფინანსურ სექტორში, უსაფრთხოებაში, ვიდეო მეთვალყურეობაში, ჭკვიანი სახლის სერვისებში, მრავალფაქტორიან ავთენტიფიკაციაში და ა.შ. ამ სტატიაში ჩვენ ღრმად ჩავუღრმავდებით კვლევის ბოლო ტენდენციებს.

featured image - რატომ სჭირდება ხელოვნური ინტელექტის დაკარგვა (ცოტა) თქვენი სახის უკეთ ამოცნობისთვის

ბოლო წლებში მნიშვნელოვანი პროგრესი იქნა მიღწეული სახის ამოცნობაში. ეს მიმოხილვა გთავაზობთ მოკლე მიმოხილვას ძირითადი ამოცანების, მოდელების და გადაწყვეტის მეთოდების შესახებ, ფოკუსირებულია დაკარგვის ფუნქციების ევოლუციაზე.

მარტივად რომ ვთქვათ, სახის ამოცნობა არის ადამიანის იდენტიფიკაციის ან გადამოწმების მეთოდი ფოტოების, ვიდეოების ან რეალურ დროში კადრების გამოყენებით. ეს მიმოხილვა შეისწავლის იდენტიფიკაციას ერთი ციფრული სურათის ან ვიდეო ჩარჩოს საფუძველზე.

სახის ამოცნობა და მისი განხორციელება

სახის ამოცნობას (FR) აქვს შორსმიმავალი აპლიკაციები. ის გამოიყენება ფინანსურ სექტორში, კიბერუსაფრთხოებაში, ვიდეო მეთვალყურეობაში, ჭკვიანი სახლის სერვისებში, მრავალფაქტორიან ავთენტიფიკაციაში და ა.შ.

ამ პრაქტიკული გამოყენების გარდა, FR მოდელები ასევე მნიშვნელოვან როლს თამაშობენ თანამედროვე გენერაციულ მოდელებში. ისინი ჩვეულებრივ გამოიყენება იდენტიფიკაციის დაკარგვისთვის სახის აღდგენის მოდელებში, როგორიცაა GFPGAN და CodeFormer, Face Swapping ინსტრუმენტები, როგორიცაა SimSwap და FaceShifter, Image-to-Image GAN-ზე დაფუძნებული მოდელები, როგორიცაა pSp და HyperStyle, ასევე ტრანსფორმერზე დაფუძნებულ და სტაბილური დიფუზიის მოდელებში იდენტურობის შესანარჩუნებლად.

ArcFace (2018–2019) არის ყველაზე ფართოდ გამოყენებული იდენტიფიკაციის დაკარგვის ფუნქცია, ხოლო CosFace (2018) და FaceNet გამოიყენება ბევრად უფრო იშვიათად.

ამ მიმოხილვისთვის მე ყურადღებას გავამახვილებ იმაზე, თუ როგორ შეიცვალა FR ლანდშაფტი ArcFace-ის შემდეგ, განსაკუთრებით ბოლო წლებში.

სახის ამოცნობის მილსადენის მოკლე მიმოხილვა

Fce ამოცნობა მოითხოვს გარკვეულ წინასწარ დამუშავებას: სახის ამოცნობა, ჩამოჭრა და გასწორება. წინასწარი დამუშავება უნდა იყოს იგივე, როგორც ტრენინგის, ასევე ტესტის მონაცემებისთვის, ჩვეულებრივ, FFHQ-ის მსგავსი გასწორების გამოყენებით (Flickr-Faces-HQ Dataset). როგორც წესი, ამისათვის გამოიყენება ორი ცალკეული დამატებითი დეტექტორი: სახის შემოსაზღვრული ყუთის დეტექტორი და სახის საეტაპო დეტექტორი. არის ბოლოდან ბოლომდე მოდელები, გასწორებით, რომლებიც გაწვრთნილია ძირითად მოდელთან ერთად, მაგრამ მე მათ არ განვიხილავ მიმოხილვის ამ ნაწილში. აქ, ჩვენ ვვარაუდობთ, რომ სასწავლო და ტესტის მონაცემთა ნაკრები ერთნაირად არის მოჭრილი და გასწორებული. ამრიგად, მოდელი იკვებება ამოჭრილი და გასწორებული საშუალებებით.

FR ამოცანისთვის სასწავლო მონაცემთა ბაზაში არის რამდენიმე სურათი თითოეული პიროვნებისთვის (ადამიანისთვის). მოდელის ამოცანაა ისწავლოს ერთი და იგივე ადამიანის ფოტოების და სხვადასხვა ადამიანის ფოტოების გარჩევა.

მოდელი ჩვეულებრივ შედგება ორი კომპონენტისგან:

ხერხემალი. ხერხემალი, რომელსაც ასევე შეიძლება ვუწოდოთ ფუნქციების ამომყვანი, იღებს წინასწარ დამუშავებულ სახის ფოტოს შეყვანის სახით და გამოაქვს ჩაშენების ფუნქციების ვექტორი. კლასიკური ხერხემალი არის კონვოლუციური ნერვული ქსელები (CNN), როგორიცაა ResNet, VGGNet, ResFace, SE-ResNet და სხვა. ეს ასევე შეიძლება იყოს VisionTransformer ან Feature Pyramid Network მოდელები ან მათი უფრო რთული ვარიაციები. მიმოხილვის ამ ნაწილში დეტალურად არ ვისაუბრებთ მოდელების ხერხემალზე.
დაკარგვის ფუნქცია. ტრენინგის ეტაპზე, დაკარგვის ფუნქცია გამოიყენება ხერხემლის ვარჯიშის ზედამხედველობისთვის. ტრენინგის მიზანია ისეთი მოდელის მოპოვება, რომელიც აწარმოებს მჭიდრო ჩაშენებას ერთი და იგივე ადამიანის სხვადასხვა ფოტოზე და შორს სხვადასხვა პიროვნების სახისთვის. ჩვენ ვსაუბრობთ ჩაშენებულ ვექტორებს შორის მანძილის გაზომვაზე, მაგალითად, კოსინუსური მანძილის ან L2 მანძილის გამოყენებით.

დაკარგვის ფუნქციების ტიპები

წყვილზე დაფუძნებული დაკარგვა

პირველ კატეგორიას ეწოდება "წყვილზე დაფუძნებული დაკარგვა", ზოგჯერ მათ უწოდებენ "მეტრულ სწავლაზე დაფუძნებულ მეთოდებს": კონტრასტული დანაკარგი, სამმაგი დაკარგვა, N-წყვილების დაკარგვა.

ეს მეთოდები ან აერთიანებს დადებითი და უარყოფითი ნიმუშის წყვილებს მოდელის ტრენინგამდე, ან დინამიურად აერთიანებს ნიმუშის წყვილებს ონლაინ ტრენინგის დროს. ორივე ეს რეჟიმი საშუალებას იძლევა ამოიღონ სახის მნიშვნელოვანი წარმოდგენები ნიმუშის დონეზე, მაგრამ ექსპონენტურად გაზრდის მონაცემთა ზომას.

სავარჯიშო სქემა ტრიპლეტის დაკარგვის გამოყენებით ასე გამოიყურება. ერთი და იგივე ეტიკეტის მქონე ორ მაგალითს მათი ჩაშენებები ერთმანეთთან ახლოს უნდა ჰქონდეს ჩაშენების სივრცეში. სხვადასხვა ეტიკეტების მქონე ორ მაგალითს მათი ჩაშენება შორს აქვს.

მონაცემთა ნაკრების ზომასთან შესაძლო წყვილების რაოდენობის სწრაფი ზრდა გვაიძულებს ვეძებოთ წყვილის შერჩევის სტრატეგიები, რომლებიც, როგორც წესი, ემპირიული და გამოთვლითი რთულია.

კლასიფიკაციაზე დაფუძნებული დანაკარგი

სხვა კატეგორიას ეწოდება "კლასიფიკაციაზე დაფუძნებული დაკარგვა" ან ზოგჯერ "სწავლაზე დაფუძნებული პროტოტიპის მეთოდები": Softmax დაკარგვა, CosFace, ArcFace, NormFace. ისინი მუშაობენ განზოგადებულ ინფორმაციას კლასების შესახებ პროტოტიპის გამოყენებით, რომელსაც ასევე მოიხსენიებენ როგორც კლასის პროქსი ან კლასის ცენტრს. პროტოტიპები არის შესასწავლი პარამეტრები, რომლებიც განახლებულია მოდელის ტრენინგის დროს. ამჟამად, კლასიფიკაციაზე დაფუძნებული დანაკარგები ძირითადად გამოიყენება სახის ამოცნობის მოდელებისთვის.

კლასიფიკაციაზე დაფუძნებული დანაკარგების ისტორია

თუ FR ამოცანას განვიხილავთ როგორც კლასიფიკაციას, მაშინ შეგვიძლია გამოვიყენოთ softmax დაკარგვა (სხვა სახელწოდებაა კატეგორიული ჯვარედინი ენტროპიის დაკარგვა). არსებითად, Softmax დაკარგვა არის Softmax აქტივაციის ფუნქცია + Cross-Entropy დაკარგვა.

გავიხსენოთ ფორმულები. პირველი არის Softmax აქტივაცია, ხოლო მეორე არის ჯვარედინი ენტროპიის დაკარგვა.

კომბინირება მიიღეთ:

დაკარგვის ფუნქცია იღებს ბოლო სრულად დაკავშირებული ფენის შედეგს, სადაც 𝒙𝒊 აღნიშნავს 𝑖-ე სავარჯიშო სურათის ჩაშენების მახასიათებელს, 𝑦𝑖 არის ეტიკეტი 𝒙𝒊 და 𝑾 აღნიშნავს ბოლო სრულად დაკავშირებული ფენის წონას.

ეს მუშაობს, მაგრამ არის პრობლემა - კლასებს შორის საზღვრები ბუნდოვანია. ახალი ნაბიჯი FR-ში გაკეთდა 2018 წელს ArcFace მოდელის მოსვლასთან ერთად. საფუძველი რჩება softmax დაკარგვა, მაგრამ ჩვენ გადავდივართ ვექტორებს შორის კუთხეების გათვალისწინებაზე. გავიხსენოთ კოსინუსების მსგავსების ფორმულა:

მოდით შევცვალოთ softmax დანაკარგის ფორმულა

შემდეგი, ზღვარი ემატება ისე, რომ შიდა კლასების კუთხეები უფრო მცირეა და კლასთაშორისი კუთხეები უფრო დიდი. ეს იძლევა უფსკრული კლასებს შორის softmax დაკარგვის ბუნდოვანი საზღვრების ნაცვლად.

მსგავსი მეთოდები: თუ cos(θ + m) ჩავანაცვლებთ cos θ − m-ით მივიღებთ CosFace დაკარგვას.

Softmax-ზე დაფუძნებულ მეთოდებში პროტოტიპი ითვლება ბოლო წრფივი ფენის კოეფიციენტების მატრიცაში შენახულად, ანუ Pi = Wi, პროტოტიპი განახლდება მისი გრადიენტის გამოყენებით უკანა გავრცელებაში (ამიტომ გაჩნდა სახელწოდება «prototype learning based მეთოდები»).

სწორედ აქედან იწყება FR-სთვის თანამედროვე დანაკარგების ფუნქციების ისტორია. წლების განმავლობაში ბევრი მოდიფიკაცია და გაუმჯობესება გამოჩნდა, მაგრამ ზემოთ მოცემული ფორმულები საკმარისია შემდგომი მასალის გასაგებად.

ქვეცენტრი ArcFace

ერთ-ერთი გაუმჯობესება გამოჩნდა 2020 წელს, მას ეწოდება Sub-center ArcFace და შექმნილია ხმაურიანი მონაცემთა ნაკრებისთვის. კომპაქტურობის შიდა კლასში შეზღუდვა იწვევს ხმაურიანი მონაცემების გადაჭარბებას. ქვეცენტრი ArcFace შემოაქვს ქვეკლასებს. სავარჯიშო ჯგუფში ნიმუში ახლოს უნდა იყოს ერთ-ერთ პოზიტიურ ქვეცენტრთან და არა ყველა მათგანთან. ეს ამცირებს ხმაურის გავლენას მონაცემებზე.

2020, ქაღალდი , ინსაითფეისის განხორციელება

ორივე ArcFace და Sub-center ArcFace მოდელებს აქვთ დანერგვა insightface ბიბლიოთეკაში, მათ შორის სავარჯიშო კოდი და წინასწარ მომზადებული წონა.

Insightface-ს აქვს ArcFace-ის იმპლემენტაცია სხვადასხვა ხერხემალით: iresnet (34,50,100,200,2060), mobilefacenet, vit (VisionTransformer).

სხვადასხვა ხერხემლის განხილვა სცილდება ამ სტატიის ფარგლებს, ამიტომ მე შემოგთავაზებთ მხოლოდ იმ ხერხების სახელებს, რომლებიც გამოიყენება თითოეული განხილული დანაკარგის დროს. უმეტეს შემთხვევაში, დანაკარგების ავტორები არ ცდილობდნენ ოპტიმალური ხერხემლის არჩევას, არამედ უბრალოდ იყენებდნენ ერთ-ერთ პოპულარულს ან ის, რაც გამოიყენებოდა მოდელებში, რომლებთანაც სურდათ შედარება.

ტრენინგისთვის გამოყენებული იქნა მონაცემთა ნაკრები MS1M, Glint360K, WebFace42M.

მოქნილი ზღვარი

სახის ამოცნობის მეთოდების მთავარი გამოწვევა მონაცემთა ხმაურია. პროტოტიპის სწავლაზე დაფუძნებული მეთოდები მგრძნობიარეა პროტოტიპის მიკერძოების მიმართ, რომლებსაც ხმაური შემოაქვს. ზედმეტად მორგებასა და დაქვემდებარებას შორის დაბალანსების ერთ-ერთი გზა არის მარჟის კორექტირება, მთავარი პარამეტრი softmax-ბაზის დანაკარგებში.

AdaCos

ერთ-ერთი პირველი მეთოდი მასშტაბისა და კუთხოვანი ზღვრის დასარეგულირებლად კოსინუსზე დაფუძნებული softmax დანაკარგებისთვის, როგორიცაა L2-softmax, CosFace და ArcFace.

ახორციელებს ემპირიულ პრინციპს, რომ სწავლის სიჩქარე უნდა შენელდეს ქსელის ოპტიმიზაციისას. სტატიაში წარმოდგენილია მოდულატორული ცვლადი, რომელიც ტოლია მინი პარტიაში ყველა კუთხის მედიანას შესაბამისი კლასებისთვის, რომელიც უხეშად წარმოადგენს მოდელის ოპტიმიზაციის მიმდინარე ხარისხს. როდესაც მედიანური კუთხე დიდია, ბადის პარამეტრები შორს არის ოპტიმალურისგან და გამოიყენება უფრო დიდი მასშტაბი და ზღვარი და პირიქით.

2019 წელი, ქაღალდი , პიტორჩის განხორციელება (მაგრამ არა წინასწარ მომზადებული წონა)

გავლილი აქვს ტრენინგი CASIA-WebFace და MS1M მონაცემთა ნაკრებებზე, შეყვანის გარჩევადობა 144 × 144. ტესტირებულია LFW, MegaFace და IJB-C მონაცემთა ნაკრებებზე, L2-softmax, CosFace და ArcFace დანაკარგებთან შედარებით.

გასული წლების განმავლობაში გაჩნდა რამდენიმე საეტაპო მეთოდი FR-ში ადაპტური ზღვრის გამოყენებისთვის, როგორიცაა Dyn-ArcFace (2022), MagFace (2021), ElasticFace (2021), მაგრამ ჩვენ ყურადღებას გავამახვილებთ ამ სფეროში ერთ-ერთ უახლეს ნამუშევარზე - X2-Softmax (2023).

X2-Softmax

AdaCos-თან შედარებით, X2-Softmax ცდილობს გაითვალისწინოს კლასების არათანაბარი განაწილება. ფიქსირებული ზღვარი, რომელიც შესაფერისია ზოგიერთ კლასს შორის, შეიძლება იყოს ზედმეტად დიდი სხვა კლასებს შორის კონვერტაციისთვის, ან ძალიან მცირე, რათა ხელი შეუწყოს სახის მახასიათებლების მნიშვნელოვან შიდაკლასობრივ კომპაქტურობას ზოგიერთ სხვა კლასს შორის.

2023, ქაღალდი , პიტორჩის განხორციელება

დიდი კუთხით კლასებისთვის საჭიროა დიდი ზღვარი კომპაქტურობის გასაზრდელად, მცირე კუთხით კლასებისთვის - უფრო მცირე.

გავიხსენოთ softmax-ზე დაფუძნებული დანაკარგების ზოგადი ფორმულა:

აქ, ისეთი დანაკარგებისთვის, როგორიცაა ArcFace ან CosFace, განსხვავდება მხოლოდ logits ფუნქცია f(θ). X2-Softmax დაკარგვის ფუნქციისთვის ასე გამოიყურება:

ტრადიციული softmax-ზე დაფუძნებული დანაკარგები იყენებს კოსინუსს, მაგრამ კოსინუსი გადაიქცევა კვადრატულ ფუნქციად, როდესაც გაფართოებულია ტეილორის სერიაში, ამიტომ X2-Softmax-ისთვის არჩეულია კვადრატული ფუნქცია. x-ის მაღალი რიგის ტერმინების გაუქმება და მუდმივი და კვადრატული პუნქტების შენარჩუნება შეიძლება თავიდან აიცილოს მოდელის გადაჭარბება.

აქ a, h და k არის ჰიპერპარამეტრები: h და k განსაზღვრავს ლოჯიტის ფუნქციის მრუდის წვეროს პოზიციას, ხოლო a განსაზღვრავს მრუდის გახსნის მიმართულებას და კლასტერიზაციის ხარისხს.

X2-Softmax-ში, როდესაც θ წონებს შორის კუთხე იზრდება, კუთხური ზღვარი ∆θ მონოტონურად იზრდება ამავე დროს.

კიდევ ორი მსგავსი კლასისთვის, მცირე ზღვარი ხელს უწყობს მოდელის კონვერგენციას. ორი ნაკლებად მსგავსი კლასისთვის მინიჭებული იქნება უფრო დიდი ზღვარი სახის მახასიათებლების კლასთაშორისი განცალკევების გასაძლიერებლად.

ტრენინგისთვის ავტორებმა აირჩიეს Resnet50 ხერხემალი. მოდელი გაწვრთნილი იყო MS1Mv3 მონაცემთა ბაზაზე (RetinaFace-ის მიერ წინასწარ დამუშავებულ MS-Celeb-1M-ზე დაფუძნებული, ხმაურიანი სურათების მოსაშორებლად) – 93k იდენტობა და 5.1M სახის გამოსახულება.

SFace: სიგმოიდით შეზღუდული ჰიპერსფეროს დაკარგვა სახის ძლიერი ამოცნობისთვის

ზარალის უმეტესობა მოქნილი ზღვრებით რჩება softmax-ზე დაფუძნებულ დანაკარგებში, მაგრამ არის გამონაკლისები. SFace უარს ამბობს softmax-ზე დაფუძნებულ დანაკარგებზე, მაგრამ ინარჩუნებს კლასში და კლასთაშორის მანძილების ოპტიმიზაციის იდეას. მოდელი აწესებს შიდა და კლასთაშორის შეზღუდვებს ჰიპერსფეროს მრავალფეროვნებაზე, რომლებიც კონტროლდება ორი სიგმოიდური მრუდით. მრუდები გარდაქმნის გრადიენტებს კოეფიციენტების ცვლილების სიჩქარის კონტროლით, როდესაც ისინი უახლოვდებიან სამიზნე ან უცხო კლასის ცენტრს.

2022, ქაღალდი , პიტორჩის განხორციელება (წინასწარ მომზადებული წონები ასევე ხელმისაწვდომია ჩამოსატვირთად)

პირდაპირი მარჟის ოპტიმიზაციის მეთოდებთან შედარებით, ეს უზრუნველყოფს უფრო დახვეწილ ბალანსს ზედმეტად მორგებასა და დაქვემდებარებას შორის, ცალკეული ხმაურიანი ნიმუშების ნაკლებ გავლენას საბოლოო დანაკარგზე.

სახის ჩაშენების შეზღუდვის იდეა ჰიპერსფეროს მრავალფეროვნებაზე დისკრიმინაციული გახადისთვის უკვე ნანახია, მაგალითად, Sphereface-ში (ღრმა ჰიპერსფეროს ჩაშენება სახის ამოცნობისთვის, 2017).

მიზანია შემცირდეს კლასთაშორისი მანძილი და გაიზარდოს კლასთაშორისი მანძილი, ასე რომ, სიგმოიდური შეზღუდული ჰიპერსფეროს დაკარგვა შეიძლება ჩამოყალიბდეს როგორც

სადაც 𝜃𝑦𝑖 არის კუთხოვანი მანძილი 𝑖-ე სავარჯიშო სურათის ჩაშენების მახასიათებელსა და შესაბამის პროტოტიპს შორის. j არის კუთხოვანი მანძილი უცხო პროტოტიპებამდე.

ფუნქციები 𝑟𝑖𝑛𝑡𝑟 და 𝑟𝑖𝑛𝑡𝑒𝑟 შექმნილია კლასთაშორის და კლასთაშორისი მიზნების გადასასვლელად და ოპტიმიზაციის ხარისხის გასაკონტროლებლად. [·]𝑏 არის ბლოკის გრადიენტის ოპერატორი, რომელიც ხელს უშლის მისი შეყვანის წვლილის გათვალისწინებას გრადიენტების გამოთვლისას.

სიგმოიდური ფუნქციები არჩეულია გრადიენტური მასშტაბის ფუნქციებად:

ავტორებმა აირჩიეს სიგმოიდური ფუნქციები, როგორც გრადიენტური ხელახალი მასშტაბის ფუნქციები:

𝑠 არის ორი სიგმოიდური მრუდის ზედა ასიმპტოტი, როგორც გრადიენტის საწყისი მასშტაბი, და 𝑘 არის სიგმოიდური მრუდების დახრილობის კონტროლი. ჰიპერპარამეტრები 𝑎 და 𝑏 წყვეტენ ორი სიგმოიდური მრუდის ჰორიზონტალურ კვეთას და რეალურად აკონტროლებენ მოქნილ ინტერვალს მოძრაობის სიჩქარის ჩასახშობად.

Softmax-ზე დაფუძნებულ დაკარგვის ფუნქციებთან შედარებით, SFace-ის როგორც შიდა, ასევე კლასთაშორისი მანძილი შეიძლება შეიზღუდოს შემუშავებული ხარისხით, ამიტომ შეიძლება ზომიერად ოპტიმიზირებული იყოს, რაც ზუსტად არის SFace-ის უპირატესობა.

ტრენინგისთვის ავტორებმა აირჩიეს ResNet ხერხემალი (როგორც Arcface).

მოდელის ტრენინგი ჩატარდა CASIA-WebFace, VGGFace2 და MS-Celeb-1M მონაცემთა ნაკრებებზე.

პროტოტიპი, როგორც განაწილება

ხმაურიან მონაცემებთან გამკლავების კიდევ ერთი გზაა იმის გათვალისწინება, რომ ერთი იდენტობის ჩანერგვა (ერთი პიროვნების კუთვნილი ყველა სახისთვის) არ არის წერტილი სივრცეში, არამედ განაწილება, რომელსაც აქვს მოლოდინი, განსხვავება და შეიძლება ჰქონდეს განსხვავებები.

VPL (ვარიაციური პროტოტიპის სწავლება)

სახის ამოცნობისას, წყვილზე დაფუძნებული დანაკარგები მიტოვებული იყო ვარჯიშის სირთულის გამო, მაგრამ საშუალო პროტოტიპებთან მუშაობისას ჩვენ ვკარგავთ გარკვეულ ინფორმაციას. პროტოტიპებზე დაფუძნებული მიდგომით, ვარჯიში შეიძლება გაიჭედეს ლოკალურ მინიმუმებში ან გადაჭარბებული იყოს პროტოტიპებზე გარე ნიშნების გავლენის გამო.

2021, ქაღალდი , ინსაითფეისის განხორციელება

VPL – წარმოადგენს თითოეულ კლასს, როგორც განაწილებას და არა წერტილს ლატენტურ სივრცეში.

VPL ოპტიმიზებს მსგავსებას სავარჯიშო კომპლექტის მაგალითებსა და ვარიაციული პროტოტიპების ერთობლიობას შორის, რომლებიც შერჩეულია კლასის მიხედვით განაწილებიდან.

პროტოტიპების განაწილება ინახება M-ში და იშლება ∆t საფეხურებზე. ავტორებმა ზარალი გაწვრთნეს ResNet50, ResNet100 და MXNet ხერხემალებით, MXNet არჩეულ იქნა როგორც საბოლოო ტესტირებისთვის. MS1M მონაცემთა ბაზა გამოიყენება ტრენინგისთვის, სახის კულტურების შეყვანის ზომაა 112×112.

არსებობს რამდენიმე მიდგომა, რომელიც აგრძელებს პროტოტიპზე დაფუძნებული მეთოდების შევსების თემას წყვილზე დაფუძნებული დანაკარგების უპირატესობებით (ან სხვაგვარად უწოდებენ ნიმუშიდან ნიმუშზე დაფუძნებულ მოდელებს), როგორიცაა UniTSFace (2023) ან UNPG (Unified Negative Pair Generation towards well-discriminative Feature Space for Face Recognition). ამ სტატიაში ყურადღებას გავამახვილებ ერთ-ერთ უახლეს დანაკარგზე: EPL.

EPL: ემპირიული პროტოტიპის სწავლა სახის ღრმა ამოცნობისთვის

მარჟაზე დაფუძნებულ softmax დაკარგვაში დანაკარგი გამოითვლება პროტოტიპებთან (კლასების ცენტრებთან) შედარებით; ერთი კლასის ყველა ნიმუში იყვანება საერთო ცენტრში სასწავლო პროცესის დროს. რომელიც განიხილება საშუალოდ სასწავლო პროცესის დროს და ძლიერ გავლენას ახდენს მაგალითების გამორჩეულმა ფაქტორებმა, რომლებსაც შეუძლიათ პროტოტიპის ცენტრის გადახრა. Softmax-ზე დაფუძნებულ მეთოდებში პროტოტიპი ითვლება ბოლო ხაზოვანი ფენის კოეფიციენტების მატრიცაში შენახულად, ანუ Pi = Wi, პროტოტიპი განახლებულია მისი გრადიენტის გამოყენებით უკანა გავრცელებაში, ხოლო დანაკარგის ფუნქცია მაქსიმალურად ზრდის მაგალითების მახასიათებლებსა და შესაბამის პროტოტიპებს შორის მსგავსებას.

2024, ქაღალდი , პიტორჩის განხორციელება (წინასწარ მომზადებული წონები ასევე ხელმისაწვდომია ჩამოსატვირთად)

EPL-ში პროტოტიპები იქმნება და განახლებულია:

ტრენინგის დაწყებისას შემთხვევით
მოდელის ტრენინგის დროს, თითოეული მაგალითი (X) თავისი მახასიათებლებით x = E(X) აახლებს შესაბამის ემპირიულ პროტოტიპს Pi(e), სადაც E არის სახის შიფრატორი:

სადაც "α" არის ადაპტაციური განახლების კოეფიციენტი, რომელიც გენერირებულია x ფუნქციისა და მისი პროტოტიპის გამოყენებით, "σ" არის აქტივაციის ფუნქცია განახლების კოეფიციენტის შესაბამის დიაპაზონში დასარეგულირებლად და s(·, ·) არის მსგავსების ფუნქცია, რომელიც ჩვეულებრივ აღიქმება როგორც კოსინუს ფუნქცია.

ემპირიული პროტოტიპი განახლებულია მხოლოდ "პოზიტიური" მაგალითების გამოყენებით, რათა თავიდან იქნას აცილებული მეზობელი კლასების გავლენის მოხდენა.

ტრენინგის პროცესი: ენკოდერი ამოიღებს მახასიათებლებს, ადაპტაციური კოეფიციენტები α გამოითვლება ემპირიული პროტოტიპის განახლებისთვის, მსგავსება მახასიათებლებსა და პროტოტიპებს შორის გამოიყენება ენკოდერის ტრენინგის დანაკარგის გამოსათვლელად.

პროტოტიპის სწავლისა და ემპირიული პროტოტიპის სწავლის შესაძლებლობების სრულყოფილად გამოსაყენებლად, EPL აერთიანებს მათ ერთად ჯამის სახით და შემოაქვს განსხვავებული მინდვრები. ResNet ხერხემალი გამოიყენებოდა ტრენინგისთვის და CASIA-WebFace, როგორც სასწავლო მონაცემთა ბაზა. მოდელი შემოწმდა MRF, IJB-C, LFW, CFP-FP, AgeDB და MegaFace მონაცემთა ნაკრებებზე.

Transformer-ArcFace

როგორც ზემოაღნიშნულიდან ირკვევა, უმეტესწილად, დანაკარგის მოდიფიკაცია გამოიყენება ხმაურიანი მონაცემების და გადატვირთვის პრობლემის გადასაჭრელად, ხოლო ხერხემალი პასუხისმგებელია მოდელის „სირთულეზე“, მაგრამ არის გამონაკლისები.

ეს სტატია წარმოგიდგენთ ტრანსფორმატორ-მეტრულ დანაკარგს - სტანდარტული მეტრიკული დანაკარგისა და ტრანსფორმატორის დანაკარგის კომბინაციას (ტრანსფორმატორული ქსელი, როგორც დანამატი დანაკარგი). ტრანსფორმატორთა ქსელებს აქვთ ძალა შეინარჩუნონ თანმიმდევრული სივრცითი ურთიერთობები, რაც საშუალებას იძლევა გაზარდოს დანაკარგის ფუნქციის დისკრიმინაციული ძალა და გამოიყენოს მოდელი უფრო რთულ შემთხვევებში (მაგალითად, ასაკობრივი უცვლელი FR-ისთვის).

ამ მოდელის თავისებურება ის არის, რომ ტრანსფორმატორი არ გამოიყენება როგორც ხერხემალი, როგორც ეს ჩვეულებრივ ხდება, მაგალითად, Face Transformer-ის მოდელში. ამის ნაცვლად, ბოლო კონვოლუციური ფენის მახასიათებლები იგზავნება ორ დანაკარგის ფილიალში. პირველი განშტოება არის ჩვეულებრივი გაბრტყელებული ფენა და მეტრიკული დანაკარგი მის შემდეგ (ამ შემთხვევაში, ArcFace, მაგრამ ეს შეიძლება იყოს ნებისმიერი კლასიფიკაციაზე დაფუძნებული დანაკარგი).

მე-2 ფილიალში ვიღებთ H × W × D ზომის გამოსავალს და გარდაქმნით მას 1 × 1 × D ზომის S ვექტორებად. ტრანსფორმატორის შიფრატორის ფენის შემდეგ, ხაზოვანი ფენა გამოიყენება აქტივაციის ან გამოტოვების დამატებითი პარამეტრების გარეშე. ამის შემდეგ, ჯვარედინი ენტროპიის ფუნქცია აფასებს დანაკარგს გამომავალი ალბათობის განაწილებისთვის (სამიზნე N კლასებისთვის). ორივე დანაკარგი „ფილიალი-1“ და „ფილიალი-2“ გაერთიანებულია შეწონილი ჯამის მეშვეობით.

ვალიდაციის (ტესტირების) ეტაპზე იჭრება მეორე ტოტი და გამოიყენება მხოლოდ სტანდარტული პირველი ტოტიდან ჩასმული ჩაშენებები. MS1M-arcface და WebFace4M (WebFace 260M ქვეჯგუფი) შესამოწმებლად.

დასკვნა

ამ მიმოხილვაში ჩვენ ყურადღება გავამახვილეთ სახის ამოცნობის სისტემების ერთ სფეროზე - დაკარგვის ფუნქციებზე. ამან მოგვცა საშუალება გაგვეკეთებინა მიმოხილვა ამ სფეროში ახალი მიმართულებებისა და ბოლო სტატიების შესახებ. ყველა ეს სფერო ყოველწლიურად განაგრძობს განვითარებას.

მიმოხილვის ამ ნაწილის მიღმა დარჩა შემდეგი თემები:

FR მოდელების ხერხემალი
FR მოდელები სპეციალური შემთხვევებისთვის, როგორიცაა ოკლუზიის გაცნობიერება, მაკიაჟი-/ასაკი-/განათება-/პოზა- სახის უცვლელი ამოცნობა
3D / დინამიური FR
FR მონაცემთა ნაკრების მიმოხილვა ისინი შეისწავლება შემდეგ ნაწილებში.