Авторлары:
(1) Хёнджун Квон, Йонсей университеті;
(2) Джинхён Джан, Йонсей университеті;
(3) Джин Ким, Йонсей университеті;
(4) Квонён Ким, Йонсей университеті;
(5) Квангун Сон, Йонсей университеті және Корея ғылым және технология институты (KIST).
4. Әдіс
4.2. Ықтималдық иерархиялық ағаш
4.3. Көрнекі иерархияның декомпозициясы
4.4. Гиперболалық кеңістіктегі иерархияны оқыту
4.5. Көрнекі иерархияны кодтау
5. Тәжірибелер және 5.1. Суреттердің классификациясы
5.2. Объектіні анықтау және дананы сегменттеу
6. Абляцияны зерттеу және талқылау
7. Қорытынды және пайдаланылған әдебиеттер
Бұл мақалада біз визуалды көріністердің иерархиялық ұйымдастырылуын зерттейтін Visual Hierarchy Mapper (Hi-Mapper) романын ұсындық. Біз мақсатқа ықтималдық үлестірімі бар ағаш тәрізді құрылымды жаңадан анықтау және гиперболалық кеңістіктегі иерархиялық қатынастарды үйрену арқылы қол жеткіздік. Біз иерархиялық интерпретацияны контрастты жоғалтуға енгіздік және деректерді тиімді түрде көрнекі иерархияны тиімді анықтадық. Тиімді иерархияның ыдырауы және кодтау процедуралары арқылы анықталған иерархия бүкіл көріністің құрылымдық түсінігін жақсарта отырып, жаһандық көрнекі көрініске сәтті орналастырылды. Hi-Mapper олармен біріктірілген кезде бар DNN-лердің өнімділігін дәйекті түрде жақсартты, сонымен қатар әртүрлі тығыз болжамдар бойынша тиімділігін көрсетті.
Растау . Бұл зерттеу 2022 (2022-22-0002) Yonsei Signature Research Claster бағдарламасымен қолдау тапты.
[1] Александр Ермолов, Лейла Мирвахабова, Валентин Хрулков, Нику Себе және Иван Оселедец. Гиперболалық көру трансформаторлары: метрикалық оқытудағы жақсартуларды біріктіру. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 7409–7419, 2022 беттер. 1, 3
[2] Сонгён Ким, Босон Чжон және Суха Квак. Иер: иерархиялық реттеу арқылы сынып белгілерінен тыс метрикалық оқыту. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 19903–19912, 2023 беттер. 1, 3
[3] Джорджия Гкиоксари, Росс Гиршик, Пиотр Доллар және Кайминг Хе. Адам мен заттың өзара әрекеттесуін анықтау және тану. Компьютерлік көру және үлгіні тану бойынша IEEE конференциясының материалдарында, 8359–8367, 2018 беттер. 1
[4] Джинхён Джан, Юнгин Парк, Джин Ким, Хёнджун Квон және Квангун Сон. Қайда назар аудару керектігін білу: бейне жерге қосуға арналған Eventaware трансформаторы. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 13846–13856, 2023 беттер. 1
[5] Чжи Хоу, Баошэн Ю, Ю Цяо, Сяоцзян Пэн және Дачэн Тао. Адам мен объектінің өзара әрекеттесуін анықтауға арналған қолжетімділікті оқыту. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 495–504, 2021 беттер. 1
[6] Хёнджун Квон, Тэён Сон, Соми Чон, Джин Ким, Джинхён Джан және Квангун Сон. Тығыз болжау үшін ықтималдық жылдам оқыту. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 6768–6777, 2023 беттер. 1, 3
[7] Джин Ким, Джиён Ли, Юнгин Парк, Дунбо Мин және Квангун Сон. Жадты бекіту: Семантикалық сегментацияны жалпылауды үйрену. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 4350–4360, 2022 беттер. 1
[8] Алексей Досовицкий, Лукас Бейер, Александр Колесников, Дирк Вайссенборн, Сяохуа Чжай, Томас Унтертайнер, Мостафа Дехгани, Маттиас Миндерер, Георг Хейгольд, Сильвен Гелли және т.б. Кескін 16x16 сөзден тұрады: масштабта кескінді тануға арналған трансформаторлар. arXiv алдын ала басып шығару arXiv:2010.11929, 2020. 1
[9] Праджит Рамачандран, Ники Пармар, Ашиш Васвани, Ирван Белло, Ансельм Левская және Джон Шленс. Көру үлгілеріндегі дербес назар аудару. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 32, 2019. 1
[10] Хеншуан Чжао, Цзяя Цзя және Владлен Колтун. Суретті тану үшін өзіндік зейінді зерттеу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 10076–10085, 2020 беттер. 7
[11] Цзяньюань Гуо, Кай Хан, Хан Ву, Ехуй Тан, Синхао Чен, Юнхэ Ван және Чан Сю. Cmt: Конволюционды нейрондық желілер көру трансформаторларымен кездеседі. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 12175–12185, 2022 беттер.
[12] Хайпин Ву, Бин Сяо, Ноэль Коделла, Мэнчэн Лю, Сияң Дай, Лу Юань және Лэй Чжан. Cvt: Көру трансформаторларына конволюцияларды енгізу. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 22–31 беттер, 2021. 1, 6
[13] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen және Baining Guo. Cswin трансформаторы: крест тәрізді терезелері бар жалпы көру трансформаторының магистральдық бөлігі. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 12124–12134, 2022 беттер. 1
[14] Вэнхай Ван, Энцзе Си, Сян Ли, Дэн-Пин Фан, Кайтао Сон, Дин Лян, Тонг Лу, Пин Луо және Линг Шао. Пирамидалық көру трансформаторы: конвульсиясыз тығыз болжау үшін әмбебап тірек. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 568–578 беттер, 2021 ж.
[15] Янхао Ли, Чао-Юан Ву, Хаоки Фан, Картикея Мангалам, Бо Сионг, Джитендра Малик және Кристоф Фейхтенхофер. Mvitv2: жіктеу және анықтау үшін жақсартылған көп масштабты көру трансформаторлары. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 4804–4814, 2022 беттер. 1
[16] Чун-Фу Ричард Чен, Куанфу Фан және Рамесвар Панда. Crossvit: Кескінді жіктеуге арналған кросс-назар көп масштабты көру трансформаторы. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 357–366 беттер, 2021. 1, 2, 6
[17] Пэнчжэнь Рен, Чанлин Ли, Гуанрун Ван, Юн Сяо, Цин Ду, Сяодон Лян және Сяоцзюнь Чан. Бекітуден тыс: динамикалық терезе визуалды трансформаторы. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 11987–11997, 2022 беттер. 1
[18] Шитао Тан, Цзяхуэй Чжан, Сию Жу және Пин Тан. Көру трансформаторларына арналған төрттік назар. arXiv алдын ала басып шығару arXiv:2201.02767, 2022. 2, 4
[19] Мингю Дин, Йканг Шен, Лиджи Фан, Чжэнфан Чен, Цитян Чен, Пин Луо, Джошуа Б Тененбаум және Чуанг Ган. Көрнекі тәуелділік трансформаторлары: тәуелділік ағашы кері назар аударудан пайда болады. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 14528–14539, 2023 беттер. 2, 6, 7
[20] Цун-Вэй Ке, Сангву Мо және Х Ю Стелла. Тану үшін және тану арқылы кескіннің иерархиялық сегментациясын үйрену. Оқыту өкілдіктері бойынша он екінші халықаралық конференцияда, 2023. 2, 4
[21] Н.Линиал, Э.Лондон және Ю.Рабинович. Графиктердің геометриясы және оның кейбір алгоритмдік қолданбалары. Информатика негіздері бойынша 35-ші жыл сайынғы симпозиум материалдарында, 577–591, 1994 беттер. doi: 10.1109/ SFCS.1994.365733. 2
[22] Хунбин Пей, Бинчже Вэй, Кевин Чан, Чунсю Чжан және Бо Ян. Графикті ендіру кезінде бұрмалануды болдырмау үшін қисықты реттеу. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 33:20779–20790, 2020 ж.
[23] Максимиллиан Никель және Дуве Кила. Иерархиялық көріністерді үйренуге арналған Poincare ендірулері. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 30, 2017 ж.
[24] Максимиллиан Никель және Дуве Киела. Гиперболалық геометрияның лоренц үлгісінде үздіксіз иерархияларды үйрену. Машиналық оқыту бойынша халықаралық конференцияда, 3779–3788 беттер. PMLR, 2018. 3
[25] Чжи Гао, Ювэй Ву, Юндэ Цзя және Мехрташ Харанди. Бірнеше рет оқу үшін қисық кеңістіктерде қисық генерация. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 8691–8700, 2021 беттер. 3
[26] Александру Тифреа, Гари Бечинел және Октавиан-Евген Ганея. Пуанкар қолғабы: гиперболалық сөздерді енгізу. arXiv алдын ала басып шығару arXiv:1810.06546, 2018. 3
[27] Юдун Чжу, Ди Чжоу, Цзинхуй Сяо, Синь Цзян, Сяо Чен және Кун Лю. Гипермәтін: жылдам мәтінді гиперболалық геометриямен қамтамасыз ету. arXiv алдын ала басып шығару arXiv:2010.16143, 2020. 3
[28] Инес Чами, Житао Йинг, Кристофер Ре және Юре Лесковец. ´ Гиперболалық граф конволюциялық нейрондық желілер. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 32, 2019 ж.
[29] Каран Десай, Максимилиан Никель, Танмай Раджпурохит, Джастин Джонсон және Шанмуха Рамакришна Ведантам. Гиперболалық кескін-мәтіндік көріністер. Машиналық оқыту бойынша халықаралық конференцияда, 7694–7731 беттер. PMLR, 2023. 2, 3, 5
[30] Люк Вилнис және Эндрю Маккаллум. Гаусс енгізу арқылы сөздерді ұсыну. Оқу өкілдіктері бойынша халықаралық конференцияда, 2015. 2
[31] Бен Атхивараткун және Эндрю Гордон Уилсон. Сөздердің мультимодальды таралуы. arXiv алдын ала басып шығару arXiv:1704.08424, 2017. 3
[32] Бен Ативараткун және Эндрю Гордон Уилсон. Иерархиялық тығыздық ретінің кірістірулері. Оқу өкілдіктері бойынша халықаралық конференцияда, 2018 ж.
[33] Гэнконг Ян, Цзиньи Чжан, Юн Чжан, Баоюань Ву және Юцзю Ян. Сахна графигін генерациялау үшін семантикалық белгісіздікті ықтималдық модельдеу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 12527–12536, 2021 беттер. 2
[34] Каймин Хэ, Сянью Чжан, Шаоцин Рен және Цзянь Сун. Кескінді тану үшін терең қалдық оқыту. Компьютерлік көру және үлгіні тану бойынша IEEE конференциясының материалдарында, 770–778 беттер, 2016. 2, 6, 12
[35] Уго Туврон, Матти Корд, Маттийс Доуз, Франсиско Масса, Александр Саблайролес және Эрве Джегу. «Деректерді үнемдейтін кескін трансформаторларын және назар аудару арқылы дистилляцияны үйрету. Машиналық оқыту бойынша халықаралық конференцияда, 10347–10357 беттер. PMLR, 2021. 2, 6, 7, 12
[36] Цзя Дэн, Вэй Донг, Ричард Сочер, Ли-Цзя Ли, Кай Ли және Ли Фэй-Фэй. Imagenet: Кескіндердің кең ауқымды иерархиялық деректер базасы. 2009 жылы компьютерлік көру және үлгіні тану бойынша IEEE конференциясы, 248–255 беттер. Ieee, 2009. 2, 6, 7, 8, 12, 14
[37] Цунг-И Лин, Майкл Мэйр, Серж Белонги, Джеймс Хейс, Пьетро Перона, Дева Раманан, Пиотр Доллар және Си Лоуренс Зитник. Microsoft coco: контексттегі жалпы нысандар. Computer Vision–ECCV 2014: 13-ші Еуропалық конференция, Цюрих, Швейцария, 6-12 қыркүйек 2014 ж., Материалдар, V 13 бөлім, 740–755 беттер. Springer, 2014. 6, 7
[38] Болей Чжоу, Ханг Чжао, Ксавье Пуиг, Санжа Фидлер, Адела Барриузо және Антонио Торралба. ade20k деректер жинағы арқылы көріністі талдау. Компьютерлік көру және үлгіні тану бойынша IEEE конференциясының материалдарында, 633–641, 2017 беттер. 2, 7
[39] Педро Ф Фельзенсзвалб, Росс Б Гиршик, Дэвид МакАллестер және Дева Раманан. Дискриминативті түрде үйретілген бөлікке негізделген үлгілермен нысанды анықтау. Үлгіні талдау және машиналық интеллект бойынша IEEE транзакциялары, 32(9):1627–1645, 2009. 2
[40] Фэн Хан және Сон-Чун Чжу. Төлсипат грамматикасы арқылы төменнен жоғары/жоғарыдан төмен кескінді талдау. Үлгіні талдау және машиналық интеллект бойынша IEEE транзакциялары, 31(1):59–73, 2008.
[41] Эрик Б Саддерт, Антонио Торралба, Уильям Т Фриман және Алан С Виллски. Көріністердің, объектілердің және бөліктердің иерархиялық үлгілерін үйрену. Компьютерлік көру бойынша оныншы IEEE халықаралық конференциясында (ICCV'05) 1 том, 2 том, 1331–1338 беттер. IEEE, 2005 ж.
[42] Чжуовэн Ту, Сянгрон Чен, Алан Л Юилле және Сон-Чун Чжу. Кескінді талдау: сегменттеуді, анықтауды және тануды біріктіру. Халықаралық компьютерлік көру журналы, 63: 113–140, 2005. 2
[43] Тянфу Ву және Сун-Чун Чжу. және-немесе графиктердегі төменнен жоғарыға және жоғарыдан төменге қорытынды шығару процестерін сандық зерттеу. Компьютерлік көрудің халықаралық журналы, 93:226–252, 2011. 2
[44] Вэнгуан Ван, Чжижиэ Чжан, Сиюань Ци, Цзянбин Шэн, Янвэй Пан және Линг Шао. Адамды талдау үшін композициялық нейрондық ақпаратты біріктіруді үйрену. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 5703–5713 беттер, 2019. 2
[45] Вэнгуан Ван, Хайлун Чжу, Цзифэн Дай, Янвэй Пан, Цзянбин Шен және Линг Шао. Терілген бөлік-байланысты пайымдау арқылы иерархиялық адам талдауы. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 8929–8939, 2020 беттер. 2
[46] Сандро Браун, Патрик Эссер және Бьорн Оммер. Бақыланбайтын бөлшектеу арқылы бақыланбайтын бөлікті табу. Үлгілерді тану: 42-ші DAGM неміс конференциясы, DAGM GCPR 2020, Тубинген, Германия, 28 қыркүйек – 1 қазан, 2020 ж., 42 материалдар, 345–359 беттер. Springer, 2021. 2
[47] Субхабрата Чоудхури, Иро Лайна, Кристиан Рупрехт және Андреа Ведалди. Контрастивті реконструкциядан бақылаусыз бөлікті табу. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 34:28104–28118, 2021 ж.
[48] Вэй-Чих Хунг, Варун Джампани, Сифэй Лю, Павло Молчанов, Мин-Хуан Ян және Ян Каутц. Scops: өзін-өзі басқаратын бірлескен бөлікті сегменттеу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 869–878 беттер, 2019. 2
[49] Цун-Вэй Ке, Сангву Мо және Стелла X. Ю. Тану үшін және тану арқылы кескіннің иерархиялық сегментациясын үйрену. Оқыту өкілдіктері бойынша он екінші халықаралық конференцияда, 2024. 2
[50] Сангхюк Чун, Сон Джун О, Рафаэль Сампайо Де Резенде, Яннис Калантидис және Дайан Ларлус. Кроссмодальді іздеуге арналған ықтималдық енгізулер. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 8415–8424, 2021 беттер. 3, 5
[51] Йичун Ши және Аниль К Джейн. Ықтималды бет енгізу. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 6902–6911, 2019 беттер. 3
[52] Юнгин Парк, Джиён Ли, Иг-Дже Ким және Квангун Сон. Бейне контрастты оқытуға арналған ықтималдық көріністер. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 14711–14721, 2022 беттер. 3
[53] Максимиллиан Никель және Дуве Киела. Иерархиялық көріністерді үйренуге арналған Poincare ендірулері. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 30, 2017. 3
[54] Мина Гадими Атиг, Джулиан Шоп, Эрман Акар, Нанне Ван Нурд және Паскаль Меттес. Гиперболалық кескінді сегменттеу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 4453–4462, 2022 беттер. 3
[55] Чжэнчжэнь Вэн, Мехмет Гирай Огут, Шай Лимончик және Серена Еунг. Иерархиялық өзін-өзі бақылауды пайдалана отырып, дананы сегменттеудегі ұзын құйрықты бақылаусыз ашу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 2603–2612, 2021 беттер. 3
[56] Валентин Хрулков, Лейла Мирвахабова, Евгения Устинова, Иван Оселедец және Виктор Лемпицкий. Гиперболалық кескінді енгізу. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 6418–6428, 2020 беттер. 3
[57] Дюрк П Кингма, Тим Салиманс және Макс Веллинг. Вариациялық тастау және жергілікті қайта параметрлеу трюк. Нейрондық ақпаратты өңдеу жүйелеріндегі жетістіктер, 28, 2015. 4
[58] Аарон ван ден Оорд, Яже Ли және Ориол Винялс. Контрастивті болжамды кодтау арқылы бейнелеуді оқыту. arXiv алдын ала басып шығару arXiv:1807.03748, 2018. 5
[59] Минсин Тан және Куок Ле. Efficientnet: конволюциялық нейрондық желілер үшін модельді масштабтауды қайта қарастыру. Машиналық оқыту бойынша халықаралық конференцияда, 6105–6114 беттер. PMLR, 2019. 6, 12
[60] Цзе Лю, Ютунг Лин, Юэ Цао, Хан Ху, Йисюан Вэй, Чжэн Чжан, Стивен Лин және Бейнинг Гуо. Айналмалы трансформатор: жылжымалы терезелерді пайдаланатын иерархиялық көру трансформаторы. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 10012–10022, 2021 беттер. 6, 7, 12
[61] Вэнхай Ван, Энцзе Си, Сян Ли, Дэн-Пин Фан, Кайтао Сон, Диң Лян, Тонг Лу, Пин Луо және Линг Шао. Pvt v2: пирамиданы көру трансформаторымен жақсартылған негізгі сызықтар. Есептеу визуалды медиа, 8(3):415–424, 2022. 6, 7
[62] Мингю Дин, Бин Сяо, Ноэль Коделла, Пин Луо, Цзиндун Ван және Лу Юань. Дэвит: Екі жақты назар аудару трансформаторлары. Компьютерлік көру бойынша Еуропалық конференцияда, 74–92 беттер. Springer, 2022. 6
[63] Пэнчуан Чжан, Сиян Дай, Цзянвэй Ян, Бин Сяо, Лу Юань, Лей Чжан және Цзянфэн Гао. Көп масштабты көру ұзаққа созғыш: жоғары ажыратымдылықтағы кескінді кодтауға арналған жаңа көру трансформаторы. Компьютерлік көру бойынша IEEE/CVF халықаралық конференциясының материалдарында, 2998–3008, 2021 беттер.
[64] Цун-И Лин, Прия Гойал, Росс Гиршик, Кайминг Хэ және Пиотр Доллар. Тығыз нысанды анықтау үшін фокус жоғалуы. ´ Компьютерлік көру бойынша IEEE халықаралық конференциясының материалдарында, 2980–2988 беттер, 2017. 6
[65] Элад Хоффер, Тал Бен-Нун, Итай Хубара, Нив Гилади, Торстен Хофлер және Дэниел Содри. Топтамаңызды көбейтіңіз: дананы қайталау арқылы жалпылауды жақсарту. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 8129–8138, 2020 беттер. 6
[66] Илья Лощилов және Фрэнк Хаттер. Бөлінген салмақтың ыдырауын реттеу. arXiv алдын ала басып шығару arXiv:1711.05101, 2017. 6
[67] Кайминг Хэ, Джорджия Гкиоксари, Пиотр Доллар және Росс Гиршик. Маска r-cnn. Компьютерлік көру бойынша IEEE халықаралық конференциясының материалдарында, 2961–2969 беттер, 2017. 7, 12
[68] Янхао Ли, Ханзи Мао, Росс Гиршик және Каймин Хэ. Объектіні анықтау үшін қарапайым көру трансформаторының магистральдарын зерттеу. Компьютерлік көру бойынша Еуропалық конференцияда, 280–296 беттер. Springer, 2022. 7
[69] Александр Кириллов, Росс Гиршик, Кайминг Хэ және Пиотр Доллар. Паноптикалық мүмкіндіктер пирамидалық желілер. Компьютерлік көру және үлгіні тану бойынша IEEE/CVF конференциясының материалдарында, 6399–6408, 2019 беттер. 7
[70] Тете Сяо, Инчэн Лю, Болей Чжоу, Юнин Цзян және Цзянь Сун. Сахнаны түсіну үшін бірыңғай перцептивті талдау. Компьютерлік көру бойынша Еуропалық конференция материалдарында (ECCV), 418–434 беттер, 2018. 7, 12