Szerzői:
(1) Hyeongjun Kwon, Yonsei Egyetem;
(2) Jinhyun Jang, Yonsei Egyetem;
(3) Jin Kim, Yonsei Egyetem;
(4) Kwonyoung Kim, Yonsei Egyetem;
(5) Kwanghoon Sohn, a Yonsei Egyetem és a Koreai Tudományos és Technológiai Intézet (KIST).
Hivatkozások táblázata
4. Módszer
4.2. Valószínűségi hierarchia fa
4.3. Vizuális hierarchia bontása
4.4. Tanulási hierarchia hiperbolikus térben
4.5. Vizuális hierarchia kódolás
5. Kísérletek és 5.1. Képosztályozás
5.2. Objektumészlelés és példányszegmentálás
6. Ablációs vizsgálatok és megbeszélés
7. Következtetések és irodalom
7. Következtetés
Ebben a cikkben bemutattunk egy új Visual Hierarchy Mappert (Hi-Mapper), amely a vizuális jelenetek hierarchikus szerveződését vizsgálja. Elértük a célt azáltal, hogy újonnan definiáltuk a valószínűségi eloszlású faszerű struktúrát, és megtanultuk a hierarchikus kapcsolatokat a hiperbolikus térben. A hierarchikus értelmezést beépítettük a kontrasztív veszteségbe, és hatékonyan, adathatékony módon azonosítottuk a vizuális hierarchiát. A hatékony hierarchia-bontási és kódolási eljárások révén az azonosított hierarchia sikeresen beépült a globális vizuális megjelenítésbe, javítva a teljes jelenet strukturált megértését. A Hi-Mapper következetesen javította a meglévő DNN-ek teljesítményét azokkal integrálva, és bemutatta a hatékonyságot különböző sűrű előrejelzéseknél.
Elismerés . Ezt a kutatást a Yonsei Signature Research Cluster Program 2022 (2022-22-0002) támogatta.
Hivatkozások
[1] Alekszandr Ermolov, Leyla Mirvakhabova, Valentin Hrulkov, Nicu Sebe és Ivan Oseledets. Hiperbolikus látástranszformátorok: A metrikus tanulás fejlesztéseinek kombinálása. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 7409–7419, 2022. 1., 3.
[2] Sungyeon Kim, Boseung Jeong és Suha Kwak. Hier: Az osztálycímkéken túlmutató metrikus tanulás hierarchikus rendszerezésen keresztül. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 19903–19912, 2023. 1., 3.
[3] Georgia Gkioxari, Ross Girshick, Piotr Dollar és Kaiming ´He. Az ember-tárgy interakciók észlelése és felismerése. A számítógépes látásról és mintafelismerésről szóló IEEE konferencia anyaga, 8359–8367. oldal, 2018. 1
[4] Jinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon és Kwanghoon Sohn. Tudva, hol kell összpontosítani: Eventaware transzformátor videó földeléshez. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 13846–13856, 2023. 1
[5] Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng és Dacheng Tao. Megfizethetőség transzfer tanulás az ember-objektum interakció észleléséhez. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 495–504. oldal, 2021. 1
[6] Hyeongjun Kwon, Taeyong Song, Somi Jeong, Jin Kim, Jinhyun Jang és Kwanghoon Sohn. Valószínűségi azonnali tanulás a sűrű előrejelzéshez. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 6768–6777, 2023. 1, 3
[7] Jin Kim, Jiyoung Lee, Jungin Park, Dongbo Min és Kwanghoon Sohn. A memória rögzítése: a szemantikai szegmentáció általánosításának megtanulása. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4350–4360, 2022. 1
[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly és mások. Egy kép 16x16 szót ér: Transzformátorok a méretarányos képfelismeréshez. arXiv preprint arXiv:2010.11929, 2020. 1
[9] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya és Jon Shlens. Önálló önfigyelem látásmodellekben. Fejlődés a neurális információfeldolgozó rendszerekben, 2019. 32. 1
[10] Hengshuang Zhao, Jiaya Jia és Vladlen Koltun. Az önfigyelem felfedezése a képfelismeréshez. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 10076–10085. oldal, 2020. 7
[11] Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Xinghao Chen, Yunhe Wang és Chang Xu. Cmt: A konvolúciós neurális hálózatok találkoznak a látástranszformátorokkal. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 12175–12185, 2022.
[12] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan és Lei Zhang. Cvt: Konvolúciók bevezetése látótranszformátorokhoz. In Proceedings of the IEEE/CVF International Conference on Computer vision, 22–31 pages, 2021. 1, 6
[13] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen és Baining Guo. Cswin transzformátor: Általános látó transzformátor gerinc kereszt alakú ablakokkal. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 12124–12134, 2022. 1
[14] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo és Ling Shao. Piramis látó transzformátor: Sokoldalú gerinc a sűrű előrejelzéshez kanyarodás nélkül. In Proceedings of the IEEE/CVF International Conference on Computer vision, 568–578 pages, 2021.
[15] Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik és Christoph Feichtenhofer. Mvitv2: Továbbfejlesztett többléptékű látótranszformátorok osztályozáshoz és észleléshez. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 4804–4814, 2022. 1
[16] Chun-Fu Richard Chen, Quanfu Fan és Rameswar Panda. Crossvit: Cross-attention többléptékű látótranszformátor a képosztályozáshoz. In Proceedings of the IEEE/CVF International Conference on Computer vision, 357–366. oldal, 2021. 1, 2, 6
[17] Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du, Xiaodan Liang és Xiaojun Chang. Rögzítésen túl: Dinamikus ablak vizuális transzformátor. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 11987–11997, 2022. 1
[18] Shitao Tang, Jiahui Zhang, Siyu Zhu és Ping Tan. Quadtree figyelem a látótranszformátorokhoz. arXiv preprint arXiv:2201.02767, 2022. 2, 4
[19] Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B Tenenbaum és Chuang Gan. Vizuális függőségi transzformátorok: A függőségi fa a fordított figyelemből jön létre. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 14528–14539, 2023. 2, 6, 7
[20] Tsung-Wei Ke, Sangwoo Mo és X Yu Stella. Hierarchikus képszegmentálás elsajátítása felismeréshez és felismeréssel. In The Twelfth International Conference on Learning Representations, 2023. 2, 4
[21] N. Linial, E. London és Y. Rabinovich. A gráfok geometriája és néhány algoritmikus alkalmazása. In Proceedings 35th Annual Symposium on Foundations of Computer Science, 577–591. oldal, 1994. doi: 10.1109/ SFCS.1994.365733. 2
[22] Hongbin Pei, Bingzhe Wei, Kevin Chang, Chunxu Zhang és Bo Yang. Görbületszabályozás a torzítás megelőzése érdekében a grafikon beágyazásakor. Advances in Neural Information Processing Systems, 33:20779–20790, 2020.
[23] Maximillian Nickel és Douwe Kiela. Poincare beágyazások a hierarchikus reprezentációk megtanulásához. Fejlődés a neurális információfeldolgozó rendszerekben, 2017. 30.
[24] Maximillian Nickel és Douwe Kiela. Folyamatos hierarchiák tanulása a hiperbolikus geometria Lorentz-modelljében. In International Conference on Machine learning, 3779–3788. PMLR, 2018. 3
[25] Zhi Gao, Yuwei Wu, Yunde Jia és Mehrtash Harandi. Görbület generálása ívelt terekben a néhány felvételes tanuláshoz. In Proceedings of the IEEE/CVF International Conference on Computer vision, 8691–8700, 2021. 3
[26] Alexandru Tifrea, Gary Becigneul és Octavian-Eugen ´Ganea. Poincar\'e glove: Hiperbolikus szóbeágyazások. arXiv preprint arXiv:1810.06546, 2018. 3
[27] Yudong Zhu, Di Zhou, Jinghui Xiao, Xin Jiang, Xiao Chen és Qun Liu. Hipertext: Gyorsszöveg felruházása hiperbolikus geometriával. arXiv preprint arXiv:2010.16143, 2020. 3
[28] Ines Chami, Zhitao Ying, Christopher Re és Jure Leskovec. ´ Konvolúciós neurális hálózatok hiperbolikus gráfja. Fejlődés a neurális információfeldolgozó rendszerekben, 2019. 32.
[29] Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson és Shanmukha Ramakrishna Vedantam. Hiperbolikus kép-szöveg reprezentációk. In International Conference on Machine Learning, 7694–7731. oldal. PMLR, 2023. 2., 3., 5
[30] Luke Vilnis és Andrew McCallum. Szóábrázolás Gauss-féle beágyazással. In International Conference on Learning Representations, 2015. 2
[31] Ben Athiwaratkun és Andrew Gordon Wilson. Multimodális szóeloszlások. arXiv preprint arXiv:1704.08424, 2017. 3
[32] Ben Athiwaratkun és Andrew Gordon Wilson. Hierarchikus sűrűségrend beágyazások. Nemzetközi Tanulási Reprezentációk Konferencián, 2018.
[33] Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu és Yujiu Yang. A szemantikai többértelműség valószínűségi modellezése jelenetgráf generálásához. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 12527–12536, 2021. 2
[34] Kaiming He, Xiangyu Zhang, Shaoqing Ren és Jian Sun. Mély maradék tanulás a képfelismeréshez. A számítógépes látásról és mintafelismerésről szóló IEEE konferencia anyaga, 770–778. oldal, 2016. 2, 6, 12
[35] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles és Herve Jegou. Adathatékony képtranszformátorok és desztilláció képzése a figyelem segítségével. A gépi tanulásról szóló nemzetközi konferencia, 10347–10357. oldal. PMLR, 2021. 2., 6., 7., 12
[36] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li és Li Fei-Fei. Imagenet: Nagyméretű hierarchikus képadatbázis. 2009-ben az IEEE számítógépes látással és mintafelismeréssel foglalkozó konferenciája, 248–255. oldal. Ieee, 2009. 2, 6, 7, 8, 12, 14
[37] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar és C Lawrence ´ Zitnick. Microsoft coco: Gyakori objektumok kontextusban. In Computer Vision–ECCV 2014: 13th European Conference, Zürich, Svájc, 2014. szeptember 6–12., Proceedings, V. rész 13, 740–755. Springer, 2014. 6., 7
[38] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso és Antonio Torralba. Jelenet elemzése ade20k adatkészleten keresztül. A számítógépes látásról és mintafelismerésről szóló IEEE konferencia anyaga, 633–641. oldal, 2017. 2, 7
[39] Pedro F. Felzenszwalb, Ross B Girshick, David McAllester és Deva Ramanan. Tárgyérzékelés diszkriminatívan betanított rész-alapú modellekkel. IEEE-tranzakciók a mintaelemzésről és a gépi intelligenciáról, 32(9):1627–1645, 2009. 2
[40] Feng Han és Song-Chun Zhu. Alulról felfelé/felülről lefelé irányuló képelemzés attribútumnyelvtannal. IEEE-tranzakciók a mintaelemzésről és a gépi intelligenciáról, 31(1):59–73, 2008.
[41] Erik B Sudderth, Antonio Torralba, William T. Freeman és Alan S Willsky. Jelenetek, tárgyak és részek hierarchikus modelljeinek elsajátítása. In Tenth IEEE International Conference on Computer Vision (ICCV'05) 1. kötet, 2. kötet, 1331–1338. oldal. IEEE, 2005.
[42] Zhuowen Tu, Xiangrong Chen, Alan L Yuille és Song-Chun Zhu. Képelemzés: Egységes szegmentálás, észlelés és felismerés. International Journal of Computer vision, 63: 113–140, 2005. 2
[43] Tianfu Wu és Song-Chun Zhu. Az alulról felfelé és felülről lefelé irányuló következtetési folyamatok numerikus vizsgálata és-vagy grafikonokban. International Journal of Computer vision, 93:226–252, 2011. 2
[44] Wenguan Wang, Zhijie Zhang, Siyuan Qi, Jianbing Shen, Yanwei Pang és Ling Shao. Kompozíciós neurális információfúzió elsajátítása emberi elemzéshez. In Proceedings of the IEEE/CVF nemzetközi konferencia a számítógépes látással kapcsolatban, 5703–5713. oldal, 2019. 2
[45] Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen és Ling Shao. Hierarchikus emberi elemzés gépelt részkapcsolati érveléssel. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 8929–8939. oldal, 2020. 2
[46] Sandro Braun, Patrick Esser és Bjorn Ommer. Felügyelet nélküli alkatrész felfedezése felügyelet nélküli szétválasztással. A mintafelismerésben: 42. DAGM német konferencia, DAGM GCPR 2020, Tubingen, Németország, 2020. szeptember 28.–október 1., Proceedings 42, 345–359. Springer, 2021. 2
[47] Subhabrata Choudhury, Iro Laina, Christian Rupprecht és Andrea Vedaldi. Felügyelet nélküli alkatrészfelfedezés kontrasztív rekonstrukcióból. Advances in Neural Information Processing Systems, 34:28104–28118, 2021.
[48] Wei-Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming-Hsuan Yang és Jan Kautz. Alkalmazási terület: Önfelügyelt társrész-szegmentálás. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 869–878. oldal, 2019. 2
[49] Tsung-Wei Ke, Sangwoo Mo és Stella X. Yu. Hierarchikus képszegmentálás elsajátítása felismeréshez és felismeréssel. A tanulási reprezentációk tizenkettedik nemzetközi konferenciáján, 2024. 2
[50] Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio De Rezende, Yannis Kalantidis és Diane Larlus. Valószínűségi beágyazások keresztmodális visszakereséshez. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 8415–8424, 2021. 3, 5
[51] Yichun Shi és Anil K Jain. Valószínűségi arcbeágyazások. In Proceedings of the IEEE/CVF International Conference on Computer Vision, 6902–6911, 2019. 3
[52] Jungin Park, Jiyoung Lee, Ig-Jae Kim és Kwanghoon Sohn. Valószínűségi ábrázolások videó kontrasztív tanuláshoz. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 14711–14721, 2022. 3
[53] Maximillian Nickel és Douwe Kiela. Poincare beágyazások a hierarchikus reprezentációk megtanulásához. Fejlődés a neurális információfeldolgozó rendszerekben, 2017. 30. 3
[54] Mina Ghadimi Atigh, Julian Schoep, Erman Acar, Nanne Van Noord és Pascal Mettes. Hiperbolikus képszegmentálás. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 4453–4462. oldal, 2022. 3
[55] Zhenzhen Weng, Mehmet Giray Ogut, Shai Limonchik és Serena Yeung. A hosszú farok felügyelet nélküli felfedezése a példányszegmentálásban hierarchikus önfelügyelet segítségével. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 2603–2612. oldal, 2021. 3
[56] Valentin Hrulkov, Leila Mirvahabova, Evgeniya Ustinova, Ivan Oseledets és Victor Lempitsky. Hiperbolikus képbeágyazások. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 6418–6428, 2020. 3
[57] Durk P Kingma, Tim Salimans és Max Welling. Változatos kiesés és a helyi újraparaméterezési trükk. Fejlődés a neurális információfeldolgozó rendszerekben, 2015. 28. 4
[58] Aaron van den Oord, Yazhe Li és Oriol Vinyals. Reprezentatív tanulás kontrasztív prediktív kódolással. arXiv preprint arXiv:1807.03748, 2018. 5
[59] Mingxing Tan és Quoc Le. Efficientnet: A modell skálázásának újragondolása konvolúciós neurális hálózatokhoz. A gépi tanulásról szóló nemzetközi konferencia, 6105–6114. oldal. PMLR, 2019. 6., 12
[60] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin és Baining Guo. Swin transzformátor: Hierarchikus látótranszformátor eltolt ablakokkal. In Proceedings of the IEEE/CVF International Conference on Computer vision, 10012–10022, 2021. 6, 7, 12
[61] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo és Ling Shao. Pvt v2: Továbbfejlesztett alapvonalak piramis látó transzformátorral. Computational Visual Media, 8(3):415–424, 2022. 6, 7
[62] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang és Lu Yuan. Davit: Kettős figyelem látó transzformátorok. A Számítógépes Látás Európai Konferenciájában, 74–92. Springer, 2022. 6
[63] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang és Jianfeng Gao. Multi-scale vision longformer: Új látástranszformátor a nagy felbontású képkódoláshoz. In Proceedings of the IEEE/CVF International Conference on Computer vision, 2998–3008, 2021. oldal.
[64] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He és Piotr Dollar. Fókuszveszteség a sűrű objektumok észleléséhez. ´ In Proceedings of the IEEE International Conference on Computer vision, 2980–2988, 2017. 6
[65] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler és Daniel Soudry. Bővítse kötegét: Az általánosítás javítása példányismétléssel. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 8129–8138, 2020. 6
[66] Ilja Loscsilov és Frank Hutter. Leválasztott súlycsökkenési rendszerezés. arXiv preprint arXiv:1711.05101, 2017. 6
[67] Kaiming He, Georgia Gkioxari, Piotr Dollar és Ross Girshick. Maszk r-cnn. In Proceedings of the IEEE International Conference on Computer vision, 2961–2969 oldal, 2017. 7, 12
[68] Yanghao Li, Hanzi Mao, Ross Girshick és Kaiming He. A sima látó transzformátor gerinceinek felfedezése tárgyfelismeréshez. In European Conference on Computer Vision, 280–296. oldal. Springer, 2022. 7
[69] Alexander Kirillov, Ross Girshick, Kaiming He és Piotr Dollar. Panoptikus jellemző piramishálózatok. A számítógépes látással és mintafelismeréssel foglalkozó IEEE/CVF konferencia anyaga, 6399–6408. oldal, 2019. 7
[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang és Jian Sun. Egységes észlelési elemzés a jelenet megértéséhez. In Proceedings of the European Conference on Computer vision (ECCV), 418–434. oldal, 2018. 7, 12
Ez a papír a CC BY 4.0 DEED licenc alatt érhető el az arxiv oldalon .