Autorët:
(1) Hyeongjun Kwon, Universiteti Yonsei;
(2) Jinhyun Jang, Universiteti Yonsei;
(3) Jin Kim, Universiteti Yonsei;
(4) Kwonyoung Kim, Universiteti Yonsei;
(5) Kwanghoon Sohn, Universiteti Yonsei dhe Instituti Korean i Shkencës dhe Teknologjisë (KIST).
Tabela e lidhjeve
4. Metoda
4.2. Pema e hierarkisë probabiliste
4.3. Zbërthimi i hierarkisë vizuale
4.4. Hierarkia e të nxënit në hapësirën hiperbolike
4.5. Kodimi i hierarkisë vizuale
5. Eksperimentet dhe 5.1. Klasifikimi i imazhit
5.2. Zbulimi i objekteve dhe segmentimi i shembullit
6. Studime dhe diskutime për ablation
7. Përfundim
Në këtë punim, ne kemi paraqitur një roman Visual Hierarchy Mapper (Hi-Mapper) që heton organizimin hierarkik të skenave vizuale. Ne e kemi arritur qëllimin duke përcaktuar rishtazi strukturën e ngjashme me pemën me shpërndarje probabiliteti dhe duke mësuar marrëdhëniet hierarkike në hapësirën hiperbolike. Ne kemi inkorporuar interpretimin hierarkik në humbjen kontrastive dhe kemi identifikuar në mënyrë efikase hierarkinë vizuale në një mënyrë efikase për të dhënat. Nëpërmjet një zbërthimi efektiv të hierarkisë dhe procedurave të kodimit, hierarkia e identifikuar është vendosur me sukses në përfaqësimin vizual global, duke përmirësuar kuptimin e strukturuar të një skene të tërë. Hi-Mapper ka përmirësuar vazhdimisht performancën e DNN-ve ekzistuese kur është integruar me to, dhe gjithashtu ka demonstruar efektivitetin në parashikime të ndryshme të dendura.
Mirënjohje . Ky hulumtim u mbështet nga Programi Yonsei Signature Research Cluster i 2022 (2022- 22-0002).
Referencat
[1] Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe dhe Ivan Oseledets. Transformatorët e vizionit hiperbolik: Kombinimi i përmirësimeve në të mësuarit metrikë. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 7409–7419, 2022. 1, 3
[2] Sungyeon Kim, Boseung Jeong dhe Suha Kwak. Hier: Të mësuarit metrikë përtej etiketimeve të klasës nëpërmjet rregullimit hierarkik. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 19903–19912, 2023. 1, 3
[3] Georgia Gkioxari, Ross Girshick, Piotr Dollar dhe Kaiming ´ He. Zbulimi dhe njohja e ndërveprimeve njeri-objekt. Në Procedurat e konferencës IEEE mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 8359–8367, 2018. 1
[4] Jinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon dhe Kwanghoon Sohn. Të dish se ku të fokusohesh: Transformatori Eventaware për tokëzimin e videos. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 13846–13856, 2023. 1
[5] Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng dhe Dacheng Tao. Mësimi i transferimit të përballueshmërisë për zbulimin e ndërveprimit njeri-objekt. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 495–504, 2021. 1
[6] Hyeongjun Kwon, Taeyong Song, Somi Jeong, Jin Kim, Jinhyun Jang dhe Kwanghoon Sohn. Të mësuarit probabilist të shpejtë për parashikim të dendur. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 6768–6777, 2023. 1, 3
[7] Jin Kim, Jiyoung Lee, Jungin Park, Dongbo Min dhe Kwanghoon Sohn. Gjuajtja e kujtesës: Mësoni të përgjithësoni segmentimin semantik. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 4350–4360, 2022. 1
[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, etj. Një imazh vlen 16x16 fjalë: Transformatorët për njohjen e imazhit në shkallë. arXiv paraprintim arXiv:2010.11929, 2020. 1
[9] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya dhe Jon Shlens. Vetëvëmendje e pavarur në modelet e vizionit. Përparimet në sistemet e përpunimit të informacionit nervor, 32, 2019. 1
[10] Hengshuang Zhao, Jiaya Jia dhe Vladlen Koltun. Eksplorimi i vëmendjes ndaj vetes për njohjen e imazhit. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 10076–10085, 2020. 7
[11] Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Xinghao Chen, Yunhe Wang dhe Chang Xu. Cmt: Rrjetet nervore konvolucionale takohen me transformatorët e vizionit. Në Punimet e Konferencës IEEE/CVF mbi Vizionin Kompjuterik dhe Njohjen e Modeleve, faqet 12175–12185, 2022.
[12] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan dhe Lei Zhang. Cvt: Prezantimi i konvolucioneve në transformatorët e vizionit. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 22–31, 2021. 1, 6
[13] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen dhe Baining Guo. Transformator Cswin: Një shtyllë e përgjithshme e transformatorit të vizionit me dritare në formë kryqi. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 12124–12134, 2022. 1
[14] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo dhe Ling Shao. Transformatori i vizionit piramidale: Një shtyllë e gjithanshme për parashikime të dendura pa konvolucione. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 568–578, 2021.
[15] Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik dhe Christoph Feichtenhofer. Mvitv2: Transformatorë të përmirësuar të vizionit në shumë shkallë për klasifikim dhe zbulim. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 4804–4814, 2022. 1
[16] Chun-Fu Richard Chen, Quanfu Fan dhe Rameswar Panda. Crossvit: Transformator vizioni në shumë shkallë me vëmendje të kryqëzuar për klasifikimin e imazheve. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 357–366, 2021. 1, 2, 6
[17] Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du, Xiaodan Liang dhe Xiaojun Chang. Përtej fiksimit: Transformator vizual dinamik i dritares. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 11987–11997, 2022. 1
[18] Shitao Tang, Jiahui Zhang, Siyu Zhu dhe Ping Tan. Vëmendje katërtree për transformatorët e vizionit. arXiv paraprintim arXiv:2201.02767, 2022. 2, 4
[19] Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B Tenenbaum dhe Chuang Gan. Transformatorët e varësisë vizuale: Pema e varësisë del nga vëmendja e kundërt. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 14528–14539, 2023. 2, 6, 7
[20] Tsung-Wei Ke, Sangwoo Mo dhe X Yu Stella. Mësimi i segmentimit hierarkik të imazhit për njohje dhe me njohje. Në Konferencën e Dymbëdhjetë Ndërkombëtare mbi Përfaqësimet Mësimore, 2023. 2, 4
[21] N. Linial, E. London dhe Y. Rabinovich. Gjeometria e grafikëve dhe disa nga aplikimet algoritmike të saj. Në Proceedings 35th Annual Symposium on Foundations of Computer Science, faqet 577–591, 1994. doi: 10.1109/ SFCS.1994.365733. 2
[22] Hongbin Pei, Bingzhe Wei, Kevin Chang, Chunxu Zhang dhe Bo Yang. Rregullimi i lakimit për të parandaluar shtrembërimin në futjen e grafikut. Përparimet në Sistemet e Përpunimit të Informacionit Neural, 33:20779–20790, 2020.
[23] Maximillian Nickel dhe Douwe Kiela. Embeddings Poincare ' për të mësuar përfaqësimet hierarkike. Përparimet në sistemet e përpunimit të informacionit nervor, 30, 2017.
[24] Maximillian Nickel dhe Douwe Kiela. Mësimi i hierarkive të vazhdueshme në modelin e lorencit të gjeometrisë hiperbolike. Në konferencën ndërkombëtare për mësimin e makinerive, faqet 3779– 3788. PMLR, 2018. 3
[25] Zhi Gao, Yuwei Wu, Yunde Jia dhe Mehrtash Harandi. Gjenerimi i lakimit në hapësirat e lakuara për të mësuar me pak goditje. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 8691–8700, 2021. 3
[26] Alexandru Tifrea, Gary Becigneul dhe Octavian-Eugen ´ Ganea. Poincar\'e glove: ngulitje hiperbolike të fjalëve. arXiv paraprintim arXiv:1810.06546, 2018. 3
[27] Yudong Zhu, Di Zhou, Jinghui Xiao, Xin Jiang, Xiao Chen dhe Qun Liu. Hiperteksti: Pajisja e tekstit të shpejtë me gjeometri hiperbolike. arXiv paraprintim arXiv:2010.16143, 2020. 3
[28] Ines Chami, Zhitao Ying, Christopher Re dhe Jure Leskovec. ´ Grafiku hiperbolik i rrjeteve nervore konvolucionale. Përparimet në sistemet e përpunimit të informacionit nervor, 32, 2019.
[29] Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson dhe Shanmukha Ramakrishna Vedantam. Paraqitje hiperbolike imazh-tekst. Në Konferencën Ndërkombëtare për Mësimin e Makinerisë, faqet 7694–7731. PMLR, 2023. 2, 3, 5
[30] Luke Vilnis dhe Andrew McCallum. Përfaqësimet e fjalëve nëpërmjet ngulitjes Gaussian. Në Konferencën Ndërkombëtare për Përfaqësimet Mësimore, 2015. 2
[31] Ben Athiwaratkun dhe Andrew Gordon Wilson. Shpërndarjet multimodale të fjalëve. arXiv paraprintim arXiv:1704.08424, 2017. 3
[32] Ben Athiwaratkun dhe Andrew Gordon Wilson. Mbështjelljet e rendit të densitetit hierarkik. Në Konferencën Ndërkombëtare për Përfaqësimet Mësimore, 2018.
[33] Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu dhe Yujiu Yang. Modelimi probabilistik i paqartësisë semantike për gjenerimin e grafikut të skenës. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 12527–12536, 2021. 2
[34] Kaiming He, Xiangyu Zhang, Shaoqing Ren dhe Jian Sun. Mësimi i thellë i mbetur për njohjen e imazhit. Në Procedurat e konferencës IEEE mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 770–778, 2016. 2, 6, 12
[35] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles dhe Herve Jegou. Trajnimi i transformatorëve të imazhit me efikasitet të të dhënave dhe distilimi përmes vëmendjes. Në konferencën ndërkombëtare mbi mësimin e makinerive, faqet 10347–10357. PMLR, 2021. 2, 6, 7, 12
[36] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li dhe Li Fei-Fei. Imagenet: Një bazë të dhënash hierarkike e imazheve në shkallë të gjerë. Në konferencën e 2009 IEEE mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 248–255. Ieee, 2009. 2, 6, 7, 8, 12, 14
[37] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar dhe C Lawrence ´ Zitnick. Microsoft coco: Objekte të zakonshme në kontekst. Në Computer Vision–ECCV 2014: Konferenca e 13-të Evropiane, Cyrih, Zvicër, 6-12 shtator 2014, Proceedings, Pjesa V 13, faqet 740–755. Springer, 2014. 6, 7
[38] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso dhe Antonio Torralba. Analiza e skenës përmes të dhënave ade20k. Në Procedurat e konferencës IEEE mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 633–641, 2017. 2, 7
[39] Pedro F Felzenszwalb, Ross B Girshick, David McAllester dhe Deva Ramanan. Zbulimi i objekteve me modele të trajnuara në mënyrë diskriminuese të bazuara në pjesë. Transaksionet IEEE mbi analizën e modeleve dhe inteligjencën e makinerisë, 32 (9): 1627-1645, 2009. 2
[40] Feng Han dhe Song-Chun Zhu. Analiza e imazhit nga poshtë-lart/lart-poshtë me gramatikën e atributeve. Transaksionet IEEE mbi analizën e modeleve dhe inteligjencën e makinerive, 31 (1): 59-73, 2008.
[41] Erik B Sudderth, Antonio Torralba, William T Freeman dhe Alan S Willsky. Mësimi i modeleve hierarkike të skenave, objekteve dhe pjesëve. Në Konferencën e Dhjetë Ndërkombëtare të IEEE mbi Vizionin Kompjuterik (ICCV'05) Vëllimi 1, vëllimi 2, faqet 1331–1338. IEEE, 2005.
[42] Zhuowen Tu, Xiangrong Chen, Alan L Yuille dhe Song-Chun Zhu. Analiza e imazhit: Unifikimi i segmentimit, zbulimit dhe njohjes. International Journal of computer vision, 63: 113–140, 2005. 2
[43] Tianfu Wu dhe Song-Chun Zhu. Një studim numerik i proceseve të përfundimit nga poshtë-lart dhe nga lart-poshtë në dhe-ose grafikë. Revista ndërkombëtare e vizionit kompjuterik, 93:226–252, 2011. 2
[44] Wenguan Wang, Zhijie Zhang, Siyuan Qi, Jianbing Shen, Yanwei Pang dhe Ling Shao. Mësimi i shkrirjes kompozicionale të informacionit nervor për analizimin e njeriut. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 5703–5713, 2019. 2
[45] Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen dhe Ling Shao. Analizimi hierarkik njerëzor me arsyetim të shtypur të marrëdhënieve të pjesshme. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 8929–8939, 2020. 2
[46] Sandro Braun, Patrick Esser dhe Bjorn Ommer. Zbulimi i pjesës së pambikëqyrur nga shkëputja e pambikëqyrur. Në njohjen e modelit: Konferenca e 42-të DAGM gjermane, DAGM GCPR 2020, Tubingen, Gjermani, 28 shtator–1 tetor 2020, punimet 42, faqet 345–359. Springer, 2021. 2
[47] Subhabrata Choudhury, Iro Laina, Christian Rupprecht dhe Andrea Vedaldi. Zbulimi i pjesës së pambikëqyrur nga rindërtimi kontrastiv. Përparimet në Sistemet e Përpunimit të Informacionit Neural, 34:28104–28118, 2021.
[48] Wei-Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming-Hsuan Yang dhe Jan Kautz. Scops: Segmentimi i bashkëpjesëve i vetë-mbikëqyrur. Në punimet e Konferencës IEEE/CVF mbi Vizionin Kompjuterik dhe Njohjen e Modeleve, faqet 869–878, 2019. 2
[49] Tsung-Wei Ke, Sangwoo Mo dhe Stella X. Yu. Mësimi i segmentimit hierarkik të imazhit për njohje dhe me njohje. Në Konferencën e Dymbëdhjetë Ndërkombëtare mbi Përfaqësimet Mësimore, 2024. 2
[50] Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio De Rezende, Yannis Kalantidis dhe Diane Larlus. Mbështetje probabilistike për rimarrje ndër-modale. Në Procedurat e Konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 8415–8424, 2021. 3, 5
[51] Yichun Shi dhe Anil K Jain. Mbështjellje probabiliste të fytyrës. Në Procedurat e Konferencës Ndërkombëtare IEEE/CVF mbi Vizionin Kompjuterik, faqet 6902–6911, 2019. 3
[52] Jungin Park, Jiyoung Lee, Ig-Jae Kim dhe Kwanghoon Sohn. Paraqitje probabilistike për të mësuarit kontrastiv video. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 14711–14721, 2022. 3
[53] Maximillian Nickel dhe Douwe Kiela. Embeddings Poincare ' për të mësuar përfaqësimet hierarkike. Përparimet në sistemet e përpunimit të informacionit nervor, 30, 2017. 3
[54] Mina Ghadimi Atigh, Julian Schoep, Erman Acar, Nanne Van Noord dhe Pascal Mettes. Segmentimi hiperbolik i imazhit. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 4453–4462, 2022. 3
[55] Zhenzhen Weng, Mehmet Giray Ogut, Shai Limonchik dhe Serena Yeung. Zbulimi i pambikëqyrur i bishtit të gjatë në segmentimin e shembullit duke përdorur vetë-mbikëqyrjen hierarkike. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 2603–2612, 2021. 3
[56] Valentin Khrulkov, Leyla Mirvakhabova, Evgeniya Ustinova, Ivan Oseledets dhe Victor Lempitsky. Vendosjet hiperbolike të imazhit. Në punimet e Konferencës IEEE/CVF mbi Vizionin Kompjuterik dhe Njohjen e Modeleve, faqet 6418–6428, 2020. 3
[57] Durk P Kingma, Tim Salimans dhe Max Welling. Braktisja variacionale dhe truku i riparametizimit lokal. Përparimet në sistemet e përpunimit të informacionit nervor, 28, 2015. 4
[58] Aaron van den Oord, Yazhe Li dhe Oriol Vinyals. Mësimi i përfaqësimit me kodim parashikues kontrasiv. arXiv preprint arXiv:1807.03748, 2018. 5
[59] Mingxing Tan dhe Quoc Le. Efficientnet: Rimendimi i shkallëzimit të modelit për rrjetet nervore konvolucionale. Në konferencën ndërkombëtare mbi mësimin e makinerive, faqet 6105–6114. PMLR, 2019. 6, 12
[60] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin dhe Baining Guo. Transformatori Swin: Transformator vizioni hierarkik duke përdorur dritare të zhvendosura. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 10012–10022, 2021. 6, 7, 12
[61] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo dhe Ling Shao. Pvt v2: Vija bazë e përmirësuar me transformatorin e vizionit piramidale. Media vizuale kompjuterike, 8(3):415–424, 2022. 6, 7
[62] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang dhe Lu Yuan. Davit: Transformatorë vizioni me vëmendje të dyfishtë. Në Konferencën Evropiane për Vizionin Kompjuterik, faqet 74–92. Springer, 2022. 6
[63] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang dhe Jianfeng Gao. Longformer i vizionit në shumë shkallë: Një transformator i ri vizioni për kodimin e imazhit me rezolucion të lartë. Në Procedurat e konferencës ndërkombëtare IEEE/CVF mbi vizionin kompjuterik, faqet 2998–3008, 2021.
[64] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He dhe Piotr Dollar. Humbje fokale për zbulimin e objekteve të dendura. Në Procedurat e konferencës ndërkombëtare IEEE mbi vizionin kompjuterik, faqet 2980–2988, 2017. 6
[65] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler dhe Daniel Soudry. Shtoni grupin tuaj: Përmirësimi i përgjithësimit përmes përsëritjes së shembullit. Në punimet e Konferencës IEEE/CVF mbi Vizionin Kompjuterik dhe Njohjen e Modeleve, faqet 8129–8138, 2020. 6
[66] Ilya Loshchilov dhe Frank Hutter. Rregullimi i shkëputur i prishjes së peshës. arXiv paraprintim arXiv:1711.05101, 2017. 6
[67] Kaiming He, Georgia Gkioxari, Piotr Dollar dhe Ross Girshick. Maska r-cnn. Në Procedurat e konferencës ndërkombëtare IEEE mbi vizionin kompjuterik, faqet 2961– 2969, 2017. 7, 12
[68] Yanghao Li, Hanzi Mao, Ross Girshick dhe Kaiming He. Eksplorimi i shtyllave kurrizore të transformatorit të shikimit të thjeshtë për zbulimin e objekteve. Në Konferencën Evropiane për Vizionin Kompjuterik, faqet 280–296. Springer, 2022. 7
[69] Alexander Kirillov, Ross Girshick, Kaiming He dhe Piotr Dollar. Rrjetet piramidale me tipare panoptike. Në Procedurat e konferencës IEEE/CVF mbi vizionin kompjuterik dhe njohjen e modeleve, faqet 6399–6408, 2019. 7
[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang dhe Jian Sun. Analizim i unifikuar perceptues për të kuptuar skenën. Në Procedurat e konferencës evropiane për vizionin kompjuterik (ECCV), faqet 418–434, 2018. 7, 12
Ky dokument është i disponueshëm në arxiv nën licencën CC BY 4.0 DEED.