如果人工智能像我们一样理解图像会怎样？这个模型可能

在本文中，我们提出了一种新颖的视觉层次映射器 (Hi-Mapper)，用于研究视觉场景的层次结构。我们通过重新定义具有概率分布的树状结构并学习双曲空间中的层次关系实现了这一目标。我们将层次解释纳入对比损失，并以数据高效的方式有效地识别了视觉层次。通过有效的层次分解和编码程序，已识别的层次已成功部署到全局视觉表示中，增强了对整个场景的结构化理解。Hi-Mapper 与现有 DNN 集成后，不断提高其性能，并证明了其对各种密集预测的有效性。

致谢。本研究得到了 2022 年延世签名研究集群计划 (2022- 22-0002) 的支持。

参考

[1] Aleksandr Ermolov、Leyla Mirvakhabova、Valentin Khrulkov、Nicu Sebe 和 Ivan Oseledets。双曲视觉变换器：结合度量学习的改进。在 IEEE/CVF 计算机视觉和模式识别会议论文集，第 7409–7419 页，2022 年。1、3

[2] Sungyeon Kim、Boseung Jeong 和 Suha Kwak。Hier：通过分层正则化实现超越类标签的度量学习。IEEE/CVF 计算机视觉和模式识别会议论文集，第 19903-19912 页，2023 年。1、3

[3] Georgia Gkioxari、Ross Girshick、Piotr Dollar 和 Kaiming ´ He。检测和识别人与物体的交互。IEEE 计算机视觉和模式识别会议论文集，第 8359-8367 页，2018 年。1

[4] Jinhyun Jang、Jungin Park、Jin Kim、Hyeongjun Kwon 和 Kwanghoon Sohn。了解焦点所在：用于视频接地的 Eventaware 变换器。IEEE/CVF 计算机视觉和模式识别会议论文集，第 13846-13856 页，2023 年。1

[5] 侯志、余宝生、乔宇、彭晓江、陶大成。人与物体交互检测的可供性迁移学习。IEEE/CVF 计算机视觉与模式识别会议论文集，第 495-504 页，2021 年。1

[6] Hyeongjun Kwon、Taeyong Song、Somi Jeong、Jin Kim、Jinhyun Jang 和 Kwanghoon Sohn。用于密集预测的概率提示学习。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6768-6777 页，2023 年。1、3

[7] Jin Kim、Jiyoung Lee、Jungin Park、Dongbo Min 和 Kwanghoon Sohn。固定记忆：学习概括语义分割。IEEE/CVF 计算机视觉和模式识别会议论文集，第 4350-4360 页，2022 年。1

[8] Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly 等。一张图像相当于 16x16 个单词：用于大规模图像识别的 Transformer。 arXiv 预印本 arXiv:2010.11929, 2020.1

[9] Prajit Ramachandran、Niki Parmar、Ashish Vaswani、Irwan Bello、Anselm Levskaya 和 Jon Shlens。视觉模型中的独立自注意力。神经信息处理系统进展，32，2019 年。1

[10] Hengshuang Zhao、Jiaya Jia 和 Vladlen Koltun。探索用于图像识别的自注意力。IEEE/CVF 计算机视觉和模式识别会议论文集，第 10076-10085 页，2020 年。7

[11] Jianyuan Guo、Kai Han、Han Wu、Yehui Tang、Xinghao Chen、Yunhe Wang 和 Chang Xu。Cmt：卷积神经网络与视觉变换器相遇。IEEE/CVF 计算机视觉与模式识别会议论文集，第 12175-12185 页，2022 年。

[12] Haiping Wu、Bin Xiao、Noel Codella、Mengchen Liu、Xiyang Dai、Lu Yuan 和 Lei Zhang。Cvt：将卷积引入视觉变换器。IEEE/CVF 国际计算机视觉会议论文集，第 22-31 页，2021 年。1、6

[13] Xiaoyi Dong、Jianmin Bao、Dongdong Chen、Weiming Zhang、Nenghai Yu、Lu Yuan、Dong Chen 和 Baining Guo。Cswin transformer：具有十字形窗口的通用视觉变换器主干。IEEE/CVF 计算机视觉和模式识别会议论文集，第 12124-12134 页，2022 年。1

[14] 王文海、谢恩泽、李翔、范登平、宋凯涛、梁丁、陆彤、罗平和邵玲。金字塔视觉变换器：一种无需卷积即可进行密集预测的多功能主干。IEEE/CVF 国际计算机视觉会议论文集，第 568-578 页，2021 年。

[15] Yanghao Li、Chao-Yuan Wu、Haoqi Fan、Karttikeya Mangalam、Bo Xiong、Jitendra Malik 和 Christoph Feichtenhofer。Mvitv2：改进的用于分类和检测的多尺度视觉变换器。IEEE/CVF 计算机视觉和模式识别会议论文集，第 4804-4814 页，2022 年。1

[16] Chun-Fu Richard Chen、Quanfu Fan 和 Rameswar Panda。Crossvit：用于图像分类的交叉注意多尺度视觉变换器。IEEE/CVF 国际计算机视觉会议论文集，第 357-366 页，2021 年。1、2、6

[17] Pengzhen Ren、Changlin Li、Guangrun Wang、Yun Xiao、Qing Du、Xiaodan Liang 和 Xiaojun Chang。超越注视：动态窗口视觉变换器。IEEE/CVF 计算机视觉与模式识别会议论文集，第 11987-11997 页，2022 年。1

[18] 唐世涛，张家辉，朱思宇，谭平。视觉变换器的四叉树注意力。 arXiv 预印本 arXiv:2201.02767, 2022. 2, 4

[19] Mingyu Ding、Yikang Shen、Lijie Fan、Zhenfang Chen、Zitian Chen、Ping Luo、Joshua B Tenenbaum 和 Chuang Gan。视觉依赖关系转换器：依赖关系树从反向注意力中浮现。IEEE/CVF 计算机视觉与模式识别会议论文集，第 14528–14539 页，2023 年。2、6、7

[20] Tsung-Wei Ke、Sangwoo Mo 和 X Yu Stella。学习分层图像分割以进行识别和通过识别。第十二届国际学习表征会议，2023 年。2、4

[21] N. Linial、E. London 和 Y. Rabinovich。图的几何形状及其一些算法应用。第 35 届计算机科学基础年会论文集，第 577-591 页，1994 年。doi：10.1109/SFCS.1994.365733。2

[22] 裴宏斌、魏冰哲、张凯文、张春旭、杨博。曲率正则化可防止图嵌入中的失真。神经信息处理系统进展，33：20779–20790，2020 年。

[23] Maximillian Nickel 和 Douwe Kiela。庞加莱嵌入用于学习分层表示。神经信息处理系统进展，2017 年 30 日。

[24] Maximillian Nickel 和 Douwe Kiela。学习双曲几何洛伦兹模型中的连续层次结构。国际机器学习会议，第 3779-3788 页。PMLR，2018 年。3

[25] 高志、吴宇伟、贾云德和 Mehrtash Harandi。少样本学习中曲面空间的曲率生成。IEEE/CVF 国际计算机视觉会议论文集，第 8691-8700 页，2021 年。3

[26] Alexandru Tifrea、Gary Becigneul 和 Octavian-Eugen ´ Ganea。庞加莱手套：双曲词嵌入。arXiv 预印本 arXiv:1810.06546，2018 年。3

[27] 朱玉东，周迪，肖晶辉，蒋欣，陈晓，刘群。超文本：赋予快速文本双曲几何形状。 arXiv 预印本 arXiv:2010.16143, 2020.3

[28] Ines Chami、Zhitao Ying、Christopher Re 和 Jure Leskovec。双曲图卷积神经网络。神经信息处理系统进展，第 32 卷，2019 年。

[29] Karan Desai、Maximilian Nickel、Tanmay Rajpurohit、Justin Johnson 和 Shanmukha Ramakrishna Vedantam。双曲线图像文本表示。国际机器学习会议，第 7694-7731 页。PMLR，2023 年。2、3、5

[30] Luke Vilnis 和 Andrew McCallum。通过高斯嵌入实现词表征。国际学习表征会议，2015 年。2

[31] Ben Athiwaratkun 和 Andrew Gordon Wilson。多模态词分布。arXiv 预印本 arXiv:1704.08424，2017 年。3

[32] Ben Athiwaratkun 和 Andrew Gordon Wilson。分层密度顺序嵌入。国际学习表征会议，2018 年。

[33] 杨耿聪、张静怡、张勇、吴宝元、杨玉久。场景图生成的语义歧义概率建模。IEEE/CVF 计算机视觉与模式识别会议论文集，第 12527-12536 页，2021 年。2

[34] 何开明、张翔宇、任少卿、孙健。深度残差学习在图像识别中的应用。IEEE 计算机视觉与模式识别会议论文集，第 770-778 页，2016 年。2、6、12

[35] Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles 和 Herve Jegou。通过注意力机制训练高效数据图像变换器和提炼。国际机器学习会议，第 10347–10357 页。PMLR，2021 年。2、6、7、12

[36] Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li 和 Li Fei-Fei。Imagenet：大型分层图像数据库。2009 年 IEEE 计算机视觉和模式识别会议，第 248-255 页。IEEE，2009 年。2、6、7、8、12、14

[37] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollar 和 C Lawrence ´ Zitnick。Microsoft coco：上下文中的常见对象。《Computer Vision–ECCV 2014：第 13 届欧洲会议》，瑞士苏黎世，2014 年 9 月 6-12 日，论文集，第 V 部分 13，第 740-755 页。Springer，2014 年。6、7

[38] Bolei Zhou、Hang Zhao、Xavier Puig、Sanja Fidler、Adela Barriuso 和 Antonio Torralba。通过 ade20k 数据集进行场景解析。IEEE 计算机视觉和模式识别会议论文集，第 633-641 页，2017 年。2、7

[39] Pedro F Felzenszwalb、Ross B Girshick、David McAllester 和 Deva Ramanan。使用经过判别性训练的基于部件的模型进行对象检测。IEEE 模式分析与机器智能交易，32(9):1627–1645，2009 年。2

[40] 韩峰，朱松春，自下而上/自上而下的图像解析与属性语法，IEEE 模式分析与机器智能交易，31(1):59–73，2008 年。

[41] Erik B Sudderth、Antonio Torralba、William T Freeman 和 Alan S Willsky。学习场景、物体和部件的分层模型。第十届 IEEE 国际计算机视觉会议 (ICCV'05) 第 1 卷、第 2 卷，第 1331-1338 页。IEEE，2005 年。

[42] Zhuowen Tu、Xiangrong Chen、Alan L Yuille 和 Song-Chun Zhu。图像解析：统一分割、检测和识别。国际计算机视觉杂志，63：113-140，2005 年。2

[43] 吴天福和朱松春。“与或”图中自下而上和自上而下的推理过程的数值研究”。《国际计算机视觉杂志》，93:226–252，2011 年。2

[44] 王文冠、张志杰、齐思远、沈建兵、庞彦伟、邵玲。学习组合神经信息融合进行人体解析。IEEE/CVF 国际计算机视觉会议论文集，第 5703-5713 页，2019 年。2

[45] 王文冠、朱海龙、戴继峰、庞彦伟、沈建兵和邵玲。使用类型化部分关系推理的分层人体解析。IEEE/CVF 计算机视觉和模式识别会议论文集，第 8929-8939 页，2020 年。2

[46] Sandro Braun、Patrick Esser 和 Bjorn Ommer。通过无监督解缠实现无监督部件发现。《模式识别：第 42 届 DAGM 德国会议》，DAGM GCPR 2020，德国图宾根，2020 年 9 月 28 日至 10 月 1 日，会议录 42，第 345-359 页。Springer，2021 年。2

[47] Subhabrata Choudhury、Iro Laina、Christian Rupprecht 和 Andrea Vedaldi。通过对比重建实现无监督部分发现。神经信息处理系统进展，34：28104–28118，2021 年。

[48] Wei-Chih Hung、Varun Jampani、Sifei Liu、Pavlo Molchanov、Ming-Hsuan Yang 和 Jan Kautz。Scops：自监督联合部分分割。IEEE/CVF 计算机视觉和模式识别会议论文集，第 869-878 页，2019 年。2

[49] Tsung-Wei Ke、Sangwoo Mo 和 Stella X. Yu。学习分层图像分割以进行识别和通过识别。第十二届国际学习表征会议，2024 年。2

[50] Sanghyuk Chun、Seong Joon Oh、Rafael Sampaio De Rezende、Yannis Kalantidis 和 Diane Larlus。用于跨模态检索的概率嵌入。IEEE/CVF 计算机视觉和模式识别会议论文集，第 8415-8424 页，2021 年。3、5

[51] Yichun Shi 和 Anil K Jain。概率人脸嵌入。IEEE/CVF 国际计算机视觉会议论文集，第 6902-6911 页，2019 年。3

[52] Jungin Park、Jiyoung Lee、Ig-Jae Kim 和 Kwanghoon Sohn。视频对比学习的概率表示。IEEE/CVF 计算机视觉和模式识别会议论文集，第 14711-14721 页，2022 年。3

[53] Maximillian Nickel 和 Douwe Kiela。庞加莱嵌入用于学习分层表示。神经信息处理系统进展，2017 年 30 日。3

[54] Mina Ghadimi Atigh、Julian Schoep、Erman Acar、Nanne Van Noord 和 Pascal Mettes。双曲线图像分割。IEEE/CVF 计算机视觉和模式识别会议论文集，第 4453–4462 页，2022 年。3

[55] Zhenzhen Weng、Mehmet Giray Ogut、Shai Limonchik 和 Serena Yeung。使用分层自监督在实例分割中无监督发现长尾。IEEE/CVF 计算机视觉和模式识别会议论文集，第 2603-2612 页，2021 年。3

[56] Valentin Khrulkov、Leyla Mirvakhabova、Evgeniya Ustinova、Ivan Oseledets 和 Victor Lempitsky。双曲图像嵌入。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6418–6428 页，2020 年。3

[57] Durk P Kingma、Tim Salimans 和 Max Welling。变分 dropout 和局部重参数化技巧。神经信息处理系统进展，2015 年 28 月。4

[58] Aaron van den Oord、Yazhe Li 和 Oriol Vinyals。使用对比预测编码的表示学习。arXiv 预印本 arXiv:1807.03748，2018 年。5

[59] Mingxing Tan 和 Quoc Le。Efficientnet：重新思考卷积神经网络的模型扩展。国际机器学习会议，第 6105-6114 页。PMLR，2019 年。6、12

[60] 刘泽、林宇通、曹越、胡涵、魏义轩、张正、林志强和郭百宁。Swin transformer：使用移位窗口的分层视觉转换器。IEEE/CVF 国际计算机视觉会议论文集，第 10012-10022 页，2021 年。6、7、12

[61] 王文海，谢恩泽，李翔，范登平，宋凯涛，丁亮，路童，罗平，邵凌。 Pvt v2：使用金字塔视觉转换器改进了基线。计算视觉媒体，8(3):415–424, 2022. 6, 7

[62] Mingyu Ding、Bin Xiao、Noel Codella、Ping Luo、Jingdong Wang 和 Lu Yuan。Davit：双重注意视觉变换器。欧洲计算机视觉会议，第 74-92 页。Springer，2022 年。6

[63] 张彭川、戴希阳、杨建伟、肖斌、袁璐、张磊、高建峰。多尺度视觉长格式：一种用于高分辨率图像编码的新型视觉变换器。IEEE/CVF 国际计算机视觉会议论文集，第 2998-3008 页，2021 年。

[64] Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He 和 Piotr Dollar。密集物体检测的焦点损失。载于 IEEE 国际计算机视觉会议论文集，第 2980-2988 页，2017 年。6

[65] Elad Hoffer、Tal Ben-Nun、Itay Hubara、Niv Giladi、Torsten Hoefler 和 Daniel Soudry。增强您的批次：通过实例重复提高泛化能力。IEEE/CVF 计算机视觉和模式识别会议论文集，第 8129-8138 页，2020 年。6

[66] Ilya Loshchilov 和 Frank Hutter。解耦权重衰减正则化。arXiv 预印本 arXiv:1711.05101，2017 年。6

[67] Kaiming He、Georgia Gkioxari、Piotr Dollar 和 Ross Girshick。Mask r-cnn。IEEE 国际计算机视觉会议论文集，第 2961-2969 页，2017 年。7、12

[68] Yanghao Li、Hanzi Mao、Ross Girshick 和 Kaiming He。探索用于物体检测的平面视觉 Transformer 主干。欧洲计算机视觉会议，第 280-296 页。Springer，2022 年。7

[69] Alexander Kirillov、Ross Girshick、Kaiming He 和 Piotr Dollar。全景特征金字塔网络。IEEE/CVF 计算机视觉和模式识别会议论文集，第 6399-6408 页，2019 年。7

[70] Tete Xiao、Yingcheng Liu、Bolei Zhou、Yuning Jiang 和 Jian Sun。用于场景理解的统一感知解析。欧洲计算机视觉会议 (ECCV) 论文集，第 418-434 页，2018 年。7、12

该论文可在 arxiv 上根据 CC BY 4.0 DEED 许可获取。

如果人工智能像我们一样理解图像会怎样？这个模型可能

太長; 讀書

链接表

7. 结论

参考

About Author

標籤

这篇文章刊登在...

Categories

Trending Topics

如果人工智能像我们一样理解图像会怎样？这个模型可能

太長; 讀書

链接表

7. 结论

参考

About Author

標籤

这篇文章刊登在...

相關故事

Categories

Trending Topics