paint-brush
AI가 우리처럼 이미지를 이해한다면? 이 모델은~에 의해@hyperbole

AI가 우리처럼 이미지를 이해한다면? 이 모델은

~에 의해 Hyperbole11m2025/03/01
Read on Terminal Reader

너무 오래; 읽다

Hi-Mapper는 쌍곡 공간을 사용하여 시각적 계층을 매핑하고, 장면 이해를 강화하고, 딥 러닝 네트워크의 성능을 높이는 AI 모델입니다.
featured image - AI가 우리처럼 이미지를 이해한다면? 이 모델은
Hyperbole HackerNoon profile picture
0-item

저자:

(1) 연세대학교 권형준;

(2) 장진현, 연세대학교;

(3) 연세대학교 김진;

(4) 연세대학교 김권영;

(5) 손광훈, 연세대학교 및 한국과학기술연구원(KIST).

링크 표

초록 및 1 서론

2. 관련 작업

3. 쌍곡기하학

4. 방법

4.1 개요

4.2. 확률적 계층 트리

4.3. 시각적 계층 분해

4.4. 쌍곡선 공간에서의 학습 계층

4.5. 시각적 계층 인코딩

5. 실험 및 5.1. 이미지 분류

5.2. 객체 감지 및 인스턴스 분할

5.3. 의미적 세분화

5.4. 시각화

6. 절제 연구 및 논의

7. 결론 및 참고문헌

A. 네트워크 아키텍처

B. 이론적 기준선

C. 추가 결과

D. 추가 시각화

7. 결론

이 논문에서 우리는 시각적 장면의 계층적 구성을 조사하는 새로운 시각적 계층 매퍼(Hi-Mapper)를 제시했습니다. 우리는 확률 분포를 사용하여 트리와 같은 구조를 새롭게 정의하고 쌍곡선 공간에서 계층적 관계를 학습함으로써 목표를 달성했습니다. 우리는 계층적 해석을 대조적 손실에 통합하고 데이터 효율적인 방식으로 시각적 계층을 효율적으로 식별했습니다. 효과적인 계층 분해 및 인코딩 절차를 통해 식별된 계층은 글로벌 시각적 표현에 성공적으로 배포되어 전체 장면에 대한 구조적 이해를 향상시켰습니다. Hi-Mapper는 기존 DNN과 통합될 때 지속적으로 성능을 개선했으며 다양한 밀도 예측에 대한 효과성도 입증했습니다.


감사의 글 . 이 연구는 2022년 연세 시그니처 연구 클러스터 프로그램(2022-22-0002)의 지원을 받았습니다.

참고문헌

[1] Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe, Ivan Oseledets. 쌍곡선 비전 변환기: 메트릭 학습 개선 사항 결합. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 7409-7419페이지, 2022. 1, 3


[2] Sungyeon Kim, Boseung Jeong, Suha Kwak. Hier: 계층적 정규화를 통한 클래스 레이블을 넘어서는 메트릭 학습. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 19903-19912쪽, 2023. 1, 3


[3] Georgia Gkioxari, Ross Girshick, Piotr Dollar 및 Kaiming ´ He. 인간-객체 상호작용 감지 및 인식. IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 8359-8367페이지, 2018. 1


[4] 장진현, 박정인, 김진, 권형준, 손광훈. 초점을 맞출 곳 알기: 비디오 접지를 위한 Eventaware 변압기. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 13846-13856쪽, 2023. 1


[5] Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng 및 Dacheng Tao. 인간-객체 상호 작용 감지를 위한 가능성 전이 학습. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 495-504페이지, 2021. 1


[6] 권형준, 송태용, 정소미, 김진, 장진현, 손광훈. 밀도 예측을 위한 확률적 프롬프트 학습. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 6768-6777쪽, 2023. 1, 3


[7] 김진, 이지영, 박정인, 민동보, 손광훈. 기억 고정하기: 의미 분할 일반화 학습. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 4350-4360쪽, 2022. 1


[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly 등. 이미지는 16x16 단어의 가치가 있습니다. 대규모 이미지 인식을 위한 변환기입니다. arXiv 사전 인쇄 arXiv:2010.11929, 2020. 1


[9] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya 및 Jon Shlens. 시각 모델의 독립형 자기 주의. 신경 정보 처리 시스템의 발전, 32, 2019. 1


[10] Hengshuang Zhao, Jiaya Jia 및 Vladlen Koltun. 이미지 인식을 위한 자기 주의 탐구. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 10076-10085페이지, 2020. 7


[11] Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Xinghao Chen, Yunhe Wang, Chang Xu. Cmt: 합성 신경망이 비전 변환기를 만납니다. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 12175-12185쪽, 2022년.


[12] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang. Cvt: 비전 변환기에 합성곱 도입. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 22-31페이지, 2021. 1, 6


[13] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo. Cswin transformer: 십자가 모양 창이 있는 일반 비전 변압기 백본. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 12124-12134쪽, 2022. 1


[14] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao. 피라미드 비전 변환기: 합성곱 없는 고밀도 예측을 위한 다재다능한 백본. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 568-578쪽, 2021.


[15] Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik 및 Christoph Feichtenhofer. Mvitv2: 분류 및 감지를 위한 개선된 다중 스케일 비전 변환기. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 4804-4814페이지, 2022. 1


[16] Chun-Fu Richard Chen, Quanfu Fan 및 Rameswar Panda. Crossvit: 이미지 분류를 위한 교차 주의 다중 스케일 비전 변환기. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 357-366페이지, 2021. 1, 2, 6


[17] Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du, Xiaodan Liang, Xiaojun Chang. 고정 너머: 동적 창 시각 변환기. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 11987-11997쪽, 2022. 1


[18] Shitao Tang, Jiahui Zhang, Siyu Zhu 및 Ping Tan. 비전 트랜스포머에 대한 Quadtree의 관심. arXiv 사전 인쇄 arXiv:2201.02767, 2022. 2, 4


[19] Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B Tenenbaum, Chuang Gan. 시각적 종속성 변환기: 종속성 트리는 역전된 주의에서 나타남. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 14528-14539쪽, 2023. 2, 6, 7


[20] Tsung-Wei Ke, Sangwoo Mo 및 X Yu Stella. 인식을 위한 계층적 이미지 분할 학습 및 인식에 의한 학습. 2023년 제12회 학습 표현 국제 컨퍼런스. 2, 4


[21] N. Linial, E. London 및 Y. Rabinovich. 그래프의 기하학 및 일부 알고리즘 응용 프로그램. 1994년 컴퓨터 과학 기초에 대한 제35회 연례 심포지엄 회의록, 577-591페이지. doi: 10.1109/SFCS.1994.365733. 2


[22] Hongbin Pei, Bingzhe Wei, Kevin Chang, Chunxu Zhang 및 Bo Yang. 그래프 임베딩의 왜곡을 방지하기 위한 곡률 정규화. 신경 정보 처리 시스템의 발전, 33:20779–20790, 2020.


[23] Maximillian Nickel 및 Douwe Kiela. 계층적 표현을 학습하기 위한 Poincare 임베딩. 신경 정보 처리 시스템의 발전, 30, 2017.


[24] Maximillian Nickel 및 Douwe Kiela. 쌍곡 기하학의 로렌츠 모델에서 연속 계층 학습. 기계 학습에 관한 국제 컨퍼런스, 3779~3788페이지. PMLR, 2018. 3


[25] Zhi Gao, Yuwei Wu, Yunde Jia 및 Mehrtash Harandi. Few-shot 학습을 위한 곡선 공간에서의 곡률 생성. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 8691-8700페이지, 2021. 3


[26] Alexandru Tifrea, Gary Becigneul 및 Octavian-Eugen ´ Ganea. Poincar\'e 장갑: 쌍곡선 단어 임베딩. arXiv 사전 인쇄본 arXiv:1810.06546, 2018. 3


[27] Yudong Zhu, Di Zhou, Jinghui Xiao, Xin Jiang, Xiao Chen 및 Qun Liu. 하이퍼텍스트: 빠른 텍스트에 쌍곡선 기하학을 부여합니다. arXiv 사전 인쇄 arXiv:2010.16143, 2020. 3


[28] Ines Chami, Zhitao Ying, Christopher Re 및 Jure Leskovec. ´ 쌍곡선 그래프 합성 신경망. 신경 정보 처리 시스템의 발전, 32, 2019.


[29] Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson 및 Shanmukha Ramakrishna Vedantam. 쌍곡선 이미지-텍스트 표현. 기계 학습 국제 컨퍼런스, 7694-7731페이지. PMLR, 2023. 2, 3, 5


[30] Luke Vilnis 및 Andrew McCallum. 가우스 임베딩을 통한 단어 표현. 2015년 학습 표현 국제 컨퍼런스. 2


[31] Ben Athiwaratkun 및 Andrew Gordon Wilson. 다중 모드 단어 분포. arXiv 사전 인쇄본 arXiv:1704.08424, 2017. 3


[32] Ben Athiwaratkun 및 Andrew Gordon Wilson. 계층적 밀도 순서 임베딩. 2018년 학습 표현 국제 컨퍼런스.


[33] Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu 및 Yujiu Yang. 장면 그래프 생성을 위한 의미적 모호성의 확률적 모델링. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 12527-12536페이지, 2021. 2


[34] Kaiming He, Xiangyu Zhang, Shaoqing Ren 및 Jian Sun. 이미지 인식을 위한 심층 잔여 학습. IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 770-778페이지, 2016. 2, 6, 12


[35] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Herve Jegou. Training ´ data-efficient image transformers & distillation through attention. 국제 머신 러닝 컨퍼런스, 10347–10357쪽. PMLR, 2021. 2, 6, 7, 12


[36] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, 및 Li Fei-Fei. Imagenet: 대규모 계층적 이미지 데이터베이스. 2009년 IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스, 248-255페이지. IEEE, 2009. 2, 6, 7, 8, 12, 14


[37] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, C Lawrence ´ Zitnick. Microsoft coco: 컨텍스트 내의 공통 객체. Computer Vision–ECCV 2014: 제13회 유럽 컨퍼런스, 스위스 취리히, 2014년 9월 6일-12일, 회의록, 5부 13, 740-755페이지. Springer, 2014. 6, 7


[38] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso 및 Antonio Torralba. ade20k 데이터 세트를 통한 장면 구문 분석. IEEE 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 633-641페이지, 2017. 2, 7


[39] Pedro F Felzenszwalb, Ross B Girshick, David McAllester 및 Deva Ramanan. 차별적으로 훈련된 부분 기반 모델을 사용한 객체 감지. IEEE 패턴 분석 및 머신 인텔리전스 거래, 32(9):1627–1645, 2009. 2


[40] Feng Han 및 Song-Chun Zhu. 속성 문법을 사용한 하향식/상향식 이미지 구문 분석. IEEE 패턴 분석 및 머신 인텔리전스 거래, 31(1):59–73, 2008.


[41] Erik B Sudderth, Antonio Torralba, William T Freeman 및 Alan S Willsky. 장면, 객체 및 부품의 계층적 모델 학습. 제10회 IEEE 컴퓨터 비전 국제 컨퍼런스(ICCV'05) 1권, 2권, 1331-1338페이지. IEEE, 2005.


[42] Zhuowen Tu, Xiangrong Chen, Alan L Yuille 및 Song-Chun Zhu. 이미지 구문 분석: 분할, 감지 및 인식 통합. 국제 컴퓨터 비전 저널, 63: 113–140, 2005. 2


[43] Tianfu Wu 및 Song-Chun Zhu. and-or 그래프의 하향식 및 상향식 추론 프로세스에 대한 수치 연구. 국제 컴퓨터 비전 저널, 93:226–252, 2011. 2


[44] Wenguan Wang, Zhijie Zhang, Siyuan Qi, Jianbing Shen, Yanwei Pang 및 Ling Shao. 인간 구문 분석을 위한 학습 구성 신경 정보 융합. IEEE/CVF 컴퓨터 비전 국제 회의록, 5703-5713쪽, 2019. 2


[45] Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen 및 Ling Shao. 유형화된 부분 관계 추론을 통한 계층적 인간 구문 분석. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 8929-8939페이지, 2020. 2


[46] Sandro Braun, Patrick Esser 및 Bjorn Ommer. 비지도 풀림을 통한 비지도 부분 발견. 패턴 인식: 제42회 DAGM 독일 컨퍼런스, DAGM GCPR 2020, 튀빙겐, 독일, 2020년 9월 28일~10월 1일, 회의록 42, 345~359쪽. Springer, 2021. 2


[47] Subhabrata Choudhury, Iro Laina, Christian Rupprecht 및 Andrea Vedaldi. 대조 재구성을 통한 비지도 부분 발견. 신경 정보 처리 시스템의 발전, 34:28104–28118, 2021.


[48] Wei-Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming-Hsuan Yang 및 Jan Kautz. Scops: 자체 감독 공동 파트 분할. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 869-878페이지, 2019. 2


[49] Tsung-Wei Ke, Sangwoo Mo 및 Stella X. Yu. 인식을 위한 계층적 이미지 분할 학습 및 인식에 의한 학습. 2024년 제12회 학습 표현 국제회의. 2


[50] Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio De Rezende, Yannis Kalantidis 및 Diane Larlus. 교차 모달 검색을 위한 확률적 임베딩. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 8415-8424쪽, 2021. 3, 5


[51] Yichun Shi 및 Anil K Jain. 확률적 얼굴 임베딩. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 6902-6911페이지, 2019. 3


[52] Jungin Park, Jiyoung Lee, Ig-Jae Kim, Kwanghoon Sohn. 비디오 대조 학습을 위한 확률적 표현. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 논문집, 14711-14721쪽, 2022. 3


[53] Maximillian Nickel 및 Douwe Kiela. 계층적 표현을 학습하기 위한 Poincare 임베딩 ´. 신경 정보 처리 시스템의 발전, 30, 2017. 3


[54] Mina Ghadimi Atigh, Julian Schoep, Erman Acar, Nanne Van Noord 및 Pascal Mettes. 쌍곡선 이미지 분할. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 4453-4462페이지, 2022. 3


[55] Zhenzhen Weng, Mehmet Giray Ogut, Shai Limonchik 및 Serena Yeung. 계층적 자기 감독을 사용한 인스턴스 분할에서 롱테일의 비지도 발견. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 2603-2612페이지, 2021. 3


[56] Valentin Khrulkov, Leyla Mirvakhabova, Evgeniya Ustinova, Ivan Oseledets 및 Victor Lempitsky. 쌍곡선 이미지 임베딩. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 6418-6428페이지, 2020. 3


[57] Durk P Kingma, Tim Salimans 및 Max Welling. 변분 드롭아웃 및 로컬 재매개변수화 트릭. 신경 정보 처리 시스템의 발전, 28, 2015. 4


[58] Aaron van den Oord, Yazhe Li 및 Oriol Vinyals. 대조 예측 코딩을 통한 표현 학습. arXiv 사전 인쇄본 arXiv:1807.03748, 2018. 5


[59] Mingxing Tan 및 Quoc Le. Efficientnet: 합성 신경망을 위한 모델 스케일링 재고. 기계 학습에 관한 국제 컨퍼런스, 6105-6114페이지. PMLR, 2019. 6, 12


[60] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo. Swin 변환기: 이동된 창을 사용하는 계층적 비전 변환기. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 10012-10022페이지, 2021. 6, 7, 12


[61] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo 및 Ling Shao. Pvt v2: 피라미드 비전 변환기로 기준선이 개선되었습니다. 컴퓨터 시각 매체, 8(3):415–424, 2022. 6, 7


[62] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang 및 Lu Yuan. Davit: 이중 주의 비전 변환기. 유럽 컴퓨터 비전 컨퍼런스, 74-92페이지. Springer, 2022. 6


[63] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang 및 Jianfeng Gao. 다중 스케일 비전 롱포머: 고해상도 이미지 인코딩을 위한 새로운 비전 변환기. IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록, 2998~3008페이지, 2021.


[64] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He 및 Piotr Dollar. 밀도 객체 감지를 위한 초점 손실. ´ IEEE 컴퓨터 비전 국제 컨퍼런스 회의록, 2980-2988페이지, 2017. 6


[65] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler 및 Daniel Soudry. 배치 증강: 인스턴스 반복을 통한 일반화 개선. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 8129-8138페이지, 2020. 6


[66] Ilya Loshchilov 및 Frank Hutter. 분리된 가중치 감소 정규화. arXiv 사전 인쇄본 arXiv:1711.05101, 2017. 6


[67] Kaiming He, Georgia Gkioxari, Piotr Dollar 및 Ross Girshick. Mask r-cnn. IEEE 컴퓨터 비전 국제 컨퍼런스 회의록, 2961-2969페이지, 2017. 7, 12


[68] Yanghao Li, Hanzi Mao, Ross Girshick 및 Kaiming He. 객체 감지를 위한 일반 비전 변환기 백본 탐색. 유럽 컴퓨터 비전 컨퍼런스, 280-296페이지. Springer, 2022. 7


[69] Alexander Kirillov, Ross Girshick, Kaiming He 및 Piotr Dollar. 파노라마 피처 피라미드 네트워크. IEEE/CVF 컴퓨터 비전 및 패턴 인식 컨퍼런스 회의록, 6399-6408페이지, 2019. 7


[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang 및 Jian Sun. 장면 이해를 위한 통합 지각 구문 분석. 유럽 컴퓨터 비전 회의(ECCV) 회의록, 418-434쪽, 2018. 7, 12


이 논문은 CC BY 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다 .