著者:
(1) クォン・ヒョンジュン、延世大学校。
(2) チャン・ジンヒョン、延世大学。
(3) キム・ジン、延世大学。
(4) キム・クォニョン、延世大学。
(5)Kwanghoon Sohn、延世大学および韓国科学技術研究院(KIST)。
リンク一覧
4. 方法
7. 結論
本論文では、視覚シーンの階層構造を調査する新しいビジュアル階層マッパー (Hi-Mapper) を紹介しました。確率分布を持つツリー構造を新たに定義し、双曲空間で階層関係を学習することで目標を達成しました。階層的解釈をコントラスト損失に組み込み、データ効率の高い方法で視覚階層を効率的に識別しました。効果的な階層分解とエンコード手順により、識別された階層はグローバルな視覚表現に正常に展開され、シーン全体の構造化された理解が強化されました。Hi-Mapper は、既存の DNN と統合すると、そのパフォーマンスを一貫して向上させ、さまざまな高密度予測に対する有効性も実証しました。
謝辞この研究は、2022年度延世大学シグネチャーリサーチクラスタープログラム(2022-22-0002)の支援を受けて実施されました。
参考文献
[1] Aleksandr Ermolov、Leyla Mirvakhabova、Valentin Khrulkov、Nicu Sebe、Ivan Oseledets。双曲型視覚トランスフォーマー:メトリック学習の改善を組み合わせる。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、7409〜7419ページ、2022年。1、3
[2] Sungyeon Kim、Boseung Jeong、Suha Kwak。Hier:階層的正則化によるクラスラベルを超えたメトリック学習。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、19903〜19912ページ、2023年。1、3
[3] Georgia Gkioxari、Ross Girshick、Piotr Dollar、Kaiming ´ He。人間と物体のインタラクションの検出と認識。IEEEコンピュータビジョンとパターン認識会議の議事録、8359-8367ページ、2018年。1
[4] ジンヒョン・ジャン、ジュンギン・パーク、ジン・キム、ヒョンジュン・クォン、クワンフーン・ソン。「焦点を合わせる場所を知る:ビデオグラウンディングのためのEventawareトランスフォーマー」IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、13846-13856ページ、2023年。1
[5] Zhi Hou、Baosheng Yu、Yu Qiao、Xiaojiang Peng、Dacheng Tao。人間と物体の相互作用検出のためのアフォーダンス転移学習。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、495〜504ページ、2021年。1
[6] クォン・ヒョンジュン、ソン・テヨン、ジョン・ソミ、キム・ジン、ジャン・ジンヒョン、ソン・クァンフーン。「密な予測のための確率的プロンプト学習」。IEEE/CVFコンピュータビジョンおよびパターン認識会議論文集、6768~6777ページ、2023年。1、3
[7] ジン・キム、ジヨン・リー、ジョンギン・パーク、ドンボ・ミン、クワンフーン・ソン。「記憶をピン留めする:セマンティックセグメンテーションの一般化を学ぶ」IEEE/CVFコンピュータービジョンとパターン認識会議の議事録、4350-4360ページ、2022年。1
[8] Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly 他。画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 arXiv プレプリント arXiv:2010.11929、2020. 1
[9] プラジット・ラマチャンドラン、ニキ・パーマー、アシシュ・ヴァスワニ、イルワン・ベロ、アンセルム・レフスカヤ、ジョン・シュレンズ。視覚モデルにおけるスタンドアロン自己注意。神経情報処理システムの進歩、32、2019年。1
[10] Hengshuang Zhao、Jiaya Jia、Vladlen Koltun。画像認識のための自己注意の探求。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、10076-10085ページ、2020年。7
[11] Jianyuan Guo、Kai Han、Han Wu、Yehui Tang、Xinghao Chen、Yunhe Wang、Chang Xu。Cmt:畳み込みニューラルネットワークとビジョントランスフォーマーの出会い。IEEE / CVFコンピュータービジョンおよびパターン認識会議の議事録、12175〜12185ページ、2022年。
[12] Haiping Wu、Bin Xiao、Noel Codella、Mengchen Liu、Xiyang Dai、Lu Yuan、およびLei Zhang。Cvt:ビジョントランスフォーマーへの畳み込みの導入。IEEE / CVF国際コンピュータビジョン会議の議事録、22〜31ページ、2021年。1、6
[13] Xiaoyi Dong、Jianmin Bao、Dongdong Chen、Weiming Zhang、Nenghai Yu、Lu Yuan、Dong Chen、Baining Guo。Cswinトランスフォーマー:十字型ウィンドウを備えた汎用ビジョントランスフォーマーバックボーン。IEEE / CVFコンピュータービジョンおよびパターン認識会議の議事録、12124〜12134ページ、2022年。1
[14] Wenhai Wang、Enze Xie、Xiang Li、Deng-Ping Fan、Kaitao Song、Ding Liang、Tong Lu、Ping Luo、Ling Shao。ピラミッドビジョントランスフォーマー:畳み込みなしで高密度予測を行う多用途バックボーン。IEEE/CVF国際コンピュータビジョン会議の議事録、568〜578ページ、2021年。
[15] Yanghao Li、Chao-Yuan Wu、Haoqi Fan、Karttikeya Mangalam、Bo Xiong、Jitendra Malik、Christoph Feichtenhofer。Mvitv2:分類と検出のための改良されたマルチスケールビジョントランスフォーマー。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、4804〜4814ページ、2022年。1
[16] リチャード・チェン・チュンフー、ファン・クアンフー、ラメスワル・パンダ「Crossvit: 画像分類のためのクロスアテンションマルチスケールビジョントランスフォーマー」IEEE/CVF国際コンピュータビジョン会議論文集、357~366ページ、2021年。1、2、6
[17] Pengzhen Ren、Changlin Li、Guangrun Wang、Yun Xiao、Qing Du、Xiaodan Liang、Xiaojun Chang。固定を超えて:ダイナミックウィンドウビジュアルトランスフォーマー。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、11987〜11997ページ、2022年。1
[18] Shitao Tang、Jiahui Zhang、Siyu Zhu、Ping Tan。ビジョントランスフォーマーのQuadtree注目。 arXiv プレプリント arXiv:2201.02767、2022. 2、4
[19] Mingyu Ding、Yikang Shen、Lijie Fan、Zhenfang Chen、Zitian Chen、Ping Luo、Joshua B Tenenbaum、Chuang Gan。視覚依存性トランスフォーマー:依存性ツリーは逆注意から出現します。IEEE / CVFコンピュータービジョンおよびパターン認識会議の議事録、14528〜14539ページ、2023年。2、6、7
[20] Tsung-Wei Ke、Sangwoo Mo、X Yu Stella。認識のための階層的画像セグメンテーションの学習と認識による学習。第12回国際学習表現会議、2023年。2、4
[21] N. Linial、E. London、Y. Rabinovich。グラフの幾何学とそのアルゴリズム的応用。Proceedings 35th Annual Symposium on Foundations of Computer Science、577-591ページ、1994年。doi: 10.1109/ SFCS.1994.365733。2
[22] Hongbin Pei、Bingzhe Wei、Kevin Chang、Chunxu Zhang、Bo Yang。グラフ埋め込みにおける歪みを防ぐための曲率正規化。ニューラル情報処理システムの進歩、33:20779–20790、2020年。
[23] Maximillian NickelとDouwe Kiela。階層的表現の学習のためのポアンカレ埋め込み。神経情報処理システムの進歩、30、2017年。
[24] マクシミリアン・ニッケルとダウウェ・キエラ「双曲幾何学のローレンツモデルにおける連続階層の学習」国際機械学習会議、3779-3788ページ。PMLR、2018年。3
[25] Zhi Gao、Yuwei Wu、Yunde Jia、Mehrtash Harandi。「曲面空間における曲率生成と少数ショット学習」IEEE/CVF国際コンピュータビジョン会議論文集、8691-8700ページ、2021年。3
[26] Alexandru Tifrea、Gary Becigneul、Octavian-Eugen ´ Ganea。ポアンカレグローブ:双曲的単語埋め込み。arXivプレプリントarXiv:1810.06546、2018年3
[27] Yudong Zhu、Di Zhou、Jinghui Xiao、Xin Jiang、Xiao Chen、Qun Liu。ハイパーテキスト: ファストテキストに双曲線ジオメトリを与えます。 arXiv プレプリント arXiv:2010.16143、2020. 3
[28] Ines Chami、Zhitao Ying、Christopher Re、Jure Leskovec。「双曲型グラフ畳み込みニューラルネットワーク」神経情報処理システムの進歩、32、2019年。
[29] カラン・デサイ、マクシミリアン・ニッケル、タンメイ・ラジプロヒット、ジャスティン・ジョンソン、シャンムカ・ラマクリシュナ・ヴェダンタム。双曲的画像テキスト表現。国際機械学習会議、7694-7731ページ。PMLR、2023年。2、3、5
[30] ルーク・ヴィルニスとアンドリュー・マッカラム「ガウス埋め込みによる単語表現」国際学習表現会議、2015年。2
[31] ベン・アティワラトクンとアンドリュー・ゴードン・ウィルソン「マルチモーダル単語分布」arXivプレプリントarXiv:1704.08424, 2017.3
[32] Ben AthiwaratkunとAndrew Gordon Wilson。階層的密度秩序埋め込み。国際学習表現会議、2018年。
[33] Gengcong Yang、Jingyi Zhang、Yong Zhang、Baoyuan Wu、Yujiu Yang。シーングラフ生成のための意味的曖昧性の確率的モデリング。IEEE/CVFコンピュータビジョンおよびパターン認識会議の議事録、12527-12536ページ、2021年。2
[34] Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。画像認識のための深層残差学習。IEEEコンピュータビジョンおよびパターン認識会議論文集、770~778ページ、2016年。2、6、12
[35] Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles、Herve Jegou。データ効率の高い画像変換と注意による蒸留のトレーニング。機械学習に関する国際会議、10347〜10357ページ。PMLR、2021年。2、6、7、12
[36] Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。Imagenet: 大規模階層型画像データベース。2009 IEEE コンピュータビジョンとパターン認識会議、248~255 ページ。Ieee、2009。2、6、7、8、12、14
[37] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollar、C Lawrence ´ Zitnick。Microsoft coco: コンテキスト内の共通オブジェクト。Computer Vision–ECCV 2014: 13th European Conference、チューリッヒ、スイス、2014年9月6日〜12日、議事録、パートV 13、740〜755ページ。Springer、2014年。6、7
[38] Bolei Zhou、Hang Zhao、Xavier Puig、Sanja Fidler、Adela Barriuso、Antonio Torralba。ade20kデータセットによるシーン解析。IEEEコンピュータビジョンおよびパターン認識会議の議事録、633〜641ページ、2017年。2、7
[39] ペドロ・F・フェルゼンシュワルブ、ロス・B・ガーシック、デイヴィッド・マカルスター、デヴァ・ラマナン。識別的に訓練されたパーツベースモデルによる物体検出。IEEEパターン分析と機械知能の取引、32(9):1627–1645、2009年。2
[40] Feng HanとSong-Chun Zhu。属性文法によるボトムアップ/トップダウン画像解析。IEEEパターン分析と機械知能の取引、31(1):59–73、2008年。
[41] Erik B Sudderth、Antonio Torralba、William T Freeman、Alan S Willsky。シーン、オブジェクト、パーツの階層モデルの学習。第10回IEEE国際コンピュータビジョン会議(ICCV'05)第1巻、第2巻、1331〜1338ページ。IEEE、2005年。
[42] Zhuowen Tu、Xiangrong Chen、Alan L Yuille、Song-Chun Zhu。画像解析:セグメンテーション、検出、認識の統合。国際コンピュータビジョンジャーナル、63:113–140、2005年。2
[43] Tianfu WuとSong-Chun Zhu。and-orグラフにおけるボトムアップとトップダウンの推論プロセスの数値的研究。International journal of computer vision、93:226–252、2011年。2
[44] ウェンガン・ワン、ジジエ・チャン、シユアン・チー、ジアンビン・シェン、ヤンウェイ・パン、リン・シャオ。人間の構文解析のための構成的ニューラル情報融合の学習。IEEE/CVF国際コンピュータビジョン会議論文集、5703-5713ページ、2019年。2
[45] ウェングアン・ワン、ハイロン・チュー、ジフェン・ダイ、ヤンウェイ・パン、ジャンビン・シェン、リン・シャオ。型付けされた部分関係推論による階層的人間構文解析。IEEE/CVFコンピュータビジョンおよびパターン認識会議の議事録、8929-8939ページ、2020年。2
[46] サンドロ・ブラウン、パトリック・エッサー、ビョルン・オマー。教師なしの分離による教師なし部分発見。パターン認識:第42回DAGMドイツ会議、DAGM GCPR 2020、テュービンゲン、ドイツ、2020年9月28日~10月1日、議事録42、345~359ページ。シュプリンガー、2021年。2
[47] Subhabrata Choudhury、Iro Laina、Christian Rupprecht、Andrea Vedaldi。対照的再構成からの教師なし部分発見。神経情報処理システムの進歩、34:28104–28118、2021年。
[48] Wei-Chih Hung、Varun Jampani、Sifei Liu、Pavlo Molchanov、Ming-Hsuan Yang、Jan Kautz。Scops:自己教師付きコパートセグメンテーション。IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、869〜878ページ、2019年。2
[49] Tsung-Wei Ke、Sangwoo Mo、Stella X. Yu。認識のための階層的画像セグメンテーションの学習と認識による学習。第12回国際表現学習会議、2024年。2
[50] サンヒョク・チュン、ソン・ジュン・オ、ラファエル・サンパイオ・デ・レゼンデ、ヤニス・カランティディス、ダイアン・ラルス。クロスモーダル検索のための確率的埋め込み。IEEE/CVFコンピュータビジョンおよびパターン認識会議論文集、8415-8424ページ、2021年。3、5
[51] Yichun ShiとAnil K Jain。確率的顔埋め込み。IEEE/CVF国際コンピュータビジョン会議論文集、6902-6911ページ、2019年。3
[52] Jungin Park、Jiyoung Lee、Ig-Jae Kim、Kwanghoon Sohn。ビデオ対照学習のための確率的表現。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、14711-14721ページ、2022年。3
[53] マクシミリアン・ニッケルとダウウェ・キエラ「階層的表現の学習のためのポアンカレ埋め込み」神経情報処理システムの進歩、30、2017年。3
[54] Mina Ghadimi Atigh、Julian Schoep、Erman Acar、Nanne Van Noord、Pascal Mettes。双曲画像セグメンテーション。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、4453-4462ページ、2022年。3
[55] Zhenzhen Weng、Mehmet Giray Ogut、Shai Limonchik、Serena Yeung。階層的自己教師を用いたインスタンスセグメンテーションにおけるロングテールの教師なし発見。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、2603-2612ページ、2021年。3
[56] Valentin Khrulkov、Leyla Mirvakhabova、Evgeniya Ustinova、Ivan Oseledets、Victor Lempitsky。双曲画像埋め込み。IEEE/CVFコンピュータビジョンおよびパターン認識会議の議事録、6418-6428ページ、2020年。3
[57] Durk P Kingma、Tim Salimans、Max Welling。変分ドロップアウトと局所再パラメータ化トリック。神経情報処理システムの進歩、28、2015年。4
[58] アーロン・ヴァン・デン・オード、ヤゼ・リー、オリオール・ヴィニャルス。対照予測符号化による表現学習。arXivプレプリントarXiv:1807.03748、2018年5月
[59] ミンシン・タンとクオック・レ「Efficientnet:畳み込みニューラルネットワークのモデルスケーリングの再考」国際機械学習会議、6105-6114ページ。PMLR、2019年6、12
[60] Ze Liu、Yutong Lin、Yue Cao、Han Hu、Yixuan Wei、Zheng Zhang、Stephen Lin、Baining Guo。Swinトランスフォーマー:シフトウィンドウを使用した階層的ビジョントランスフォーマー。IEEE / CVF国際コンピュータビジョン会議の議事録、10012〜10022ページ、2021年。6、7、12
[61] 王文海、謝恩則、李翔、ファン・デンピン、ソン・カイタオ、梁ディン、トン・ルー、ピンルオ、リン・シャオ。 Pvt v2: ピラミッド ビジョン トランスフォーマーによるベースラインの改善。コンピュテーショナル ビジュアル メディア、8(3):415–424、2022. 6、7
[62] ミンギュ・ディン、ビン・シャオ、ノエル・コデラ、ピン・ルオ、ジンドン・ワン、ルー・ユアン。ダビット:デュアルアテンションビジョントランスフォーマー。ヨーロッパコンピュータビジョン会議、74〜92ページ。シュプリンガー、2022年。6
[63] Pengchuan Zhang、Xiyang Dai、Jianwei Yang、Bin Xiao、Lu Yuan、Lei Zhang、Jianfeng Gao。「マルチスケールビジョンロングフォーマー:高解像度画像エンコーディングのための新しいビジョントランスフォーマー」IEEE/CVF国際コンピュータビジョン会議論文集、2021年、2998~3008ページ。
[64] Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaiming He、Piotr Dollar。高密度物体検出のための焦点損失。IEEE国際コンピュータビジョン会議論文集、2980-2988ページ、2017年。6
[65] Elad Hoffer、Tal Ben-Nun、Itay Hubara、Niv Giladi、Torsten Hoefler、Daniel Soudry。バッチの拡張:インスタンスの繰り返しによる一般化の改善。IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、8129〜8138ページ、2020年。6
[66] イリヤ・ロシュチロフとフランク・ハッター。分離重み減衰正規化。arXivプレプリントarXiv:1711.05101, 2017年6月
[67] Kaiming He、Georgia Gkioxari、Piotr Dollar、およびRoss Girshick。Mask r-cnn。IEEE国際コンピュータビジョン会議の議事録、2961〜2969ページ、2017年。7、12
[68] Yanghao Li、Hanzi Mao、Ross Girshick、Kaiming He。物体検出のためのプレーンビジョントランスフォーマーバックボーンの検討。European Conference on Computer Vision、280~296ページ。Springer、2022年。7
[69] Alexander Kirillov、Ross Girshick、Kaiming He、Piotr Dollar。Panoptic feature pyramid networks。IEEE/CVF conference on computer vision and pattern recognizeの論文集、6399-6408ページ、2019年。7
[70] テテ・シャオ、インチェン・リウ、ボレイ・ゾウ、ユニン・ジャン、ジアン・サン。シーン理解のための統合知覚解析。ヨーロッパコンピュータビジョン会議(ECCV)の議事録、418〜434ページ、2018年。7、12
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。