101 lecturas

¿Qué pasaría si la IA entendiera las imágenes como nosotros? Este modelo podría...

por Hyperbole11m2025/03/01
Read on Terminal Reader

Demasiado Largo; Para Leer

Hi-Mapper es un modelo de IA que mapea jerarquías visuales utilizando el espacio hiperbólico, mejorando la comprensión de la escena y potenciando el rendimiento de las redes de aprendizaje profundo.
featured image - ¿Qué pasaría si la IA entendiera las imágenes como nosotros? Este modelo podría...
Hyperbole HackerNoon profile picture
0-item

Autores:

(1) Hyeongjun Kwon, Universidad de Yonsei;

(2) Jinhyun Jang, Universidad de Yonsei;

(3) Jin Kim, Universidad de Yonsei;

(4) Kwonyoung Kim, Universidad de Yonsei;

(5) Kwanghoon Sohn, Universidad Yonsei e Instituto de Ciencia y Tecnología de Corea (KIST).

Tabla de enlaces

Resumen y 1 Introducción

2. Trabajo relacionado

3. Geometría hiperbólica

4. Método

4.1. Descripción general

4.2. Árbol de jerarquía probabilística

4.3. Descomposición jerárquica visual

4.4. Aprendizaje de la jerarquía en el espacio hiperbólico

4.5. Codificación de jerarquía visual

5. Experimentos y 5.1. Clasificación de imágenes

5.2. Detección de objetos y segmentación de instancias

5.3 Segmentación semántica

5.4 Visualización

6. Estudios y discusión sobre ablación

7. Conclusión y referencias

A. Arquitectura de red

B. Base teórica

C. Resultados adicionales

D. Visualización adicional

7. Conclusión

En este artículo, hemos presentado un novedoso Visual Hierarchy Mapper (Hi-Mapper) que investiga la organización jerárquica de las escenas visuales. Hemos logrado el objetivo definiendo una nueva estructura en forma de árbol con distribución de probabilidad y aprendiendo las relaciones jerárquicas en el espacio hiperbólico. Hemos incorporado la interpretación jerárquica en la pérdida contrastiva e identificado eficientemente la jerarquía visual de una manera eficiente en el uso de datos. A través de procedimientos efectivos de descomposición y codificación de la jerarquía, la jerarquía identificada se ha implementado con éxito en la representación visual global, mejorando la comprensión estructurada de una escena completa. Hi-Mapper ha mejorado consistentemente el rendimiento de las DNN existentes cuando se integra con ellas, y también ha demostrado su efectividad en varias predicciones densas.


Agradecimientos . Esta investigación fue apoyada por el Programa de Investigación de Clústeres de Yonsei Signature de 2022 (2022-22-0002).

Referencias

[1] Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe e Ivan Oseledets. Transformadores de visión hiperbólica: Combinación de mejoras en el aprendizaje métrico. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 7409–7419, 2022. 1, 3


[2] Sungyeon Kim, Boseung Jeong y Suha Kwak. Hier: Aprendizaje métrico más allá de las etiquetas de clase a través de la regularización jerárquica. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 19903–19912, 2023. 1, 3


[3] Georgia Gkioxari, Ross Girshick, Piotr Dollar y Kaiming ´ He. Detección y reconocimiento de interacciones entre humanos y objetos. En Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones, páginas 8359–8367, 2018. 1


[4] Jinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon y Kwanghoon Sohn. Saber dónde concentrarse: transformador Eventaware para conexión a tierra de video. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 13846–13856, 2023. 1


[5] Zhi Hou, Baosheng Yu, Yu Qiao, Xiaojiang Peng y Dacheng Tao. Aprendizaje por transferencia de capacidad para la detección de interacciones entre humanos y objetos. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 495–504, 2021. 1


[6] Hyeongjun Kwon, Taeyong Song, Somi Jeong, Jin Kim, Jinhyun Jang y Kwanghoon Sohn. Aprendizaje probabilístico rápido para predicción densa. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 6768–6777, 2023. 1, 3


[7] Jin Kim, Jiyoung Lee, Jungin Park, Dongbo Min y Kwanghoon Sohn. Fijar la memoria: aprender a generalizar la segmentación semántica. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 4350–4360, 2022. 1


[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. Preimpresión de arXiv arXiv:2010.11929, 2020. 1


[9] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya y Jon Shlens. Autoatención autónoma en modelos de visión. Avances en sistemas de procesamiento de información neuronal, 32, 2019. 1


[10] Hengshuang Zhao, Jiaya Jia y Vladlen Koltun. Exploración de la autoatención para el reconocimiento de imágenes. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 10076–10085, 2020. 7


[11] Jianyuan Guo, Kai Han, Han Wu, Yehui Tang, Xinghao Chen, Yunhe Wang y Chang Xu. Cmt: Las redes neuronales convolucionales se encuentran con los transformadores de visión. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 12175–12185, 2022.


[12] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan y Lei Zhang. Cvt: Introducción de convoluciones a los transformadores de visión. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 22 a 31, 2021. 1, 6


[13] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen y Baining Guo. Transformador Cswin: una columna vertebral de transformador de visión general con ventanas en forma de cruz. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 12124–12134, 2022. 1


[14] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo y Ling Shao. Transformador de visión piramidal: una estructura básica versátil para la predicción densa sin convoluciones. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 568–578, 2021.


[15] Yanghao Li, Chao-Yuan Wu, Haoqi Fan, Karttikeya Mangalam, Bo Xiong, Jitendra Malik y Christoph Feichtenhofer. Mvitv2: Transformadores de visión multiescala mejorados para clasificación y detección. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 4804–4814, 2022. 1


[16] Chun-Fu Richard Chen, Quanfu Fan y Rameswar Panda. Crossvit: Transformador de visión multiescala de atención cruzada para clasificación de imágenes. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 357–366, 2021. 1, 2, 6


[17] Pengzhen Ren, Changlin Li, Guangrun Wang, Yun Xiao, Qing Du, Xiaodan Liang y Xiaojun Chang. Más allá de la fijación: Transformador visual de ventana dinámica. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 11987–11997, 2022. 1


[18] Shitao Tang, Jiahui Zhang, Siyu Zhu y Ping Tan. Atención Quadtree para transformadores de visión. Preimpresión de arXiv arXiv:2201.02767, 2022. 2, 4


[19] Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B Tenenbaum y Chuang Gan. Transformadores de dependencia visual: el árbol de dependencia surge de la atención invertida. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 14528–14539, 2023. 2, 6, 7


[20] Tsung-Wei Ke, Sangwoo Mo y X Yu Stella. Aprendizaje de la segmentación jerárquica de imágenes para reconocimiento y por reconocimiento. En la Duodécima Conferencia Internacional sobre Representaciones de Aprendizaje, 2023. 2, 4


[21] N. Linial, E. London y Y. Rabinovich. La geometría de los grafos y algunas de sus aplicaciones algorítmicas. En Actas del 35.° Simposio Anual sobre Fundamentos de la Ciencia de la Computación, páginas 577–591, 1994. doi: 10.1109/SFCS.1994.365733. 2


[22] Hongbin Pei, Bingzhe Wei, Kevin Chang, Chunxu Zhang y Bo Yang. Regularización de la curvatura para evitar la distorsión en la incrustación de gráficos. Avances en sistemas de procesamiento de información neuronal, 33:20779–20790, 2020.


[23] Maximillian Nickel y Douwe Kiela. Incrustaciones de Poincaré para el aprendizaje de representaciones jerárquicas. Avances en sistemas de procesamiento de información neuronal, 30, 2017.


[24] Maximillian Nickel y Douwe Kiela. Aprendizaje de jerarquías continuas en el modelo de Lorentz de geometría hiperbólica. En la conferencia internacional sobre aprendizaje automático, páginas 3779-3788. PMLR, 2018. 3


[25] Zhi Gao, Yuwei Wu, Yunde Jia y Mehrtash Harandi. Generación de curvatura en espacios curvos para aprendizaje de pocos disparos. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 8691–8700, 2021. 3


[26] Alexandru Tifrea, Gary Becigneul y Octavian-Eugen Ganea. Guante de Poincaré: incrustaciones de palabras hiperbólicas. Preimpresión de arXiv arXiv:1810.06546, 2018.3


[27] Yudong Zhu, Di Zhou, Jinghui Xiao, Xin Jiang, Xiao Chen y Qun Liu. Hipertexto: dotar al texto rápido de geometría hiperbólica. Preimpresión de arXiv arXiv:2010.16143, 2020.3


[28] Ines Chami, Zhitao Ying, Christopher Re y Jure Leskovec. ´ Redes neuronales convolucionales de grafos hiperbólicos. Avances en sistemas de procesamiento de información neuronal, 32, 2019.


[29] Karan Desai, Maximilian Nickel, Tanmay Rajpurohit, Justin Johnson y Shanmukha Ramakrishna Vedantam. Representaciones hiperbólicas de imágenes y textos. En la Conferencia Internacional sobre Aprendizaje Automático, páginas 7694–7731. PMLR, 2023. 2, 3, 5


[30] Luke Vilnis y Andrew McCallum. Representaciones de palabras mediante incrustación gaussiana. En la Conferencia internacional sobre representaciones del aprendizaje, 2015. 2


[31] Ben Athiwaratkun y Andrew Gordon Wilson. Distribuciones de palabras multimodales. Preimpresión de arXiv arXiv:1704.08424, 2017. 3


[32] Ben Athiwaratkun y Andrew Gordon Wilson. Incrustaciones de orden de densidad jerárquica. En la Conferencia internacional sobre representaciones de aprendizaje, 2018.


[33] Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu y Yujiu Yang. Modelado probabilístico de la ambigüedad semántica para la generación de gráficos de escena. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 12527–12536, 2021. 2


[34] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje residual profundo para reconocimiento de imágenes. En Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones, páginas 770–778, 2016. 2, 6, 12


[35] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles y Herve Jegou. Entrenamiento de transformadores de imágenes con uso eficiente de datos y destilación a través de la atención. En la conferencia internacional sobre aprendizaje automático, páginas 10347–10357. PMLR, 2021. 2, 6, 7, 12


[36] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li y Li Fei-Fei. Imagenet: una base de datos de imágenes jerárquica a gran escala. En la conferencia IEEE de 2009 sobre visión artificial y reconocimiento de patrones, páginas 248-255. IEEE, 2009. 2, 6, 7, 8, 12, 14


[37] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar y C Lawrence ´ Zitnick. Microsoft coco: objetos comunes en contexto. En Computer Vision–ECCV 2014: 13th European Conference, Zurich, Suiza, 6-12 de septiembre de 2014, Actas, Parte V 13, páginas 740–755. Springer, 2014. 6, 7


[38] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso y Antonio Torralba. Análisis de escenas a través del conjunto de datos ade20k. En Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones, páginas 633–641, 2017. 2, 7


[39] Pedro F Felzenszwalb, Ross B Girshick, David McAllester y Deva Ramanan. Detección de objetos con modelos basados en partes entrenados de manera discriminativa. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 32(9):1627–1645, 2009. 2


[40] Feng Han y Song-Chun Zhu. Análisis de imágenes de abajo a arriba y de arriba a abajo con gramática de atributos. Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas, 31(1):59–73, 2008.


[41] Erik B Sudderth, Antonio Torralba, William T Freeman y Alan S Willsky. Aprendizaje de modelos jerárquicos de escenas, objetos y partes. En Décima Conferencia Internacional IEEE sobre Visión por Computador (ICCV'05) Volumen 1, volumen 2, páginas 1331–1338. IEEE, 2005.


[42] Zhuowen Tu, Xiangrong Chen, Alan L Yuille y Song-Chun Zhu. Análisis de imágenes: unificación de la segmentación, la detección y el reconocimiento. Revista internacional de visión artificial, 63: 113–140, 2005. 2


[43] Tianfu Wu y Song-Chun Zhu. Un estudio numérico de los procesos de inferencia ascendente y descendente en gráficos and-or. Revista internacional de visión artificial, 93:226–252, 2011. 2


[44] Wenguan Wang, Zhijie Zhang, Siyuan Qi, Jianbing Shen, Yanwei Pang y Ling Shao. Aprendizaje de la fusión de información neuronal compositiva para el análisis sintáctico humano. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 5703–5713, 2019. 2


[45] Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen y Ling Shao. Análisis jerárquico humano con razonamiento de relación de partes tipificadas. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 8929–8939, 2020. 2


[46] Sandro Braun, Patrick Esser y Bjorn Ommer. Descubrimiento de partes no supervisado mediante desenredo no supervisado. En Pattern Recognition: 42nd DAGM German Conference, DAGM GCPR 2020, Tubinga, Alemania, 28 de septiembre al 1 de octubre de 2020, Actas 42, páginas 345-359. Springer, 2021. 2


[47] Subhabrata Choudhury, Iro Laina, Christian Rupprecht y Andrea Vedaldi. Descubrimiento de partes no supervisado a partir de reconstrucción contrastiva. Avances en sistemas de procesamiento de información neuronal, 34:28104–28118, 2021.


[48] Wei-Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming-Hsuan Yang y Jan Kautz. Scops: Segmentación de copartes autosupervisada. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 869–878, 2019. 2


[49] Tsung-Wei Ke, Sangwoo Mo y Stella X. Yu. Aprendizaje de la segmentación jerárquica de imágenes para reconocimiento y por reconocimiento. En la Duodécima Conferencia Internacional sobre Representaciones de Aprendizaje, 2024. 2


[50] Sanghyuk Chun, Seong Joon Oh, Rafael Sampaio De Rezende, Yannis Kalantidis y Diane Larlus. Integraciones probabilísticas para recuperación intermodal. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 8415–8424, 2021. 3, 5


[51] Yichun Shi y Anil K Jain. Incrustaciones faciales probabilísticas. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computadora, páginas 6902–6911, 2019. 3


[52] Jungin Park, Jiyoung Lee, Ig-Jae Kim y Kwanghoon Sohn. Representaciones probabilísticas para el aprendizaje contrastivo de video. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 14711–14721, 2022. 3


[53] Maximillian Nickel y Douwe Kiela. Poincare Embeddings ´ para el aprendizaje de representaciones jerárquicas. Avances en sistemas de procesamiento de información neuronal, 30, 2017. 3


[54] Mina Ghadimi Atigh, Julian Schoep, Erman Acar, Nanne Van Noord y Pascal Mettes. Segmentación de imágenes hiperbólicas. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 4453–4462, 2022. 3


[55] Zhenzhen Weng, Mehmet Giray Ogut, Shai Limonchik y Serena Yeung. Descubrimiento no supervisado de la cola larga en la segmentación de instancias mediante autosupervisión jerárquica. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 2603–2612, 2021. 3


[56] Valentin Khrulkov, Leyla Mirvakhabova, Evgeniya Ustinova, Ivan Oseledets y Victor Lempitsky. Incrustaciones de imágenes hiperbólicas. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 6418–6428, 2020. 3


[57] Durk P Kingma, Tim Salimans y Max Welling. Abandono variacional y el truco de la reparametrización local. Avances en sistemas de procesamiento de información neuronal, 28, 2015. 4


[58] Aaron van den Oord, Yazhe Li y Oriol Vinyals. Aprendizaje de representaciones con codificación predictiva contrastiva. Preimpresión de arXiv arXiv:1807.03748, 2018. 5


[59] Mingxing Tan y Quoc Le. Efficientnet: Replanteamiento del escalamiento de modelos para redes neuronales convolucionales. En la conferencia internacional sobre aprendizaje automático, páginas 6105–6114. PMLR, 2019. 6, 12


[60] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin y Baining Guo. Transformador Swin: Transformador de visión jerárquica que utiliza ventanas desplazadas. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 10012–10022, 2021. 6, 7, 12


[61] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo y Ling Shao. Pvt v2: Líneas base mejoradas con transformador de visión piramidal. Medios visuales computacionales, 8(3):415–424, 2022. 6, 7


[62] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang y Lu Yuan. Davit: Transformadores de visión de atención dual. En European Conference on Computer Vision, páginas 74–92. Springer, 2022. 6


[63] Pengchuan Zhang, Xiyang Dai, Jianwei Yang, Bin Xiao, Lu Yuan, Lei Zhang y Jianfeng Gao. Transformador de visión multiescala: un nuevo transformador de visión para la codificación de imágenes de alta resolución. En Actas de la conferencia internacional IEEE/CVF sobre visión artificial, páginas 2998-3008, 2021.


[64] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He y Piotr Dollar. Pérdida focal para la detección de objetos densos. ´ En Actas de la conferencia internacional IEEE sobre visión artificial, páginas 2980–2988, 2017. 6


[65] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler y Daniel Soudry. Aumente su lote: Mejore la generalización mediante la repetición de instancias. En Actas de la Conferencia IEEE/CVF sobre Visión artificial y reconocimiento de patrones, páginas 8129–8138, 2020. 6


[66] Ilya Loshchilov y Frank Hutter. Regularización de la descomposición del peso desacoplada. Preimpresión de arXiv arXiv:1711.05101, 2017.6


[67] Kaiming He, Georgia Gkioxari, Piotr Dollar y Ross Girshick. Mask r-cnn. En Actas de la conferencia internacional IEEE sobre visión artificial, páginas 2961-2969, 2017. 7, 12


[68] Yanghao Li, Hanzi Mao, Ross Girshick y Kaiming He. Exploración de las estructuras de los transformadores de visión simple para la detección de objetos. En European Conference on Computer Vision, páginas 280–296. Springer, 2022. 7


[69] Alexander Kirillov, Ross Girshick, Kaiming He y Piotr Dollar. Redes piramidales de características panópticas. En Actas de la conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, páginas 6399–6408, 2019. 7


[70] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang y Jian Sun. Análisis perceptual unificado para la comprensión de escenas. En Actas de la conferencia europea sobre visión artificial (ECCV), páginas 418–434, 2018. 7, 12


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks