101 ریڈنگز

کیا ہوگا اگر AI ہماری طرح کی تصاویر کو سمجھے؟ یہ ماڈل ہو سکتا ہے

کی طرف سے Hyperbole11m2025/03/01
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

Hi-Mapper ایک AI ماڈل ہے جو ہائپربولک اسپیس کا استعمال کرتے ہوئے بصری درجہ بندی کا نقشہ بناتا ہے، منظر کی سمجھ کو بڑھاتا ہے اور گہری سیکھنے والے نیٹ ورکس کی کارکردگی کو بڑھاتا ہے۔
featured image - کیا ہوگا اگر AI ہماری طرح کی تصاویر کو سمجھے؟ یہ ماڈل ہو سکتا ہے
Hyperbole HackerNoon profile picture
0-item

مصنفین:

(1) Hyeongjun Kwon، Yonsei یونیورسٹی؛

(2) Jinhyun Jang، Yonsei یونیورسٹی؛

(3) جن کم، یونسی یونیورسٹی؛

(4) Kwonyoung Kim, Yonsei University;

(5) Kwanghoon Sohn، Yonsei University and Korea Institute of Science and Technology (KIST)۔

لنکس کی میز

خلاصہ اور 1 تعارف

2. متعلقہ کام

3. ہائپربولک جیومیٹری

4. طریقہ

4.1 جائزہ

4.2 امکانی درجہ بندی کا درخت

4.3 بصری درجہ بندی کی سڑن

4.4 ہائپربولک اسپیس میں درجہ بندی سیکھنا

4.5 بصری درجہ بندی کی انکوڈنگ

5. تجربات اور 5.1۔ تصویر کی درجہ بندی

5.2 آبجیکٹ کا پتہ لگانے اور مثال کی تقسیم

5.3 معنوی انقطاع

5.4 تصور

6. خاتمے کا مطالعہ اور بحث

7. نتیجہ اور حوالہ جات

A. نیٹ ورک آرکیٹیکچر

B. نظریاتی بیس لائن

C. اضافی نتائج

D. اضافی تصور

7. نتیجہ

اس مقالے میں، ہم نے ایک ناول Visual Hierarchy Mapper (Hi-Mapper) پیش کیا ہے جو بصری مناظر کی درجہ بندی کی تنظیم کی تحقیقات کرتا ہے۔ ہم نے امکانی تقسیم کے ساتھ درخت نما ساخت کی نئی تعریف کرکے اور ہائپربولک اسپیس میں درجہ بندی کے تعلقات کو سیکھ کر مقصد حاصل کیا ہے۔ ہم نے متضاد نقصان میں درجہ بندی کی تشریح کو شامل کیا ہے اور اعداد و شمار کے موثر انداز میں بصری درجہ بندی کی مؤثر طریقے سے شناخت کی ہے۔ ایک مؤثر درجہ بندی کی تخریب کاری اور انکوڈنگ کے طریقہ کار کے ذریعے، شناخت شدہ درجہ بندی کو عالمی بصری نمائندگی میں کامیابی کے ساتھ تعینات کیا گیا ہے، جس سے پورے منظر کی ساختی تفہیم میں اضافہ ہوتا ہے۔ Hi-Mapper نے موجودہ DNNs کے ساتھ مربوط ہونے پر ان کی کارکردگی کو مستقل طور پر بہتر کیا ہے، اور مختلف گھنی پیشین گوئیوں پر تاثیر کا بھی مظاہرہ کیا ہے۔


اعتراف اس تحقیق کو 2022 (2022-22-0002) کے Yonsei Signature Research Cluster Program سے تعاون حاصل تھا۔

حوالہ جات

[1] الیگزینڈر ایرمولوف، لیلا میرواخابوا، ویلنٹن خرولکوف، نیکو سیبی، اور ایوان اوسیلیڈیٹس۔ ہائپربولک وژن ٹرانسفارمرز: میٹرک سیکھنے میں بہتری کا امتزاج۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 7409–7419، 2022۔ 1, 3


[2] سنگیون کم، بوسونگ جیونگ، اور سوہا کواک۔ ہائر: درجہ بندی کے ذریعہ کلاس لیبلز سے آگے میٹرک سیکھنا۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 19903–19912، 2023۔ 1, 3


[3] جارجیا Gkioxari، Ross Girshick، Piotr Dollar، اور Kaiming ´ He. انسانی آبجیکٹ کے تعامل کا پتہ لگانا اور پہچاننا۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE کانفرنس کی کارروائی میں، صفحات 8359–8367، 2018۔ 1


[4] Jinhyun Jang، Jungin Park، Jin Kim، Hyeongjun Kwon، اور Kwanghoon Sohn۔ یہ جاننا کہ کہاں فوکس کرنا ہے: ویڈیو گراؤنڈنگ کے لیے ایونٹ ویئر ٹرانسفارمر۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 13846–13856، 2023۔ 1


[5] Zhi Hou، Baosheng Yu، Yu Qiao، Xiaojiang Peng، اور Dacheng Tao۔ انسانی آبجیکٹ کے تعامل کا پتہ لگانے کے لیے افورڈنس ٹرانسفر لرننگ۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 495–504، 2021۔ 1


[6] Hyeongjun Kwon، Taeyong Song، Somi Jeong، Jin Kim، Jinhyun Jang، اور Kwanghoon Sohn۔ گھنے پیشین گوئی کے لیے ممکنہ فوری سیکھنا۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 6768–6777، 2023۔ 1, 3


[7] جن کم، جیونگ لی، جنگن پارک، ڈونگبو من، اور کوانگھون سوہن۔ میموری کو پن کریں: سیمنٹک سیگمنٹیشن کو عام کرنا سیکھنا۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 4350–4360، 2022۔ 1


[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mustafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. ایک تصویر کی قیمت 16x16 الفاظ ہے: پیمانے پر تصویر کی شناخت کے لیے ٹرانسفارمرز۔ arXiv preprint arXiv: 2010.11929، 2020۔ 1


[9] پرجیت رامچندرن، نکی پرمار، آشیش واسوانی، اروان بیلو، اینسلم لیوسکایا، اور جون شلنس۔ وژن ماڈلز میں اسٹینڈ اکیلے خود کی توجہ۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 32، 2019۔ 1


[10] Hengshuang Zhao، Jiaya Jia، اور Vladlen Koltun. تصویر کی شناخت کے لیے خود توجہ کی تلاش۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 10076–10085، 2020۔ 7


[11] Jianyuan Guo، Kai Han، Han Wu، Yehui Tang، Xinghao Chen، Yunhe Wang، اور Chang Xu. Cmt: Convolutional عصبی نیٹ ورک وژن ٹرانسفارمرز سے ملتے ہیں۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 12175–12185، 2022۔


[12] ہیپنگ وو، بن ژاؤ، نول کوڈیلا، مینگچن لیو، ژیانگ ڈائی، لو یوآن، اور لی ژانگ۔ Cvt: وژن ٹرانسفارمرز میں تبدیلیوں کا تعارف۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 22–31، 2021۔ 1, 6


[13] Xiaoyi ڈونگ، Jianmin Bao، Dongdong چن، Weiming Zhang، Nenghai Yu، Lu Yuan، Dong Chen، اور Baining Guo۔ Cswin ٹرانسفارمر: کراس سائز کی کھڑکیوں کے ساتھ ایک عمومی وژن ٹرانسفارمر ریڑھ کی ہڈی۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 12124–12134، 2022۔ 1


[14] وینہائی وانگ، اینز زی، ژیانگ لی، ڈینگ پنگ فین، کائیتاو سونگ، ڈنگ لیانگ، ٹونگ لو، پنگ لو، اور لنگ شاو۔ پیرامڈ ویژن ٹرانسفارمر: بغیر کسی تبدیلی کے گھنے پیشین گوئی کے لیے ایک ورسٹائل ریڑھ کی ہڈی۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 568–578، 2021۔


[15] یانگاؤ لی، چاو یوآن وو، ہاوکی فین، کارٹیکیا منگلم، بو ژیونگ، جتیندر ملک، اور کرسٹوف فیچٹن ہوفر۔ Mvitv2: درجہ بندی اور پتہ لگانے کے لیے بہتر ملٹی اسکیل وژن ٹرانسفارمرز۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 4804–4814، 2022۔ 1


[16] چون-فو رچرڈ چن، کوانفو فین، اور رامیشور پانڈا۔ کراس وِٹ: تصویر کی درجہ بندی کے لیے کراس اٹینشن ملٹی اسکیل وژن ٹرانسفارمر۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 357–366، 2021۔ 1, 2, 6


[17] Pengzhen Ren، Changlin Li، Guangrun Wang، Yun Xiao، Qing Du، Xiaodan Liang، اور Xiaojun Chang. فکسشن سے آگے: متحرک ونڈو بصری ٹرانسفارمر۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 11987–11997، 2022۔ 1


[18] Shitao Tang، Jiahui Zhang، Siyu Zhu، اور Ping Tan. وژن ٹرانسفارمرز کے لیے کواڈٹری توجہ۔ arXiv preprint arXiv:2201.02767, 2022. 2, 4


[19] Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B Tenenbaum, and Chuang Gan. بصری انحصار ٹرانسفارمرز: انحصار کا درخت الٹ توجہ سے ابھرتا ہے۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 14528–14539، 2023۔ 2, 6, 7


[20] تسنگ وی کے، سنگ وو مو، اور ایکس یو سٹیلا۔ شناخت اور شناخت کے لیے درجہ بندی کی تصویری تقسیم سیکھنا۔ سیکھنے کی نمائندگی پر بارہویں بین الاقوامی کانفرنس میں، 2023۔ 2, 4


[21] N. Linial, E. London, and Y. Rabinovich. گرافس کی جیومیٹری اور اس کی کچھ الگورتھمک ایپلی کیشنز۔ کمپیوٹر سائنس کی بنیادوں پر 35ویں سالانہ سمپوزیم کی کارروائی میں، صفحہ 577–591، 1994. doi: 10.1109/ SFCS.1994.365733۔ 2


[22] Hongbin Pei، Bingzhe Wei، Kevin Chang، Chunxu Zhang، اور Bo Yang۔ گراف ایمبیڈنگ میں مسخ کو روکنے کے لیے گھماؤ ریگولرائزیشن۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 33:20779–20790، 2020۔


[23] Maximillian Nickel اور Douwe Kiela۔ درجہ بندی کی نمائندگی سیکھنے کے لیے پوئن کیئر ایمبیڈنگز۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 30، 2017۔


[24] Maximillian Nickel اور Douwe Kiela۔ ہائپربولک جیومیٹری کے لورینٹز ماڈل میں مسلسل درجہ بندی سیکھنا۔ مشین لرننگ پر بین الاقوامی کانفرنس میں، صفحات 3779–3788۔ PMLR، 2018۔ 3


[25] زی گاو، یووی وو، یونڈے جیا، اور مہرتش ہرانڈی۔ چند شاٹ سیکھنے کے لیے خمیدہ جگہوں میں گھماؤ پیدا کرنا۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 8691–8700، 2021۔ 3


[26] الیگزینڈرو ٹیفریا، گیری بیکگنیول، اور آکٹیوین-یوجن ´ گینیا۔ Poincar\'e دستانے: ہائپربولک لفظ سرایت کرنا۔ arXiv پری پرنٹ arXiv:1810.06546، 2018. 3


[27] یوڈونگ ژو، دی زو، جِنگھوئی ژاؤ، ژن جیانگ، ژاؤ چن، اور کون لیو۔ ہائپر ٹیکسٹ: فاسٹ ٹیکسٹ کو ہائپربولک جیومیٹری کے ساتھ عطا کرنا۔ arXiv preprint arXiv:2010.16143، 2020. 3


[28] Ines Chami، Zhitao Ying، Christopher Re، اور Jure Leskovec۔ ´ ہائپربولک گراف convolutional عصبی نیٹ ورکس۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 32، 2019۔


[29] کرن دیسائی، میکسیمیلین نکل، تنمے راجپوروہت، جسٹن جانسن، اور شانمکھا رام کرشنا ویدانتم۔ ہائپربولک امیج ٹیکسٹ کی نمائندگی۔ مشین لرننگ پر بین الاقوامی کانفرنس میں، صفحہ 7694–7731۔ پی ایم ایل آر، 2023۔ 2، 3، 5


[30] لیوک ولنس اور اینڈریو میک کیلم۔ گاوسی ایمبیڈنگ کے ذریعے الفاظ کی نمائندگی۔ سیکھنے کی نمائندگی پر بین الاقوامی کانفرنس میں، 2015۔ 2


[31] بین اتھیوارٹکن اور اینڈریو گورڈن ولسن۔ ملٹی موڈل الفاظ کی تقسیم۔ arXiv preprint arXiv:1704.08424، 2017. 3


[32] بین اتھیوارٹکن اور اینڈریو گورڈن ولسن۔ درجہ بندی کی کثافت کے آرڈر ایمبیڈنگز۔ سیکھنے کی نمائندگی پر بین الاقوامی کانفرنس، 2018 میں۔


[33] Gengcong یانگ، Jingyi Zhang، Yong Zhang، Baoyuan وو، اور Yujiu یانگ. سین گراف جنریشن کے لیے سیمنٹک ابہام کی ممکنہ ماڈلنگ۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 12527–12536، 2021۔ 2


[34] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. تصویر کی شناخت کے لیے گہری بقایا تعلیم۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE کانفرنس کی کارروائی میں، صفحات 770–778، 2016۔ 2, 6, 12


[35] Hugo Touvron، Matthieu Cord، Matthijs Douze، Francisco Massa، Alexandre Sablayrolles، اور Herve Jegou۔ تربیت ´ ڈیٹا موثر امیج ٹرانسفارمرز اور توجہ کے ذریعے کشید۔ مشین لرننگ پر بین الاقوامی کانفرنس میں، صفحات 10347–10357۔ پی ایم ایل آر، 2021۔ 2، 6، 7، 12


[36] جیا ڈینگ، وی ڈونگ، رچرڈ سوچر، لی جیا لی، کائی لی، اور لی فی-فی۔ Imagenet: ایک بڑے پیمانے پر درجہ بندی کی تصویر کا ڈیٹا بیس۔ 2009 میں کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE کانفرنس، صفحہ 248-255۔ آئی ای ای، 2009۔ 2، 6، 7، 8، 12، 14


[37] تسونگ یی لن، مائیکل مائر، سرج بیلونگی، جیمز ہیز، پیٹرو پیرونا، دیوا رامانن، پیوٹر ڈالر، اور سی لارنس زٹنک۔ مائیکروسافٹ کوکو: سیاق و سباق میں عام اشیاء۔ کمپیوٹر وژن – ای سی سی وی 2014 میں: 13 ویں یورپی کانفرنس، زیورخ، سوئٹزرلینڈ، 6-12 ستمبر 2014، کارروائی، حصہ V 13، صفحہ 740-755۔ اسپرنگر، 2014. 6، 7


[38] بولی ژاؤ، ہینگ ژاؤ، زیویئر پیوگ، سانجا فیڈلر، ایڈیلا باریوسو، اور انتونیو ٹورالبا۔ ade20k ڈیٹاسیٹ کے ذریعے منظر کی تجزیہ۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE کانفرنس کی کارروائی میں، صفحات 633–641، 2017۔ 2, 7


[39] پیڈرو F Felzenszwalb، Ross B Girshick، David McAllester، اور Deva Ramanan۔ امتیازی تربیت یافتہ پارٹ بیسڈ ماڈلز کے ساتھ آبجیکٹ کا پتہ لگانا۔ پیٹرن کے تجزیہ اور مشینی ذہانت پر IEEE لین دین، 32(9):1627–1645، 2009۔ 2


[40] فینگ ہان اور سونگ-چون ژو۔ انتساب گرامر کے ساتھ نیچے سے اوپر/اوپر سے نیچے کی تصویر کو پارس کرنا۔ پیٹرن کے تجزیہ اور مشینی ذہانت پر IEEE لین دین، 31(1):59–73، 2008۔


[41] Erik B Sudderth، Antonio Torralba، William T Freeman، اور Alan S Willsky۔ مناظر، اشیاء اور حصوں کے درجہ بندی کے ماڈل سیکھنا۔ کمپیوٹر وژن پر دسویں IEEE انٹرنیشنل کانفرنس (ICCV'05) والیم 1، جلد 2، صفحہ 1331–1338 میں۔ IEEE، 2005۔


[42] Zhuowen Tu، Xiangrong Chen، Alan L Yuille، اور Song-Chun Zhu. تصویری تجزیہ: انقطاع، پتہ لگانے، اور شناخت کو متحد کرنا۔ انٹرنیشنل جرنل آف کمپیوٹر ویژن، 63: 113–140، 2005۔ 2


[43] تیانفو وو اور سونگ چون جھو۔ اور یا گراف میں نیچے سے اوپر اور اوپر سے نیچے کے تخمینے کے عمل کا عددی مطالعہ۔ بین الاقوامی جرنل آف کمپیوٹر ویژن، 93:226–252، 2011۔ 2


[44] Wenguan Wang، Zhijie Zhang، Siyuan Qi، Jianbing Shen، Yanwei Pang، اور Ling Shao. انسانی تجزیہ کے لیے ساختی عصبی معلومات کا فیوژن سیکھنا۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحات 5703–5713، 2019۔ 2


[45] وینگوان وانگ، ہیلونگ ژو، جیفینگ ڈائی، یانوی پینگ، جیان بنگ شین، اور لنگ شاؤ۔ ٹائپ شدہ پارٹ ریلیشن استدلال کے ساتھ درجہ بندی انسانی تجزیہ۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 8929–8939، 2020۔ 2


[46] سینڈرو براؤن، پیٹرک ایسر، اور بیورن اومر۔ غیر زیر نگرانی حصے کی دریافت پیٹرن ریکگنیشن میں: 42ویں DAGM جرمن کانفرنس، DAGM GCPR 2020، Tubingen، Germany، 28 ستمبر-1 اکتوبر 2020، کارروائی 42، صفحہ 345-359۔ اسپرنگر، 2021۔ 2


[47] Subhabrata چوہدری، Iro Laina، Christian Rupprecht، اور Andrea Vedaldi. متضاد تعمیر نو سے غیر زیر نگرانی حصے کی دریافت۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 34:28104–28118، 2021۔


[48] وی چی ہنگ، ورون جمپانی، سیفی لیو، پاولو مولچانوف، منگ-ہسوان یانگ، اور جان کاؤٹز۔ اسکوپس: خود زیر نگرانی شریک حصے کی تقسیم۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 869–878، 2019۔ 2


[49] تسنگ وی کے، سنگ وو مو، اور سٹیلا ایکس یو۔ شناخت اور شناخت کے لیے درجہ بندی کی تصویری تقسیم سیکھنا۔ سیکھنے کی نمائندگی پر بارہویں بین الاقوامی کانفرنس میں، 2024


[50] سنگھیوک چون، سیونگ جون اوہ، رافیل سمپائیو ڈی ریزینڈے، یانس کالانٹیڈیس، اور ڈیان لارلس۔ کراس موڈل بازیافت کے لیے ممکنہ سرایت۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 8415–8424، 2021۔ 3, 5


[51] یچون شی اور انیل کے جین۔ امکانی چہرہ سرایت کرنا۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 6902–6911، 2019۔ 3


[52] Jungin Park, Jiyoung Lee, Ig-Jae Kim, and Kwanghoon Sohn. ویڈیو متضاد سیکھنے کے لئے ممکنہ نمائندگی۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 14711–14721، 2022۔ 3


[53] Maximillian Nickel اور Douwe Kiela۔ درجہ بندی کی نمائندگی سیکھنے کے لیے پوئن کیئر ایمبیڈنگز۔ نیورل انفارمیشن پروسیسنگ سسٹمز میں پیشرفت، 30، 2017۔ 3


[54] مینا غادیمی اتیگ، جولین شوپ، ایرمان اکار، نین وان نورڈ، اور پاسکل میٹس۔ ہائپربولک امیج سیگمنٹیشن۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 4453–4462، 2022۔ 3


[55] ژینزین وینگ، مہمت گیرے اوگٹ، شائی لیمونچک، اور سرینا یونگ۔ درجہ بندی کی خود نگرانی کا استعمال کرتے ہوئے مثال کے طور پر سیگمنٹیشن میں لمبی دم کی غیر زیر نگرانی دریافت۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 2603–2612، 2021۔ 3


[56] ویلنٹن خرولکوف، لیلا میرواکھابووا، ایوجینیا اوستینووا، ایوان اوسیلیڈیٹس، اور وکٹر لیمپٹسکی۔ ہائپربولک امیج ایمبیڈنگز۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 6418–6428، 2020۔ 3


[57] ڈرک پی کنگما، ٹم سلیمان، اور میکس ویلنگ۔ تغیراتی ڈراپ آؤٹ اور مقامی ری پیرامیٹرائزیشن کی چال۔ نیورل انفارمیشن پروسیسنگ سسٹم میں ترقی، 28، 2015۔ 4


[58] Aaron van den Oord، Yazhe Li، اور Oriol Vinyals۔ متضاد پیشن گوئی کوڈنگ کے ساتھ نمائندگی کی تعلیم۔ arXiv preprint arXiv:1807.03748، 2018. 5


[59] Mingxing Tan اور Quoc Le. Efficientnet: convolutional عصبی نیٹ ورکس کے لیے ماڈل اسکیلنگ پر دوبارہ غور کرنا۔ مشین لرننگ پر بین الاقوامی کانفرنس میں، صفحہ 6105–6114۔ پی ایم ایل آر، 2019۔ 6، 12


[60] زی لیو، یوٹونگ لن، یو کاو، ہان ہو، یکسوان وی، زینگ ژانگ، اسٹیفن لن، اور بیننگ گو۔ سوئن ٹرانسفارمر: شفٹ شدہ کھڑکیوں کا استعمال کرتے ہوئے درجہ بندی کا وژن ٹرانسفارمر۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحات 10012–10022، 2021۔ 6, 7, 12


[61] وینہائی وانگ، اینز ژی، ژیانگ لی، ڈینگ پنگ فین، کائیتاو سونگ، ڈنگ لیانگ، ٹونگ لو، پنگ لو، اور لنگ شاؤ۔ Pvt v2: پرامڈ ویژن ٹرانسفارمر کے ساتھ بہتر بیس لائنز۔ کمپیوٹیشنل ویژول میڈیا، 8(3):415–424، 2022۔ 6, 7


[62] Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, and Lu Yuan. ڈیویٹ: دوہری توجہ والے وژن ٹرانسفارمرز۔ کمپیوٹر وژن پر یورپی کانفرنس میں، صفحہ 74-92۔ اسپرنگر، 2022۔ 6


[63] Pengchuan Zhang، Xiyang Dai، Jianwei Yang، Bin Xiao، Lu Yuan، Lei Zhang، اور Jianfeng Gao. ملٹی اسکیل وژن لانگفارمر: ہائی ریزولوشن امیج انکوڈنگ کے لیے ایک نیا وژن ٹرانسفارمر۔ کمپیوٹر وژن پر IEEE/CVF بین الاقوامی کانفرنس کی کارروائی میں، صفحات 2998-3008، 2021۔


[64] تسنگ یی لن، پریا گوئل، راس گرشک، کیمنگ ہی، اور پیوٹر ڈالر۔ گھنے آبجیکٹ کا پتہ لگانے کے لیے فوکل نقصان۔ کمپیوٹر وژن پر IEEE بین الاقوامی کانفرنس کی کارروائی میں، صفحہ 2980–2988، 2017۔ 6


[65] ایلاد ہوفر، تال بین-نن، ایتے ہوبارا، نیو گیلادی، ٹورسٹن ہوفلر، اور ڈینیئل سوڈری۔ اپنے بیچ میں اضافہ کریں: مثال کی تکرار کے ذریعے عامیت کو بہتر بنانا۔ کمپیوٹر ویژن اور پیٹرن ریکگنیشن پر IEEE/CVF کانفرنس کی کارروائی میں، صفحہ 8129–8138، 2020۔ 6


[66] Ilya Loshchilov اور Frank Hutter. Decoupled وزن کشی ریگولرائزیشن. arXiv preprint arXiv:1711.05101، 2017. 6


[67] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. ماسک r-cnn. کمپیوٹر وژن پر IEEE بین الاقوامی کانفرنس کی کارروائی میں، صفحات 2961–2969، 2017۔ 7، 12


[68] یانگاؤ لی، ہانزی ماؤ، راس گرشِک، اور کیمنگ ہی۔ آبجیکٹ کا پتہ لگانے کے لئے سادہ وژن ٹرانسفارمر بیک بون کی تلاش۔ کمپیوٹر وژن پر یورپی کانفرنس میں، صفحہ 280-296۔ اسپرنگر، 2022۔ 7


[69] الیگزینڈر کریلوف، راس گرشِک، کیمنگ ہی، اور پیوٹر ڈالر۔ Panoptic فیچر پرامڈ نیٹ ورکس۔ کمپیوٹر ویژن اور پیٹرن کی شناخت پر IEEE/CVF کانفرنس کی کارروائی میں، صفحات 6399–6408، 2019۔ 7


[70] ٹیٹے ژاؤ، ینگچینگ لیو، بولی چاؤ، یوننگ جیانگ، اور جیان سن۔ منظر کی تفہیم کے لیے متحد ادراک تجزیہ۔ کمپیوٹر وژن (ECCV) پر یورپی کانفرنس کی کارروائی میں، صفحات 418–434، 2018۔ 7، 12


یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks