paint-brush
یہ AI ماڈل ایج ڈیوائسز کو ان کے سر کے پچھلے حصے پر آنکھیں فراہم کرتا ہے۔کی طرف سے@omnidirectional
131 ریڈنگز نئی تاریخ

یہ AI ماڈل ایج ڈیوائسز کو ان کے سر کے پچھلے حصے پر آنکھیں فراہم کرتا ہے۔

کی طرف سے Omnidirectional Technology5m2025/03/02
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

Panopticus ایک AI نظام ہے جو کنارے والے آلات پر ہمہ جہتی 3D آبجیکٹ کا پتہ لگانے کے لیے ہے۔ یہ spatial-adaptive execution اور multi-branch inference کا استعمال کرتے ہوئے درستگی اور تاخیر کو بہتر بناتا ہے۔
featured image - یہ AI ماڈل ایج ڈیوائسز کو ان کے سر کے پچھلے حصے پر آنکھیں فراہم کرتا ہے۔
Omnidirectional Technology HackerNoon profile picture
0-item

روابط کی میز

خلاصہ

1 تعارف

2 پس منظر: ہمہ جہتی 3D آبجیکٹ کا پتہ لگانا

3 ابتدائی تجربہ

3.1 تجرباتی سیٹ اپ

3.2 مشاہدات

3.3 خلاصہ اور چیلنجز

4 پینوپٹکس کا جائزہ

5 ملٹی برانچ ہمہ جہتی 3D آبجیکٹ کا پتہ لگانا

5.1 ماڈل ڈیزائن

6 مقامی- موافقت پذیر عمل

6.1 کارکردگی کی پیشن گوئی

5.2 ماڈل موافقت

6.2 عملدرآمد کا شیڈولنگ

7 نفاذ

8 تشخیص

8.1 ٹیسٹ بیڈ اور ڈیٹا سیٹ

8.2 تجرباتی سیٹ اپ

8.3 کارکردگی

8.4 مضبوطی

8.5 اجزاء کا تجزیہ

8.6 اوور ہیڈ

9 متعلقہ کام

10 بحث اور مستقبل کا کام

11 نتیجہ اور حوالہ جات


خلاصہ

ہمہ جہتی نظاروں کے ساتھ 3D آبجیکٹ کا پتہ لگانا حفاظتی اہم ایپلی کیشنز جیسے کہ موبائل روبوٹ نیویگیشن کو قابل بناتا ہے۔ اس طرح کی ایپلی کیشنز تیزی سے وسائل کے محدود کنارے والے آلات پر کام کرتی ہیں، رازداری کے خدشات یا نیٹ ورک میں تاخیر کے بغیر قابل اعتماد پروسیسنگ کی سہولت فراہم کرتی ہیں۔ لاگت سے موثر تعیناتی کو فعال کرنے کے لیے، کیمروں کو بڑے پیمانے پر LiDAR سینسرز کے کم لاگت متبادل کے طور پر اپنایا گیا ہے۔ تاہم، کیمرہ پر مبنی حل کی اعلیٰ کارکردگی کو حاصل کرنے کے لیے کمپیوٹ کے لحاظ سے کام کا بوجھ ایج ڈیوائسز کی کمپیوٹیشنل حدود کی وجہ سے چیلنجنگ رہتا ہے۔ اس مقالے میں، ہم Panopticus پیش کرتے ہیں، جو کنارے کے آلات پر ہمہ جہتی اور کیمرے پر مبنی 3D پتہ لگانے کے لیے احتیاط سے ڈیزائن کیا گیا نظام ہے۔ Panopticus ایک انکولی ملٹی برانچ کا پتہ لگانے کی اسکیم کا استعمال کرتا ہے جو مقامی پیچیدگیوں کا سبب بنتا ہے۔ تاخیر کی حدود میں درستگی کو بہتر بنانے کے لیے، Panopticus متحرک طور پر ماڈل کے فن تعمیر اور آپریشنز کو دستیاب کنارے کے وسائل اور مقامی خصوصیات کی بنیاد پر ایڈجسٹ کرتا ہے۔ ہم نے تین کنارے والے آلات پر Panopticus کو لاگو کیا اور عوامی خود ڈرائیونگ ڈیٹاسیٹ اور اپنے موبائل 360° کیمرہ ڈیٹاسیٹ کی بنیاد پر حقیقی دنیا کے ماحول میں تجربات کیے ہیں۔ تجرباتی نتائج سے پتہ چلتا ہے کہ Panopticus 33ms کے سخت لیٹنسی مقصد کے پیش نظر اوسطاً 62% درستگی کو بہتر بناتا ہے۔ نیز، Panopticus بیس لائنز کے مقابلے میں اوسطاً 2.1× لیٹینسی کمی حاصل کرتا ہے۔


1 تعارف

کمپیوٹر ویژن اور ڈیپ نیورل نیٹ ورکس (DNNs) میں ترقی کے ساتھ ساتھ، 3D آبجیکٹ کا پتہ لگانا متعدد ایپلی کیشنز کا بنیادی جزو بن گیا ہے۔ مثال کے طور پر، خود مختار گاڑیاں محفوظ نیویگیشن روٹس قائم کرنے کے لیے ماحول میں اشیاء کے عین مطابق اور حقیقی وقت پر انحصار کرتی ہیں [55]۔ چونکہ اشیاء کسی بھی سمت سے پہنچ سکتی ہیں، جیسا کہ شکل 1 میں دکھایا گیا ہے، یہ ایک جامع 360° فیلڈ آف ویو (FOV) کے ذریعے تاثر کو یقینی بنانا بہت ضروری ہے۔ اس طرح کے ہمہ جہتی ادراک کے لیے کافی مقدار میں سینسر ڈیٹا کی پروسیسنگ کی ضرورت ہوتی ہے اور ریئل ٹائم پروسیسنگ کے لیے AI ایکسلریٹر کے ساتھ اعلیٰ درجے کے کمپیوٹنگ آلات کی ضرورت ہوتی ہے [47]۔ حال ہی میں، ہمہ جہتی 3D آبجیکٹ کا پتہ لگانے کا استعمال کرتے ہوئے موبائل ایپلیکیشنز کی مانگ وسیع ہو گئی ہے۔ نگرانی جیسی ذاتی خدمات فراہم کرنے والے روبوٹ یا ڈرون ایسی ٹیکنالوجی سے فائدہ اٹھا سکتے ہیں [16]۔ اس کے علاوہ، آس پاس کی رکاوٹوں کا پتہ لگانا اور ممکنہ خطرات کے بارے میں قابل سماعت انتباہات فراہم کرنا بصارت سے محروم لوگوں کی مدد کر سکتا ہے [39، 56]۔ صارف کی رازداری کے مسائل یا نیٹ ورک اوور ہیڈز کو کم سے کم کرنے کے لیے ان ذاتی نوعیت کی ایپلی کیشنز کو ایک کنارے والے ڈیوائس پر پروسیس کیا جانا چاہیے۔ تاہم، یہاں تک کہ جدید ترین NVIDIA Jetson Orin سیریز [8]، جو جدید ترین ایج کمپیوٹ پاور پیش کرتی ہے، میں AI ایکسلریشن کے لیے 6.7× سے 13.5× کم ٹینسر کور کلاؤڈ کمپیوٹنگ کے لیے استعمال کیے جانے والے طاقتور A100 [9] کے مقابلے ہیں، جس کا بنیادی GPU فن تعمیر ہے۔ مزید برآں، ایج AI ایپلی کیشنز کو عملی عوامل پر غور کرنا چاہیے جیسے کہ لاگت سے موثر تعیناتیاں۔ نتیجے کے طور پر، کم لاگت والے کیمروں کے ساتھ ایسی ایپلی کیشنز کو سپورٹ کرنے کے لیے کافی کوشش کی گئی ہے [1, 38, 42, 58]۔ خاص طور پر، ایک سے زیادہ کیمرے یا ایک موبائل 360° کیمرہ ہمہ جہتی ادراک کی سہولت کے لیے استعمال کیا جاتا ہے۔

Edge AI سروسز میں درستگی اور تاخیر کے تقاضوں کا وسیع میدان ہے۔ حالیہ پیشرفت کے باوجود، وسائل کے محدود کنارے والے آلات پر کارکردگی اور درستگی دونوں کی حمایت کرنے میں پہلے کے کام کی حدود ہیں۔ ڈیپ مکس [18] نے ایک ایج ڈیوائس پر کمپیوٹیشنل بوجھ کو کم کرنے کے لیے کلاؤڈ سرور پر پیچیدہ DNN پر مبنی آبجیکٹ کا پتہ لگانے کے کاموں کو آف لوڈ کر دیا۔ ہمہ جہتی ادراک کے کاموں کو آف لوڈ کرنا، تاہم، بڑے پیمانے پر ڈیٹا کی ترسیل کی وجہ سے اہم ایج کلاؤڈ کمیونیکیشن میں تاخیر کا سبب بن سکتا ہے۔ PointSplit [37] کنارے GPU اور NPU پر متوازی آپریشن کی حمایت کرتا ہے، لیکن اسکیم کو محدود FOV کے ساتھ RGB-D سینسر کا استعمال کرتے ہوئے مخصوص 3D پتہ لگانے والی پائپ لائن کے لیے بہتر بنایا گیا ہے۔ دریں اثنا، مختلف طریقوں [1، 31، 34، 38] نے کیمرہ پر مبنی حل کی درستگی کو بڑھایا ہے، جو 3D گہرائی کی معلومات کی عدم موجودگی کی وجہ سے موروثی مشکلات پیدا کرتے ہیں۔ کاموں کی ایک لائن [29, 30, 52] نے RGB امیجز سے گہرائی کی پیشن گوئی کو بڑھانے کے لیے DNN تیار کرنے پر توجہ مرکوز کی ہے۔ نیز، بڑے پیمانے پر DNNs کو اپنانا، جیسے کہ ہائی ریزولوشن امیجز کا استعمال کرتے ہوئے فیچر نکالنے والے بیک بون، درستگی میں بہتری کے لیے ضروری ہے [51]۔ تاہم، ہمہ جہتی آدانوں کے ساتھ متعدد کمپیوٹ-انٹینسیو DNN کاموں پر کارروائی کرنے سے وسائل کے محدود کنارے والے آلات پر کافی کمپیوٹیشنل مطالبات ہوتے ہیں۔


اس مقالے میں، ہم Panopticus، ایک ایسا نظام تجویز کرتے ہیں جو کنارے والے آلات پر تاخیر کی ضروریات کو پورا کرتے ہوئے ہمہ جہتی 3D آبجیکٹ کی کھوج کی درستگی کو زیادہ سے زیادہ کرتا ہے۔ ہم نے ابتدائی طور پر مشاہدہ کیا ہے کہ کیمرہ پر مبنی 3D ڈٹیکٹروں میں مقامی خصوصیات کے لحاظ سے مختلف کھوج کی صلاحیتیں ہوتی ہیں، جن کا تعین اشیاء کی تعداد یا حرکت جیسے مختلف عوامل سے ہوتا ہے۔ Panopticus کا کلیدی خیال مقامی تقسیم میں قلیل مدتی حرکیات کی تفہیم کی بنیاد پر ہر کیمرے کے نظارے کو بہترین طریقے سے پروسیس کرنا ہے۔ مثال کے طور پر، کم سے کم درستگی کے نقصان کے ساتھ تاخیر کو کم کرنے کے لیے چند جامد اور قریبی اشیاء پر مشتمل کیمرہ کے منظر پر ہلکے وزن کے انفرنس کنفیگریشن کے ساتھ کارروائی کی جا سکتی ہے۔ اس کے بعد محفوظ کردہ لیٹنسی مارجن کو ایک پیچیدہ منظر کے لیے اعلی کارکردگی کا اندازہ لگانے کے لیے استعمال کیا جا سکتا ہے جہاں اشیاء تیزی سے حرکت کر رہی ہوں یا دور دراز مقام پر، جیسا کہ شکل 1 میں دکھایا گیا ہے۔

Panopticus کے ڈیزائن میں کئی چیلنجز موجود ہیں۔ سب سے پہلے، 3D کا پتہ لگانے سے پہلے کے ماڈلز ایک موثر اور متحرک انفرنس اسکیم فراہم کرنے میں ناکام رہتے ہیں جو ایک ہی ویڈیو فریم میں ہر کیمرے کے نظارے کے لیے انفرنس کنفیگریشن میں فرق کرنے کے قابل ہو، جیسے کہ ریڑھ کی ہڈی کی گنجائش یا گہرائی کے بہتر اندازے کا استعمال۔ مزید برآں، ماڈل کا فن تعمیر مختلف رکاوٹوں کو ایڈجسٹ کرنے کے لیے ایڈجسٹ ہونا چاہیے، جیسے کہ تاخیر کی ضروریات، دی گئی ڈیوائس پر۔ دوسرا، تاخیر کے تقاضوں کے اندر درستگی کو زیادہ سے زیادہ کرنے کے لیے، ہر کیمرے کے نظارے کے لیے بہترین تخمینہ ترتیب کا فیصلہ کیا جانا چاہیے۔ اس کے لیے مقامی تقسیم میں تبدیلیوں اور تخمینہ کنفیگریشنز کی متوقع کارکردگی دونوں کے رن ٹائم تجزیہ کی ضرورت ہے۔



ماڈل کے آرکیٹیکچرل اور آپریشنل ایڈجسٹمنٹ کو فعال کرنے کے لیے، ہم متعدد انفرنس برانچوں کے ساتھ ایک ہمہ جہتی 3D آبجیکٹ کا پتہ لگانے والا ماڈل متعارف کراتے ہیں۔ ماڈل مختلف شناختی صلاحیتوں کے ساتھ شاخوں میں سے کسی ایک کا استعمال کرتے ہوئے ہر منظر کو پروسیس کرتا ہے، جس سے ایج کمپیوٹنگ وسائل کے عمدہ استعمال کو ممکن بنایا جاتا ہے۔ ماڈل کے فن تعمیر کو ماڈیولر بنانے کے لیے ڈیزائن کیا گیا ہے، جو دی گئی رکاوٹوں کی خلاف ورزی کرنے والی شاخ کو الگ کر کے لچکدار تعیناتیوں کو قابل بناتا ہے۔ تاخیر کی حدود کے اندر درستگی کو زیادہ سے زیادہ کرنے کے دوسرے چیلنج کے لیے، ہم ایک مقامی-انکولی عملدرآمد اسکیم متعارف کراتے ہیں۔ رن ٹائم کے وقت، اسکیم ارد گرد کی اشیاء کی متوقع مقامی تقسیم کی بنیاد پر ہر شاخ کی کارکردگی کی پیش گوئی کرتی ہے۔ شاخوں اور کیمرے کے نظاروں کے بہترین امتزاج، جو تاخیر کے ہدف کو پورا کرتے ہوئے مجموعی اندازے کی درستگی کو زیادہ سے زیادہ بناتے ہیں، پھر تخمینہ کے لیے منتخب کیے جاتے ہیں۔ ہم نے مختلف کمپیوٹیشنل صلاحیتوں کے ساتھ تین کنارے والے آلات پر Panopticus کو لاگو کیا۔ نظام کا جائزہ مختلف حقیقی دنیا کے ماحول، جیسے شہری سڑکوں اور گلیوں میں، عوامی خود مختار ڈرائیونگ ڈیٹاسیٹ اور ہمارے حسب ضرورت موبائل 360° کیمرہ ٹیسٹ بیڈ کا استعمال کرتے ہوئے کیا گیا۔ وسیع تجربات سے معلوم ہوا کہ Panopticus نے مختلف منظرناموں میں کھوج کی درستگی اور کارکردگی دونوں کے لحاظ سے اپنی بنیادی خطوط پر بہتر کارکردگی کا مظاہرہ کیا۔

ہمارے کام کی اہم شراکتیں درج ذیل ہیں: •

ہمارے بہترین علم کے مطابق، Panopticus پہلا ہمہ جہتی اور کیمرہ پر مبنی 3D آبجیکٹ کا پتہ لگانے کا نظام ہے جو وسائل کے محدود کنارے والے آلات پر درستگی اور تاخیر سے اصلاح دونوں کو حاصل کرتا ہے۔

• ہم نے اشیاء اور خالی جگہوں کی متنوع خصوصیات سے متاثر حالیہ 3D ڈیٹیکٹرز کی مختلف صلاحیتوں کو تلاش کرنے کے لیے ایک گہرائی سے مطالعہ کیا۔ Panopticus متحرک ماحول میں مختلف مقامی پیچیدگیوں کو اپناتے ہوئے، ہمہ جہتی ادراک اور کنارے کے وسائل کے استعمال پر عمدہ کنٹرول فراہم کرتا ہے۔

• ہم نے Panopticus کو مکمل طور پر ایک اینڈ ٹو اینڈ ایج کمپیوٹنگ سسٹم کے طور پر لاگو کیا ہے جس میں پبلک سیلف ڈرائیونگ دونوں کا استعمال کیا گیا ہے۔

ڈیٹاسیٹ اور ہمارا موبائل 360° کیمرہ ٹیسٹ بیڈ، حقیقی دنیا کے حالات کی ایک حد میں ایج ڈیوائسز کے وسائل کی رکاوٹوں کے لیے اپنی موافقت کو ظاہر کرتا ہے۔

یہ کاغذ ہے۔ arxiv پر دستیاب ہے۔ CC بائی 4.0 ڈیڈ (انتساب 4.0 انٹرنیشنل) لائسنس کے تحت۔