Pengarang:
2 LATAR BELAKANG: PENGESANAN OBJEK 3D OMNIDIRECTIONAL
3.1 Persediaan Eksperimen
3.2 Pemerhatian
3.3 Ringkasan dan Cabaran
5 PELBAGAI CAWANGAN PENGESANAN OBJEK 3D OMNIDIRECTIONAL
5.1 Reka Bentuk Model
6.1 Ramalan Prestasi
5.2 Penyesuaian Model
6.2 Penjadualan Pelaksanaan
8.1 Katil Ujian dan Set Data
8.2 Persediaan Eksperimen
8.3 Prestasi
8.4 Kekukuhan
8.5 Analisis Komponen
8.6 Overhed
10 PERBINCANGAN DAN KERJA MASA DEPAN
Pengesanan objek 3D dengan pandangan omnidirectional membolehkan aplikasi kritikal keselamatan seperti navigasi robot mudah alih. Aplikasi sedemikian semakin beroperasi pada peranti tepi yang dikekang sumber, memudahkan pemprosesan yang boleh dipercayai tanpa kebimbangan privasi atau kelewatan rangkaian. Untuk membolehkan penggunaan kos efektif, kamera telah digunakan secara meluas sebagai alternatif kos rendah kepada penderia LiDAR. Walau bagaimanapun, beban kerja intensif pengiraan untuk mencapai prestasi tinggi penyelesaian berasaskan kamera kekal mencabar disebabkan oleh had pengiraan peranti tepi. Dalam kertas kerja ini, kami membentangkan Panopticus, sistem yang direka dengan teliti untuk pengesanan 3D omnidirectional dan berasaskan kamera pada peranti tepi. Panopticus menggunakan skim pengesanan berbilang cawangan adaptif yang menyumbang kepada kerumitan spatial. Untuk mengoptimumkan ketepatan dalam had kependaman, Panopticus melaraskan seni bina dan operasi model secara dinamik berdasarkan sumber kelebihan yang tersedia dan ciri spatial. Kami melaksanakan Panopticus pada peranti tiga tepi dan menjalankan eksperimen merentas persekitaran dunia sebenar berdasarkan set data memandu sendiri awam dan set data kamera 360° mudah alih kami. Keputusan percubaan menunjukkan bahawa Panopticus meningkatkan ketepatan sebanyak 62% secara purata memandangkan objektif kependaman yang ketat iaitu 33ms. Selain itu, Panopticus mencapai pengurangan kependaman 2.1× secara purata berbanding garis dasar.
Seiring dengan kemajuan dalam penglihatan komputer dan rangkaian saraf dalam (DNN), pengesanan objek 3D telah menjadi komponen teras pelbagai aplikasi. Sebagai contoh, kenderaan autonomi bergantung pada persepsi tepat dan masa nyata objek dalam persekitaran untuk mewujudkan laluan navigasi yang selamat [55]. Memandangkan objek boleh mendekati dari mana-mana arah, seperti yang ditunjukkan dalam Rajah 1, adalah penting untuk memastikan persepsi melalui medan pandangan 360° yang komprehensif (FOV). Persepsi omnidirectional sedemikian memerlukan pemprosesan sejumlah besar data sensor dan menuntut peranti pengkomputeran mewah dengan pemecut AI untuk pemprosesan masa nyata [47]. Baru-baru ini, permintaan untuk aplikasi mudah alih menggunakan pengesanan objek 3D omnidirectional telah meluas. Robot atau dron yang menyediakan perkhidmatan peribadi seperti pengawasan boleh mendapat manfaat daripada teknologi tersebut [16]. Di samping itu, mengesan halangan di sekeliling dan memberikan amaran yang boleh didengar tentang potensi bahaya boleh membantu orang yang mengalami masalah penglihatan [39, 56]. Aplikasi diperibadikan ini mesti diproses pada peranti tepi untuk meminimumkan isu privasi pengguna atau overhed rangkaian. Walau bagaimanapun, walaupun siri NVIDIA Jetson Orin [8] terbaharu, menawarkan kuasa pengiraan kelebihan termaju, mempunyai teras Tensor 6.7× hingga 13.5× lebih sedikit untuk pecutan AI berbanding A100 [9] berkuasa yang digunakan untuk pengkomputeran awan, yang mempunyai seni bina GPU asas yang sama. Tambahan pula, aplikasi AI tepi mesti mempertimbangkan faktor praktikal seperti penggunaan kos efektif. Akibatnya, banyak usaha telah dibuat untuk menyokong aplikasi sedemikian dengan kamera kos rendah [1, 38, 42, 58]. Khususnya, berbilang kamera atau kamera 360° mudah alih digunakan untuk memudahkan persepsi omnidirectional
Perkhidmatan Edge AI mempunyai spektrum luas keperluan ketepatan dan kependaman. Walaupun kemajuan baru-baru ini, kerja-kerja terdahulu mempunyai had dalam menyokong kecekapan dan ketepatan pada peranti tepi yang dikekang sumber. DeepMix [18] memunggah tugas pengesanan objek berasaskan DNN kompleks ke pelayan awan untuk mengurangkan beban pengiraan pada peranti tepi. Walau bagaimanapun, memunggah tugas persepsi omnidirectional mungkin menyebabkan kependaman komunikasi awan tepi yang ketara disebabkan oleh penghantaran data yang besar. PointSplit [37] menyokong operasi selari pada GPU tepi dan NPU, tetapi skema ini dioptimumkan untuk saluran paip pengesanan 3D tertentu menggunakan sensor RGB-D dengan FOV terhad. Sementara itu, pelbagai kaedah [1, 31, 34, 38] telah meningkatkan ketepatan penyelesaian berasaskan kamera, yang menimbulkan kesukaran yang wujud kerana ketiadaan maklumat kedalaman 3D. Barisan kerja [29, 30, 52] telah menumpukan pada membangunkan DNN untuk meningkatkan ramalan kedalaman daripada imej RGB. Selain itu, penggunaan DNN berskala besar, seperti tulang belakang pengekstrakan ciri menggunakan imej resolusi tinggi, adalah penting untuk peningkatan ketepatan [51]. Walau bagaimanapun, memproses berbilang tugas DNN intensif pengiraan dengan input omnidirectional meletakkan permintaan pengiraan yang besar pada peranti tepi yang dikekang sumber.
Dalam makalah ini, kami mencadangkan Panopticus, sistem yang memaksimumkan ketepatan pengesanan objek 3D omnidirectional sambil memenuhi keperluan kependaman pada peranti tepi. Kami memerhatikan secara awal bahawa pengesan 3D berasaskan kamera mempunyai keupayaan pengesanan yang berbeza-beza bergantung pada ciri spatial, yang ditentukan oleh pelbagai faktor seperti bilangan atau pergerakan objek. Idea utama Panopticus adalah untuk memproses setiap paparan kamera secara optimum berdasarkan pemahaman dinamik jangka pendek dalam pengedaran spatial. Contohnya, paparan kamera yang mengandungi beberapa objek statik dan hampir boleh diproses dengan konfigurasi inferens yang ringan untuk mengurangkan kependaman dengan kehilangan ketepatan yang minimum. Margin kependaman yang disimpan kemudiannya boleh digunakan untuk menetapkan konfigurasi inferens berprestasi tinggi kepada paparan kompleks di mana objek bergerak pantas atau di lokasi yang jauh, seperti ditunjukkan dalam Rajah 1
Beberapa cabaran wujud dalam reka bentuk Panopticus. Pertama, model pengesanan 3D terdahulu gagal menyediakan skema inferens yang cekap dan dinamik yang mampu membezakan konfigurasi inferens untuk setiap paparan kamera dalam bingkai video yang sama, seperti kapasiti tulang belakang atau penggunaan anggaran kedalaman yang dipertingkatkan. Selain itu, seni bina model mesti boleh dilaraskan untuk menampung pelbagai kekangan, seperti keperluan kependaman, pada peranti tertentu. Kedua, untuk memaksimumkan ketepatan dalam keperluan kependaman, konfigurasi inferens optimum mesti diputuskan untuk setiap paparan kamera. Ini memerlukan analisis masa jalan bagi kedua-dua perubahan dalam taburan spatial dan prestasi jangkaan konfigurasi inferens.
Untuk mendayakan pelarasan seni bina dan operasi model, kami memperkenalkan model pengesanan objek 3D omnidirectional dengan berbilang cabang inferens. Model memproses setiap paparan menggunakan salah satu cabang dengan keupayaan pengesanan yang berbeza-beza, membolehkan penggunaan terperinci sumber pengkomputeran tepi. Seni bina model direka bentuk untuk menjadi modular, membolehkan penggunaan fleksibel dengan menanggalkan cawangan yang melanggar kekangan yang diberikan. Untuk cabaran kedua memaksimumkan ketepatan dalam had kependaman, kami memperkenalkan skim pelaksanaan penyesuaian spatial. Pada masa jalanan, skema meramalkan prestasi setiap cawangan berdasarkan pengedaran spatial yang dijangkakan bagi objek sekeliling. Gabungan optimum cawangan dan paparan kamera, yang memaksimumkan ketepatan anggaran keseluruhan sambil memenuhi matlamat kependaman, kemudian dipilih untuk inferens. Kami melaksanakan Panopticus pada peranti tiga tepi dengan keupayaan pengiraan yang berbeza. Sistem ini dinilai dalam pelbagai persekitaran dunia sebenar, seperti jalan raya dan jalan bandar, menggunakan set data pemanduan autonomi awam dan katil ujian kamera mudah alih 360° tersuai kami. Eksperimen yang meluas menunjukkan bahawa Panopticus mengatasi prestasi asasnya di bawah pelbagai senario dari segi ketepatan dan kecekapan pengesanan.
Sumbangan utama kerja kami adalah seperti berikut: •
Untuk pengetahuan terbaik kami, Panopticus ialah sistem pengesanan objek 3D omnidirectional dan berasaskan kamera pertama yang mencapai kedua-dua ketepatan dan pengoptimuman kependaman pada peranti tepi yang dikekang sumber.
• Kami menjalankan kajian mendalam untuk menerokai pelbagai keupayaan pengesan 3D terkini yang dipengaruhi oleh pelbagai ciri objek dan ruang. Panopticus menyediakan kawalan terperinci ke atas persepsi omnidirectional dan penggunaan sumber kelebihan, menyesuaikan diri dengan pelbagai kerumitan spatial dalam persekitaran dinamik.
• Kami melaksanakan Panopticus sepenuhnya sebagai sistem pengkomputeran tepi hujung ke hujung menggunakan kedua-dua pemanduan sendiri awam
set data dan ujian kamera 360° mudah alih kami, mempamerkan kebolehsuaiannya kepada kekangan sumber peranti tepi merentas pelbagai keadaan dunia sebenar
Kertas ini ialah