автори:
2 ФОН: ВСЕПОСОЧНО ОТКРИВАНЕ НА 3D ОБЕКТИ
3.1 Настройка на експеримента
3.2 Наблюдения
3.3 Обобщение и предизвикателства
5 МНОГОПОСОЧНО 3D ОТКРИВАНЕ НА ОБЕКТИ
5.1 Дизайн на модела
6 ПРОСТРАНСТВЕНО-АДАПТИВНО ИЗПЪЛНЕНИЕ
6.1 Прогноза за ефективността
5.2 Адаптиране на модела
6.2 График на изпълнение
8.1 Тестова среда и набор от данни
8.2 Настройка на експеримента
8.3 Изпълнение
8.4 Здравина
8.5 Анализ на компонентите
8.6 Режийни разходи
Откриването на 3D обекти с многопосочни изгледи позволява критични за безопасността приложения като навигация с мобилни роботи. Такива приложения все повече работят на периферни устройства с ограничени ресурси, улеснявайки надеждна обработка без проблеми с поверителността или мрежови забавяния. За да се даде възможност за рентабилно внедряване, камерите са широко възприети като евтина алтернатива на сензорите LiDAR. Въпреки това, интензивното изчислително натоварване за постигане на висока производителност на базирани на камера решения остава предизвикателство поради изчислителните ограничения на крайните устройства. В този документ представяме Panopticus, внимателно проектирана система за многопосочно и базирано на камера 3D откриване на крайни устройства. Panopticus използва адаптивна схема за многоразклонено откриване, която отчита пространствената сложност. За да оптимизира точността в границите на латентността, Panopticus динамично настройва архитектурата и операциите на модела въз основа на наличните крайни ресурси и пространствени характеристики. Внедрихме Panopticus на три крайни устройства и проведохме експерименти в реални среди въз основа на публичния набор от данни за самостоятелно шофиране и нашия набор от данни за мобилна 360° камера. Резултатите от експеримента показват, че Panopticus подобрява точността средно с 62%, като се има предвид строгата цел за латентност от 33 ms. Също така, Panopticus постига средно 2,1 × намаление на латентността в сравнение с базовите линии.
Заедно с напредъка в компютърното зрение и дълбоките невронни мрежи (DNN), откриването на 3D обекти се превърна в основен компонент на множество приложения. Например, автономните превозни средства разчитат на прецизно възприятие в реално време на обекти в околната среда, за да установят безопасни навигационни маршрути [55]. Тъй като обектите могат да се приближават от всяка посока, както е показано на Фигура 1, от решаващо значение е да се осигури възприятие чрез цялостно 360° зрително поле (FOV). Такова всепосочно възприятие изисква обработката на значителни количества сензорни данни и изисква компютърни устройства от висок клас с AI ускорители за обработка в реално време [47]. Напоследък търсенето на мобилни приложения, използващи всепосочно 3D откриване на обекти, стана широко разпространено. Роботи или дронове, предоставящи лични услуги като наблюдение, могат да се възползват от такава технология [16]. В допълнение, откриването на околните препятствия и предоставянето на звукови предупреждения за потенциални опасности може да помогне на хората със зрителни увреждания [39, 56]. Тези персонализирани приложения трябва да се обработват на крайно устройство, за да се сведат до минимум проблемите с поверителността на потребителите или мрежовите разходи. Въпреки това, дори най-новата серия NVIDIA Jetson Orin [8], предлагаща усъвършенствана крайна изчислителна мощност, има 6,7 × до 13,5 × по-малко Tensor ядра за AI ускорение в сравнение с мощния A100 [9], използван за облачни изчисления, който има същата основна GPU архитектура. Освен това крайните AI приложения трябва да вземат предвид практически фактори като рентабилни внедрявания. В резултат на това бяха положени много усилия за поддържане на такива приложения с евтини камери [1, 38, 42, 58]. По-конкретно, множество камери или мобилна 360° камера се използват за улесняване на всепосочно възприемане
Edge AI услугите имат широк спектър от изисквания за точност и латентност. Въпреки скорошния напредък, предишните разработки имат ограничения в поддържането както на ефективността, така и на точността на крайни устройства с ограничени ресурси. DeepMix [18] разтовари сложни задачи за откриване на обекти, базирани на DNN, към облачен сървър, за да намали изчислителната тежест върху крайното устройство. Разтоварването на задачите за всепосочно възприемане обаче може да причини значително забавяне на комуникацията в крайния облак поради масивно предаване на данни. PointSplit [37] поддържа паралелна работа на edge GPU и NPU, но схемата е оптимизирана за конкретен тръбопровод за 3D откриване, използващ RGB-D сензор с ограничен FOV. Междувременно различни методи [1, 31, 34, 38] подобриха точността на базираните на камера решения, които създават присъщи трудности поради липсата на 3D информация за дълбочината. Поредица от работи [29, 30, 52] се фокусира върху разработването на DNN за подобряване на предсказването на дълбочината от RGB изображения. Също така, приемането на широкомащабни DNN, като гръбнаци за извличане на характеристики, използващи изображения с висока разделителна способност, е от съществено значение за подобряване на точността [51]. Въпреки това, обработката на множество DNN задачи с интензивни изчисления с многопосочни входове поставя значителни изчислителни изисквания към крайните устройства с ограничени ресурси.
В този документ ние предлагаме Panopticus, система, която увеличава максимално точността на всепосочно откриване на 3D обекти, като същевременно отговаря на изискванията за латентност на крайните устройства. Предварително забелязахме, че базираните на камера 3D детектори имат различни възможности за откриване в зависимост от пространствените характеристики, които се определят от различни фактори като броя или движението на обекти. Основната идея на Panopticus е да обработва оптимално всеки изглед на камера въз основа на разбирането на краткосрочната динамика в пространственото разпределение. Например изглед на камера, съдържащ няколко статични и близки обекта, може да бъде обработен с олекотена конфигурация за извод, за да се намали латентността с минимална загуба на точност. След това запазеният марж на латентност може да се използва за присвояване на високоефективна конфигурация за извод към сложен изглед, където обектите се движат бързо или са на отдалечено място, както е показано на фигура 1
Съществуват няколко предизвикателства в дизайна на Panopticus. Първо, предишните 3D модели за откриване не успяват да осигурят ефективна и динамична схема за извод, способна да диференцира конфигурацията за извод за всеки изглед на камера в един и същ видео кадър, като капацитет на гръбнака или използване на подобрена оценка на дълбочината. Освен това архитектурата на модела трябва да може да се регулира, за да поеме различните ограничения, като например изисквания за латентност, на дадено устройство. Второ, за да се увеличи максимално точността в рамките на изискванията за латентност, трябва да се реши оптималната конфигурация за извод за всеки изглед на камерата. Това изисква анализ по време на изпълнение както на промените в пространственото разпределение, така и на очакваната производителност на конфигурациите за извод.
За да позволим архитектурни и оперативни корекции на модела, ние въвеждаме всепосочен 3D модел за откриване на обекти с множество клонове за извод. Моделът обработва всеки изглед, като използва един от клоновете с различни възможности за откриване, което позволява прецизно използване на крайни изчислителни ресурси. Архитектурата на модела е проектирана да бъде модулна, позволявайки гъвкави внедрявания чрез отделяне на клон, който нарушава дадените ограничения. За второто предизвикателство за максимизиране на точността в границите на латентността, ние въвеждаме пространствено-адаптивна схема за изпълнение. По време на изпълнение схемата прогнозира производителността на всеки клон въз основа на очакваното пространствено разпределение на околните обекти. След това за извод се избират оптимални комбинации от разклонения и изгледи на камерата, които максимизират общата прогнозна точност, като същевременно отговарят на целта за латентност. Внедрихме Panopticus на три крайни устройства с различни изчислителни възможности. Системата беше оценена в различни среди от реалния свят, като градски пътища и улици, с помощта на публичен набор от данни за автономно шофиране и нашия персонализиран тестов стенд за мобилна 360° камера. Обширни експерименти показаха, че Panopticus превъзхожда базовите си линии при различни сценарии както по отношение на точността на откриване, така и на ефективността.
Основните приноси на нашата работа са следните: •
Доколкото ни е известно, Panopticus е първата многопосочна и базирана на камера 3D система за откриване на обекти, която постига както точност, така и оптимизиране на латентността на крайни устройства с ограничени ресурси.
• Проведохме задълбочено проучване, за да изследваме различните възможности на последните 3D детектори, повлияни от различни характеристики на обекти и пространства. Panopticus осигурява прецизен контрол върху всепосочното възприятие и крайното използване на ресурсите, като се адаптира към различни пространствени сложности в динамични среди.
• Напълно внедрихме Panopticus като крайна изчислителна система от край до край, използвайки както публична самоуправляваща се
набор от данни и нашата тестова платформа за мобилна 360° камера, демонстрирайки нейната адаптивност към ограниченията на ресурсите на крайните устройства в редица условия в реалния свят
Тази хартия е