paint-brush
Denne AI-model giver Edge-enheder øjne på baghovedetved@omnidirectional
131 aflæsninger Ny historie

Denne AI-model giver Edge-enheder øjne på baghovedet

For langt; At læse

Panopticus er et AI-system til omnidirektionel 3D-objektdetektion på kant-enheder. Det optimerer nøjagtighed og latenstid ved hjælp af rumlig-adaptiv udførelse og multi-branch inferens.
featured image - Denne AI-model giver Edge-enheder øjne på baghovedet
Omnidirectional Technology HackerNoon profile picture
0-item

Tabel over links

ABSTRAKT

1 INTRODUKTION

2 BAGGRUND: OMNIRETSIONEL 3D-OBJEKTDETEKTION

3 FORELØBIGE EKSPERIMENT

3.1 Eksperimentopsætning

3.2 Observationer

3.3 Resumé og udfordringer

4 OVERSIGT OVER PANOPTICUS

5 MULTI-BRANCH OMNIDIRECTIONEL 3D-OBJEKTDETEKTION

5.1 Modeldesign

6 RUMLIGT ADAPTIV UDFØRELSE

6.1 Præstationsforudsigelse

5.2 Modeltilpasning

6.2 Udførelsesplanlægning

7 IMPLEMENTERING

8 EVALUERING

8.1 Testbed og datasæt

8.2 Eksperimentopsætning

8.3 Ydelse

8.4 Robusthed

8.5 Komponentanalyse

8.6 Overhead

9 RELATERET ARBEJDE

10 DISKUSSION OG FREMTIDIG ARBEJDE

11 KONKLUSION OG REFERENCER


ABSTRAKT

3D objektdetektion med omnidirektionelle visninger muliggør sikkerhedskritiske applikationer såsom mobil robotnavigation. Sådanne applikationer fungerer i stigende grad på ressourcebegrænsede edge-enheder, hvilket letter pålidelig behandling uden privatlivsproblemer eller netværksforsinkelser. For at muliggøre en omkostningseffektiv implementering er kameraer blevet bredt brugt som et billigt alternativ til LiDAR-sensorer. Den computerintensive arbejdsbyrde for at opnå høj ydeevne af kamerabaserede løsninger er dog stadig udfordrende på grund af de beregningsmæssige begrænsninger af edge-enheder. I denne artikel præsenterer vi Panopticus, et omhyggeligt designet system til rundstrålende og kamerabaseret 3D-detektion på kant-enheder. Panopticus anvender et adaptivt multi-branch detektionsskema, der tager højde for rumlige kompleksiteter. For at optimere nøjagtigheden inden for latensgrænser justerer Panopticus dynamisk modellens arkitektur og operationer baseret på tilgængelige kantressourcer og rumlige karakteristika. Vi implementerede Panopticus på tre edge-enheder og udførte eksperimenter på tværs af virkelige miljøer baseret på det offentlige selvkørende datasæt og vores mobile 360° kameradatasæt. Eksperimentresultater viste, at Panopticus forbedrer nøjagtigheden med 62 % i gennemsnit givet det strenge latenstidsmål på 33ms. Panopticus opnår også en 2,1× latensreduktion i gennemsnit sammenlignet med baselines.


1 INTRODUKTION

Sammen med fremskridtene inden for computersyn og dybe neurale netværk (DNN'er) er 3D-objektdetektion blevet en kernekomponent i adskillige applikationer. For eksempel er autonome køretøjer afhængige af præcis og realtidsopfattelse af objekter i et miljø for at etablere sikre navigationsruter [55]. Da objekter kan nærme sig fra enhver retning, som vist i figur 1, er det afgørende at sikre perception gennem et omfattende 360° synsfelt (FOV). En sådan omnidirektionel perception kræver behandling af betydelige mængder sensordata og kræver avancerede computerenheder med AI-acceleratorer til realtidsbehandling [47]. For nylig er efterspørgslen efter mobile applikationer, der anvender omnidirektionel 3D-objektdetektion, blevet udbredt. Robotter eller droner, der leverer personlige tjenester såsom overvågning, kan drage fordel af en sådan teknologi [16]. Derudover kan opdagelse af omgivende forhindringer og give hørbare advarsler om potentielle farer hjælpe mennesker med synshandicap [39, 56]. Disse personlige applikationer skal behandles på en edge-enhed for at minimere brugernes privatlivsproblemer eller netværksomkostninger. Men selv den seneste NVIDIA Jetson Orin-serie [8], der tilbyder avanceret kantberegningskraft, har 6,7× til 13,5× færre Tensor-kerner til AI-acceleration sammenlignet med den kraftfulde A100 [9] der bruges til cloud computing, som har den samme underliggende GPU-arkitektur. Ydermere skal edge AI-applikationer tage hensyn til praktiske faktorer såsom omkostningseffektive implementeringer. Som følge heraf er der gjort en stor indsats for at understøtte sådanne applikationer med billige kameraer [1, 38, 42, 58]. Specifikt bruges flere kameraer eller et mobilt 360°-kamera til at lette omnidirektional perception

Edge AI-tjenester har et bredt spektrum af krav til nøjagtighed og latens. På trods af de seneste fremskridt har tidligere værker begrænsninger i at understøtte både effektivitet og nøjagtighed på ressourcebegrænsede kantenheder. DeepMix [18] overførte komplekse DNN-baserede objektdetekteringsopgaver til en cloud-server for at reducere beregningsbyrden på en edge-enhed. Aflastning af omnidirektionelle perceptionsopgaver kan dog forårsage betydelig edge-cloud-kommunikationsforsinkelse på grund af massiv datatransmission. PointSplit [37] understøtter paralleliseret drift på kant-GPU og NPU, men skemaet er optimeret til en specifik 3D-detektionspipeline ved hjælp af en RGB-D-sensor med begrænset FOV. I mellemtiden har forskellige metoder [1, 31, 34, 38] forbedret nøjagtigheden af kamerabaserede løsninger, som udgør iboende vanskeligheder på grund af fraværet af 3D-dybdeinformation. En række værker [29, 30, 52] har fokuseret på at udvikle DNN'er for at forbedre dybdeforudsigelse fra RGB-billeder. Indførelsen af storskala DNN'er, såsom funktionsekstraktionsrygrad ved hjælp af billeder i høj opløsning, er også afgørende for forbedring af nøjagtigheden [51]. Behandling af flere computerintensive DNN-opgaver med omnidirektionelle input stiller imidlertid betydelige beregningsmæssige krav til ressourcebegrænsede edge-enheder.


I dette papir foreslår vi Panopticus, et system, der maksimerer nøjagtigheden af omnidirektionel 3D-objektdetektion og samtidig opfylder latenskravene på edge-enheder. Vi observerede foreløbigt, at kamerabaserede 3D-detektorer har varierende detektionsevner afhængigt af rumlige karakteristika, som bestemmes af forskellige faktorer såsom antallet eller bevægelsen af objekter. Nøgleideen med Panopticus er at behandle hvert kamerabillede optimalt baseret på forståelsen af kortsigtet dynamik i rumlig fordeling. For eksempel kan en kameravisning, der indeholder nogle få statiske og nærliggende objekter, behandles med en let slutningskonfiguration for at reducere latensen med et minimalt nøjagtighedstab. Den gemte latensmargen kan derefter bruges til at tildele en højtydende inferenskonfiguration til en kompleks visning, hvor objekter bevæger sig hurtigt eller på et fjernt sted, som vist i figur 1

Der er flere udfordringer i designet af Panopticus. For det første formår tidligere 3D-detektionsmodeller ikke at tilvejebringe et effektivt og dynamisk inferensskema, der er i stand til at differentiere inferenskonfigurationen for hver kameravisning i den samme videoramme, såsom rygradskapacitet eller brugen af forbedret dybdeestimering. Derudover skal modellens arkitektur kunne justeres for at imødekomme de forskellige begrænsninger, såsom latenskrav, på en given enhed. For det andet, for at maksimere nøjagtigheden inden for latenskravene, skal den optimale slutningskonfiguration besluttes for hver kameravisning. Dette kræver en runtime-analyse af både ændringer i rumlig fordeling og den forventede ydeevne af inferenskonfigurationer.



For at muliggøre arkitektoniske og operationelle justeringer af modellen introducerer vi en omnidirektionel 3D-objektdetektionsmodel med flere inferensgrene. Modellen behandler hver visning ved hjælp af en af grenene med forskellige detektionsmuligheder, hvilket muliggør finkornet udnyttelse af edge computing-ressourcer. Modellens arkitektur er designet til at være modulær, hvilket muliggør fleksible implementeringer ved at frakoble en gren, der overtræder givne begrænsninger. Til den anden udfordring med at maksimere nøjagtigheden inden for latensgrænser introducerer vi et rumligt tilpasset eksekveringsskema. Ved kørsel forudsiger skemaet ydeevnen af hver gren baseret på den forventede rumlige fordeling af de omgivende objekter. Optimale kombinationer af grene og kameravisninger, som maksimerer den samlede estimerede nøjagtighed og samtidig opfylder latenstidsmålet, vælges derefter til slutning. Vi implementerede Panopticus på tre edge-enheder med forskellige beregningsmuligheder. Systemet blev evalueret i forskellige miljøer i den virkelige verden, såsom byveje og gader, ved hjælp af et offentligt datasæt for autonom kørsel og vores brugerdefinerede mobile 360° kamera testbed. Omfattende eksperimenter viste, at Panopticus udkonkurrerede sine basislinjer under forskellige scenarier med hensyn til både detektionsnøjagtighed og effektivitet.

De vigtigste bidrag fra vores arbejde er som følger: •

Så vidt vi ved, er Panopticus det første omnidirektionelle og kamerabaserede 3D-objektdetektionssystem, der opnår både nøjagtighed og latensoptimering på ressourcebegrænsede kantenheder.

• Vi gennemførte en dybdegående undersøgelse for at udforske de forskellige muligheder for nyere 3D-detektorer påvirket af forskellige karakteristika af objekter og rum. Panopticus giver finmasket kontrol over omnidirektionel perception og kantressourceudnyttelse, tilpasset til varierende rumlige kompleksiteter i dynamiske miljøer.

• Vi implementerede Panopticus fuldt ud som et end-to-end edge computing-system, der både bruger en offentlig selvkørende

datasæt og vores mobile 360° kamera testbed, der viser dets tilpasningsevne til ressourcebegrænsningerne for edge-enheder på tværs af en række forhold i den virkelige verden

Dette papir er tilgængelig på arxiv under CC by 4.0 Deed (Attribution 4.0 International) licens.