paint-brush
Este modelo de IA dá aos dispositivos de ponta olhos na parte de trás de suas cabeçaspor@omnidirectional
131 leituras Novo histórico

Este modelo de IA dá aos dispositivos de ponta olhos na parte de trás de suas cabeças

Muito longo; Para ler

Panopticus é um sistema de IA para detecção de objetos 3D omnidirecional em dispositivos de ponta. Ele otimiza a precisão e a latência usando execução espacial adaptativa e inferência multi-ramificação.
featured image - Este modelo de IA dá aos dispositivos de ponta olhos na parte de trás de suas cabeças
Omnidirectional Technology HackerNoon profile picture
0-item

Tabela de links

RESUMO

1 INTRODUÇÃO

2 ANTECEDENTES: DETECÇÃO OMNIDIRECIONAL DE OBJETOS 3D

3 EXPERIMENTO PRELIMINAR

3.1 Configuração do experimento

3.2 Observações

3.3 Resumo e Desafios

4 VISÃO GERAL DO PANÓPTICO

5 DETECÇÃO DE OBJETOS 3D OMNIDIRECIONAL MULTICANAL

5.1 Projeto do modelo

6 EXECUÇÃO ESPACIAL-ADAPTÁVEL

6.1 Previsão de desempenho

5.2 Adaptação do modelo

6.2 Agendamento de execução

7 IMPLEMENTAÇÃO

8 AVALIAÇÃO

8.1 Banco de testes e conjunto de dados

8.2 Configuração do experimento

8.3 Desempenho

8.4 Robustez

8.5 Análise de Componentes

8.6 Despesas gerais

9 TRABALHOS RELACIONADOS

10 DISCUSSÃO E TRABALHO FUTURO

11 CONCLUSÃO E REFERÊNCIAS


RESUMO

A detecção de objetos 3D com visualizações omnidirecionais permite aplicações críticas de segurança, como navegação de robôs móveis. Essas aplicações operam cada vez mais em dispositivos de ponta com recursos limitados, facilitando o processamento confiável sem preocupações com privacidade ou atrasos na rede. Para permitir uma implantação econômica, as câmeras foram amplamente adotadas como uma alternativa de baixo custo aos sensores LiDAR. No entanto, a carga de trabalho intensiva em computação para atingir alto desempenho de soluções baseadas em câmera continua desafiadora devido às limitações computacionais dos dispositivos de ponta. Neste artigo, apresentamos o Panopticus, um sistema cuidadosamente projetado para detecção 3D omnidirecional e baseada em câmera em dispositivos de ponta. O Panopticus emprega um esquema de detecção multi-ramificação adaptável que considera as complexidades espaciais. Para otimizar a precisão dentro dos limites de latência, o Panopticus ajusta dinamicamente a arquitetura e as operações do modelo com base nos recursos de ponta disponíveis e nas características espaciais. Implementamos o Panopticus em três dispositivos de ponta e conduzimos experimentos em ambientes do mundo real com base no conjunto de dados de direção autônoma pública e em nosso conjunto de dados de câmera móvel 360°. Os resultados do experimento mostraram que o Panopticus melhora a precisão em 62% em média, dado o objetivo estrito de latência de 33 ms. Além disso, o Panopticus atinge uma redução de latência de 2,1 × em média, em comparação com as linhas de base.


1 INTRODUÇÃO

Junto com os avanços na visão computacional e redes neurais profundas (DNNs), a detecção de objetos 3D se tornou um componente central de inúmeras aplicações. Por exemplo, veículos autônomos dependem da percepção precisa e em tempo real de objetos em um ambiente para estabelecer rotas de navegação seguras [55]. Como os objetos podem se aproximar de qualquer direção, conforme mostrado na Figura 1, é crucial garantir a percepção por meio de um campo de visão (FOV) abrangente de 360°. Essa percepção omnidirecional requer o processamento de quantidades substanciais de dados do sensor e demanda dispositivos de computação de ponta com aceleradores de IA para processamento em tempo real [47]. Recentemente, a demanda por aplicativos móveis usando detecção de objetos 3D omnidirecional se tornou generalizada. Robôs ou drones que fornecem serviços pessoais, como vigilância, podem se beneficiar dessa tecnologia [16]. Além disso, detectar obstáculos ao redor e fornecer avisos sonoros de perigos potenciais pode ajudar pessoas com deficiências visuais [39, 56]. Esses aplicativos personalizados devem ser processados em um dispositivo de ponta para minimizar problemas de privacidade do usuário ou sobrecargas de rede. No entanto, mesmo a mais recente série NVIDIA Jetson Orin [8], que oferece poder de computação de ponta avançado, tem 6,7× a 13,5× menos núcleos Tensor para aceleração de IA em comparação com o poderoso A100 [9] usado para computação em nuvem, que tem a mesma arquitetura de GPU subjacente. Além disso, os aplicativos de IA de ponta devem considerar fatores práticos, como implantações econômicas. Como resultado, muito esforço foi feito para dar suporte a esses aplicativos com câmeras de baixo custo [1, 38, 42, 58]. Especificamente, várias câmeras ou uma câmera móvel de 360° são utilizadas para facilitar a percepção omnidirecional

Os serviços de IA de ponta têm um amplo espectro de requisitos de precisão e latência. Apesar dos avanços recentes, trabalhos anteriores têm limitações no suporte à eficiência e à precisão em dispositivos de ponta com recursos limitados. O DeepMix [18] descarregou tarefas complexas de detecção de objetos baseadas em DNN para um servidor de nuvem para reduzir a carga computacional em um dispositivo de ponta. No entanto, descarregar tarefas de percepção omnidirecional pode causar latência significativa na comunicação de ponta-nuvem devido à transmissão massiva de dados. O PointSplit [37] suporta operação paralelizada em GPU e NPU de ponta, mas o esquema é otimizado para um pipeline de detecção 3D específico utilizando um sensor RGB-D com FOV limitado. Enquanto isso, vários métodos [1, 31, 34, 38] aumentaram a precisão de soluções baseadas em câmera, que apresentam dificuldades inerentes devido à ausência de informações de profundidade 3D. Uma linha de trabalhos [29, 30, 52] se concentrou no desenvolvimento de DNNs para aprimorar a previsão de profundidade de imagens RGB. Além disso, a adoção de DNNs em larga escala, como backbones de extração de recursos usando imagens de alta resolução, é essencial para a melhoria da precisão [51]. No entanto, o processamento de múltiplas tarefas de DNN intensivas em computação com entradas omnidirecionais coloca demandas computacionais substanciais em dispositivos de ponta com recursos limitados.


Neste artigo, propomos o Panopticus, um sistema que maximiza a precisão da detecção de objetos 3D omnidirecionais, ao mesmo tempo em que atende aos requisitos de latência em dispositivos de ponta. Observamos preliminarmente que os detectores 3D baseados em câmera têm capacidades de detecção variadas, dependendo das características espaciais, que são determinadas por vários fatores, como o número ou o movimento dos objetos. A ideia principal do Panopticus é processar cada visualização da câmera de forma otimizada com base na compreensão da dinâmica de curto prazo na distribuição espacial. Por exemplo, uma visualização da câmera contendo alguns objetos estáticos e próximos pode ser processada com uma configuração de inferência leve para reduzir a latência com uma perda mínima de precisão. A margem de latência salva pode então ser utilizada para atribuir uma configuração de inferência de alto desempenho a uma visualização complexa onde os objetos estão se movendo rapidamente ou em um local distante, conforme mostrado na Figura 1

Existem vários desafios no design do Panopticus. Primeiro, os modelos de detecção 3D anteriores falham em fornecer um esquema de inferência eficiente e dinâmico capaz de diferenciar a configuração de inferência para cada visualização de câmera no mesmo quadro de vídeo, como capacidade de backbone ou o uso de estimativa de profundidade aprimorada. Além disso, a arquitetura do modelo deve ser ajustável para acomodar as várias restrições, como requisitos de latência, em um determinado dispositivo. Segundo, para maximizar a precisão dentro dos requisitos de latência, a configuração de inferência ideal deve ser decidida para cada visualização de câmera. Isso requer uma análise de tempo de execução de ambas as mudanças na distribuição espacial e o desempenho esperado das configurações de inferência.



Para permitir ajustes arquitetônicos e operacionais do modelo, introduzimos um modelo de detecção de objetos 3D omnidirecional com múltiplas ramificações de inferência. O modelo processa cada visualização usando uma das ramificações com capacidades de detecção variadas, permitindo a utilização refinada de recursos de computação de ponta. A arquitetura do modelo é projetada para ser modular, permitindo implantações flexíveis ao destacar uma ramificação que viola restrições dadas. Para o segundo desafio de maximizar a precisão dentro dos limites de latência, introduzimos um esquema de execução espacial adaptável. No tempo de execução, o esquema prevê o desempenho de cada ramificação com base na distribuição espacial esperada dos objetos ao redor. Combinações ótimas de ramificações e visualizações de câmera, que maximizam a precisão geral estimada enquanto atendem à meta de latência, são então selecionadas para inferência. Implementamos o Panopticus em três dispositivos de ponta com diferentes capacidades computacionais. O sistema foi avaliado em vários ambientes do mundo real, como estradas e ruas urbanas, usando um conjunto de dados de direção autônoma pública e nosso banco de testes de câmera móvel 360° personalizado. Experimentos extensivos mostraram que o Panopticus superou suas linhas de base em diversos cenários em termos de precisão e eficiência de detecção.

As principais contribuições do nosso trabalho são as seguintes: •

Até onde sabemos, o Panopticus é o primeiro sistema de detecção de objetos 3D omnidirecional e baseado em câmera que atinge precisão e otimização de latência em dispositivos de ponta com recursos limitados.

• Conduzimos um estudo aprofundado para explorar as capacidades variáveis de detectores 3D recentes influenciados por diversas características de objetos e espaços. O Panopticus fornece controle refinado sobre percepção omnidirecional e utilização de recursos de borda, adaptando-se a complexidades espaciais variáveis em ambientes dinâmicos.

• Implementamos totalmente o Panopticus como um sistema de computação de ponta a ponta usando um veículo público autônomo

conjunto de dados e nosso banco de testes de câmera móvel 360°, demonstrando sua adaptabilidade às restrições de recursos de dispositivos de ponta em uma variedade de condições do mundo real

Este artigo é disponível no arxiv sob licença CC by 4.0 Deed (Atribuição 4.0 Internacional).