paint-brush
Este modelo de IA ofrece a los dispositivos periféricos ojos en la nucapor@omnidirectional
131 lecturas Nueva Historia

Este modelo de IA ofrece a los dispositivos periféricos ojos en la nuca

Demasiado Largo; Para Leer

Panopticus es un sistema de inteligencia artificial para la detección omnidireccional de objetos 3D en dispositivos periféricos. Optimiza la precisión y la latencia mediante la ejecución adaptativa espacial y la inferencia de múltiples ramas.
featured image - Este modelo de IA ofrece a los dispositivos periféricos ojos en la nuca
Omnidirectional Technology HackerNoon profile picture
0-item

Tabla de enlaces

ABSTRACTO

1 INTRODUCCIÓN

2 ANTECEDENTES: DETECCIÓN OMNIDIRECCIONAL DE OBJETOS 3D

3 EXPERIMENTO PRELIMINAR

3.1 Configuración del experimento

3.2 Observaciones

3.3 Resumen y desafíos

4 VISIÓN GENERAL DEL PANÓPTICO

5 DETECCIÓN DE OBJETOS 3D OMNIDIRECCIONALES DE MULTIRAMACUOSAS

5.1 Diseño del modelo

6 EJECUCIÓN ESPACIAL-ADAPTATIVA

6.1 Predicción del rendimiento

5.2 Adaptación del modelo

6.2 Programación de la ejecución

7 IMPLEMENTACIÓN

8 EVALUACIÓN

8.1 Banco de pruebas y conjunto de datos

8.2 Configuración del experimento

8.3 Rendimiento

8.4 Robustez

8.5 Análisis de componentes

8.6 Gastos generales

9 TRABAJOS RELACIONADOS

10 DISCUSIÓN Y TRABAJO FUTURO

11 CONCLUSIÓN Y REFERENCIAS


ABSTRACTO

La detección de objetos en 3D con vistas omnidireccionales permite aplicaciones críticas para la seguridad, como la navegación de robots móviles. Estas aplicaciones operan cada vez más en dispositivos periféricos con recursos limitados, lo que facilita un procesamiento confiable sin preocupaciones por la privacidad o retrasos en la red. Para permitir una implementación rentable, las cámaras se han adoptado ampliamente como una alternativa de bajo costo a los sensores LiDAR. Sin embargo, la carga de trabajo intensiva en computación para lograr un alto rendimiento de las soluciones basadas en cámaras sigue siendo un desafío debido a las limitaciones computacionales de los dispositivos periféricos. En este artículo, presentamos Panopticus, un sistema cuidadosamente diseñado para la detección 3D omnidireccional y basada en cámaras en dispositivos periféricos. Panopticus emplea un esquema de detección adaptativo de múltiples ramas que tiene en cuenta las complejidades espaciales. Para optimizar la precisión dentro de los límites de latencia, Panopticus ajusta dinámicamente la arquitectura y las operaciones del modelo en función de los recursos periféricos disponibles y las características espaciales. Implementamos Panopticus en tres dispositivos periféricos y realizamos experimentos en entornos del mundo real basados en el conjunto de datos de conducción autónoma pública y nuestro conjunto de datos de cámara móvil de 360°. Los resultados del experimento demostraron que Panopticus mejora la precisión en un 62 % en promedio, dado el objetivo estricto de latencia de 33 ms. Además, Panopticus logra una reducción de latencia de 2,1 veces en promedio en comparación con los valores de referencia.


1 INTRODUCCIÓN

Junto con los avances en visión artificial y redes neuronales profundas (DNN), la detección de objetos en 3D se ha convertido en un componente central de numerosas aplicaciones. Por ejemplo, los vehículos autónomos dependen de la percepción precisa y en tiempo real de los objetos en un entorno para establecer rutas de navegación seguras [55]. Dado que los objetos pueden acercarse desde cualquier dirección, como se muestra en la Figura 1, es crucial garantizar la percepción a través de un campo de visión (FOV) integral de 360°. Esta percepción omnidireccional requiere el procesamiento de cantidades sustanciales de datos de sensores y demanda dispositivos informáticos de alta gama con aceleradores de IA para el procesamiento en tiempo real [47]. Recientemente, la demanda de aplicaciones móviles que utilicen la detección omnidireccional de objetos en 3D se ha generalizado. Los robots o drones que brindan servicios personales como vigilancia pueden beneficiarse de esta tecnología [16]. Además, detectar obstáculos circundantes y proporcionar advertencias audibles de peligros potenciales puede ayudar a las personas con discapacidades visuales [39, 56]. Estas aplicaciones personalizadas deben procesarse en un dispositivo de borde para minimizar los problemas de privacidad del usuario o las sobrecargas de la red. Sin embargo, incluso la última serie NVIDIA Jetson Orin [8], que ofrece una potencia avanzada de computación en el borde, tiene entre 6,7 y 13,5 veces menos núcleos Tensor para la aceleración de la IA en comparación con el potente A100 [9] utilizado para la computación en la nube, que tiene la misma arquitectura de GPU subyacente. Además, las aplicaciones de IA en el borde deben considerar factores prácticos como implementaciones rentables. Como resultado, se ha hecho un gran esfuerzo para respaldar dichas aplicaciones con cámaras de bajo costo [1, 38, 42, 58]. Específicamente, se utilizan múltiples cámaras o una cámara móvil de 360° para facilitar la percepción omnidireccional.

Los servicios de inteligencia artificial de borde tienen un amplio espectro de requisitos de precisión y latencia. A pesar de los avances recientes, los trabajos anteriores tienen limitaciones para respaldar tanto la eficiencia como la precisión en dispositivos de borde con recursos limitados. DeepMix [18] descargó tareas complejas de detección de objetos basadas en DNN a un servidor en la nube para reducir la carga computacional en un dispositivo de borde. Sin embargo, la descarga de tareas de percepción omnidireccional puede causar una latencia significativa de comunicación entre el borde y la nube debido a la transmisión masiva de datos. PointSplit [37] admite la operación en paralelo en la GPU y NPU de borde, pero el esquema está optimizado para una tubería de detección 3D específica que utiliza un sensor RGB-D con campo de visión limitado. Mientras tanto, varios métodos [1, 31, 34, 38] han mejorado la precisión de las soluciones basadas en cámaras, que plantean dificultades inherentes debido a la ausencia de información de profundidad 3D. Una línea de trabajos [29, 30, 52] se ha centrado en el desarrollo de DNN para mejorar la predicción de profundidad a partir de imágenes RGB. Además, la adopción de redes neuronales profundas a gran escala, como las redes troncales de extracción de características que utilizan imágenes de alta resolución, es esencial para mejorar la precisión [51]. Sin embargo, el procesamiento de múltiples tareas de redes neuronales profundas con entradas omnidireccionales impone demandas computacionales sustanciales en dispositivos de borde con recursos limitados.


En este artículo, proponemos Panopticus, un sistema que maximiza la precisión de la detección omnidireccional de objetos 3D y, al mismo tiempo, cumple con los requisitos de latencia en dispositivos de borde. Observamos preliminarmente que los detectores 3D basados en cámaras tienen capacidades de detección variables según las características espaciales, que están determinadas por varios factores, como la cantidad o el movimiento de los objetos. La idea clave de Panopticus es procesar cada vista de cámara de manera óptima en función de la comprensión de la dinámica a corto plazo en la distribución espacial. Por ejemplo, una vista de cámara que contiene algunos objetos estáticos y próximos se puede procesar con una configuración de inferencia liviana para reducir la latencia con una pérdida mínima de precisión. El margen de latencia guardado se puede utilizar para asignar una configuración de inferencia de alto rendimiento a una vista compleja donde los objetos se mueven rápidamente o en una ubicación distante, como se muestra en la Figura 1.

Existen varios desafíos en el diseño de Panopticus. En primer lugar, los modelos de detección 3D anteriores no logran proporcionar un esquema de inferencia eficiente y dinámico capaz de diferenciar la configuración de inferencia para cada vista de cámara en el mismo cuadro de video, como la capacidad de la red troncal o el uso de una estimación de profundidad mejorada. Además, la arquitectura del modelo debe ser ajustable para adaptarse a las diversas restricciones, como los requisitos de latencia, en un dispositivo determinado. En segundo lugar, para maximizar la precisión dentro de los requisitos de latencia, se debe decidir la configuración de inferencia óptima para cada vista de cámara. Esto requiere un análisis en tiempo de ejecución tanto de los cambios en la distribución espacial como del rendimiento esperado de las configuraciones de inferencia.



Para permitir ajustes arquitectónicos y operativos del modelo, presentamos un modelo de detección de objetos 3D omnidireccional con múltiples ramas de inferencia. El modelo procesa cada vista utilizando una de las ramas con diferentes capacidades de detección, lo que permite una utilización detallada de los recursos informáticos de borde. La arquitectura del modelo está diseñada para ser modular, lo que permite implementaciones flexibles al separar una rama que viola las restricciones dadas. Para el segundo desafío de maximizar la precisión dentro de los límites de latencia, presentamos un esquema de ejecución adaptativo espacial. En el tiempo de ejecución, el esquema predice el rendimiento de cada rama en función de la distribución espacial esperada de los objetos circundantes. Luego, se seleccionan para la inferencia las combinaciones óptimas de ramas y vistas de cámara, que maximizan la precisión estimada general al tiempo que cumplen con el objetivo de latencia. Implementamos Panopticus en tres dispositivos de borde con diferentes capacidades computacionales. El sistema se evaluó en varios entornos del mundo real, como carreteras y calles urbanas, utilizando un conjunto de datos de conducción autónoma pública y nuestro banco de pruebas de cámara móvil de 360° personalizado. Experimentos exhaustivos demostraron que Panopticus superó sus estándares de referencia en diversos escenarios, tanto en términos de precisión como de eficiencia de detección.

Las contribuciones clave de nuestro trabajo son las siguientes: •

Hasta donde sabemos, Panopticus es el primer sistema de detección de objetos 3D omnidireccional y basado en cámara que logra precisión y optimización de latencia en dispositivos periféricos con recursos limitados.

• Realizamos un estudio en profundidad para explorar las distintas capacidades de los detectores 3D más recientes, influenciadas por las distintas características de los objetos y los espacios. Panopticus proporciona un control detallado de la percepción omnidireccional y la utilización de recursos de borde, adaptándose a las distintas complejidades espaciales en entornos dinámicos.

• Implementamos completamente Panopticus como un sistema de computación de borde de extremo a extremo utilizando un sistema de conducción autónoma público

Conjunto de datos y nuestro banco de pruebas de cámara móvil de 360°, que muestra su adaptabilidad a las limitaciones de recursos de los dispositivos de borde en una variedad de condiciones del mundo real

Este documento es Disponible en arxiv bajo licencia CC by 4.0 Deed (Atribución 4.0 Internacional).