リンク一覧
3.1 実験のセットアップ
3.2 観察
3.3 まとめと課題
5.1 モデル設計
6.1 パフォーマンス予測
5.2 モデルの適応
6.2 実行スケジュール
8.1 テストベッドとデータセット
8.2 実験のセットアップ
8.3 パフォーマンス
8.4 堅牢性
8.5 コンポーネント分析
8.6 オーバーヘッド
抽象的な
全方向ビューによる 3D オブジェクト検出により、モバイル ロボット ナビゲーションなどの安全性が重要なアプリケーションが可能になります。このようなアプリケーションは、リソースが制限されたエッジ デバイスで動作することが増えており、プライバシーの問題やネットワークの遅延なしに信頼性の高い処理が実現されています。コスト効率の高い展開を可能にするために、カメラは LiDAR センサーの低コストの代替として広く採用されています。ただし、エッジ デバイスの計算上の制限により、カメラベースのソリューションの高性能を実現するための計算集約型のワークロードは依然として困難です。このホワイト ペーパーでは、エッジ デバイスでの全方向およびカメラベースの 3D 検出用に慎重に設計されたシステムである Panopticus を紹介します。Panopticus は、空間の複雑さを考慮した適応型マルチブランチ検出スキームを採用しています。レイテンシ制限内で精度を最適化するために、Panopticus は、利用可能なエッジ リソースと空間特性に基づいて、モデルのアーキテクチャと操作を動的に調整します。Panopticus を 3 つのエッジ デバイスに実装し、公開されている自動運転データセットとモバイル 360° カメラ データセットに基づいて、実際の環境で実験を行いました。実験結果では、33 ミリ秒という厳密なレイテンシ目標を前提とした場合、Panopticus は平均で精度を 62% 向上させることがわかりました。また、Panopticus はベースラインと比較して平均で 2.1 倍のレイテンシ削減を達成しました。
1 はじめに
コンピュータビジョンとディープニューラルネットワーク(DNN)の進歩に伴い、3D物体検出は数多くのアプリケーションの中核コンポーネントになっています。たとえば、自律走行車は、安全なナビゲーションルートを確立するために、環境内の物体を正確かつリアルタイムで認識する必要があります[55]。図1に示すように、物体はどの方向からでも近づく可能性があるため、包括的な360°視野(FOV)を通じて認識を確保することが重要です。このような全方向認識には、大量のセンサーデータの処理が必要であり、リアルタイム処理のためにAIアクセラレータを備えたハイエンドコンピューティングデバイスが必要です[47]。最近、全方向3D物体検出を使用するモバイルアプリケーションの需要が広まっています。監視などの個人向けサービスを提供するロボットやドローンは、このような技術の恩恵を受けることができます[16]。さらに、周囲の障害物を検出し、潜在的な危険を音声で警告することで、視覚障害のある人を助けることができます[39、56]。これらのパーソナライズされたアプリケーションは、ユーザーのプライバシーの問題やネットワークのオーバーヘッドを最小限に抑えるために、エッジデバイスで処理する必要があります。しかし、高度なエッジコンピューティングパワーを提供する最新のNVIDIA Jetson Orinシリーズ[8]でさえ、同じ基盤GPUアーキテクチャを持つクラウドコンピューティングに使用される強力なA100 [9]と比較して、AIアクセラレーション用のTensorコアが6.7倍から13.5倍少ない。さらに、エッジAIアプリケーションでは、コスト効率の高い展開などの実用的な要素を考慮する必要があります。その結果、低コストのカメラでこのようなアプリケーションをサポートするための多くの努力がなされてきました[1、38、42、58]。具体的には、複数のカメラまたはモバイル360°カメラを利用して全方向認識を容易にします。
エッジAIサービスには、幅広い精度とレイテンシの要件があります。最近の進歩にもかかわらず、以前の研究では、リソースが制限されたエッジデバイスで効率と精度の両方をサポートすることに限界があります。DeepMix [18] は、複雑なDNNベースのオブジェクト検出タスクをクラウドサーバーにオフロードして、エッジデバイスの計算負荷を軽減しました。ただし、全方向認識タスクをオフロードすると、大量のデータ転送により、エッジクラウド通信の遅延が大幅に増加する可能性があります。PointSplit [37] は、エッジGPUとNPUでの並列処理をサポートしていますが、この方式は、FOVが制限されたRGB-Dセンサーを使用する特定の3D検出パイプライン用に最適化されています。一方、さまざまな方法 [1、31、34、38] により、3D深度情報がないため固有の問題が発生するカメラベースのソリューションの精度が向上しました。一連の研究 [29、30、52] では、RGB画像からの深度予測を強化するためのDNNの開発に焦点を当てています。また、高解像度画像を用いた特徴抽出バックボーンなどの大規模DNNの採用は、精度向上に不可欠です[51]。しかし、全方向入力を伴う複数の計算集約型DNNタスクを処理するには、リソースに制約のあるエッジデバイスに多大な計算負荷がかかります。
本稿では、エッジ デバイスのレイテンシ要件を満たしながら全方向 3D オブジェクト検出の精度を最大化するシステム Panopticus を提案します。カメラベースの 3D 検出器は、オブジェクトの数や動きなどのさまざまな要因によって決まる空間特性に応じて検出能力が異なることを予備的に観察しました。Panopticus の重要なアイデアは、空間分布の短期的なダイナミクスを理解した上で、各カメラ ビューを最適に処理することです。たとえば、静的で近接したオブジェクトがいくつか含まれるカメラ ビューは、軽量の推論構成で処理して、精度の低下を最小限に抑えながらレイテンシを削減できます。節約されたレイテンシ マージンを使用して、図 1 に示すように、オブジェクトが高速で移動している複雑なビューや離れた場所にある複雑なビューに高性能な推論構成を割り当てることができます。
Panopticus の設計には、いくつかの課題があります。まず、従来の 3D 検出モデルでは、バックボーン容量や拡張深度推定の使用など、同じビデオ フレーム内の各カメラ ビューの推論構成を差別化できる効率的で動的な推論スキームを提供できませんでした。さらに、モデルのアーキテクチャは、特定のデバイスでのレイテンシ要件などのさまざまな制約に対応するために調整可能でなければなりません。次に、レイテンシ要件内で精度を最大化するには、各カメラ ビューの最適な推論構成を決定する必要があります。これには、空間分布の変化と推論構成の予想されるパフォーマンスの両方の実行時分析が必要です。
モデルのアーキテクチャと運用の調整を可能にするために、複数の推論ブランチを備えた全方向 3D オブジェクト検出モデルを導入しました。このモデルは、さまざまな検出機能を備えたブランチの 1 つを使用して各ビューを処理し、エッジ コンピューティング リソースをきめ細かく利用できるようにします。モデルのアーキテクチャはモジュール式に設計されており、特定の制約に違反するブランチを切り離すことで柔軟な展開が可能です。レイテンシ制限内で精度を最大化するという 2 番目の課題に対して、空間適応実行スキームを導入しました。実行時に、このスキームは周囲のオブジェクトの予想される空間分布に基づいて各ブランチのパフォーマンスを予測します。次に、レイテンシ目標を満たしながら全体的な推定精度を最大化するブランチとカメラ ビューの最適な組み合わせが推論用に選択されます。Panopticus は、計算能力の異なる 3 つのエッジ デバイスに実装されました。このシステムは、公開されている自動運転データセットとカスタム モバイル 360° カメラ テストベッドを使用して、都市の道路や街路などのさまざまな現実の環境で評価されました。広範囲にわたる実験により、Panopticus はさまざまなシナリオにおいて、検出精度と効率の両面でベースラインを上回る性能を発揮することが示されました。
私たちの研究の主な貢献は次のとおりです。•
私たちの知る限り、Panopticus は、リソースが制限されたエッジ デバイス上で精度とレイテンシの最適化の両方を実現する、初の全方向カメラ ベースの 3D オブジェクト検出システムです。
• 私たちは、物体や空間の多様な特性によって影響を受ける最新の 3D 検出器のさまざまな機能を調査するために、詳細な調査を実施しました。Panopticus は、全方向認識とエッジ リソースの利用をきめ細かく制御し、動的な環境におけるさまざまな空間の複雑さに適応します。
• 公共の自動運転システムとクラウドベースのエッジコンピューティングシステムの両方を使用して、Panopticusをエンドツーエンドのエッジコンピューティングシステムとして完全に実装しました。
データセットとモバイル360°カメラのテストベッドを統合し、さまざまな現実世界の条件におけるエッジデバイスのリソース制約への適応性を示します。
この論文は