論文の概要: Does Appearance Help? A Systematic Study of Image-Based Re-Identification in Online 3D Multi-Pedestrian Tracking
- arxiv url: http://arxiv.org/abs/2606.07233v1
- Date: Fri, 05 Jun 2026 13:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.742032
- Title: Does Appearance Help? A Systematic Study of Image-Based Re-Identification in Online 3D Multi-Pedestrian Tracking
- Title(参考訳): 出現支援は有効か? オンライン3次元多歩行者追跡における画像に基づく再同定の体系的研究
- Authors: Eduardo Borges, Luís Garrote, Urbano J. Nunes,
- Abstract要約: 本研究は,軽量プロジェクションベースフレームワークを用いたオンライン3次元MOTにおける画像ベースReIDの体系的研究である。
KITTIデータセットのペデストリアンクラスの実験では、外見と運動コストのナイーブな線形融合が視覚ノイズによって性能を低下させることが明らかとなった。
軽量アーキテクチャは、安全なナビゲーションに必要な低レイテンシと、社会的認識に必要な差別力との間に最適なトレードオフをもたらすことができることを示す。
- 参考スコア(独自算出の注目度): 0.6117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LiDAR-based 3D Multi-Object Tracking (MOT) typically relies solely on geometric information, which is often insufficient to distinguish between targets during prolonged occlusions or in crowded human-populated environments. While integrating RGB-based Re-Identification (ReID) offers a theoretical solution for preserving identity context, existing approaches often rely on computationally expensive parallel detectors that hinder real-time robot responsiveness. This work presents a systematic study of image-based ReID in online 3D MOT, utilizing a lightweight projection-based framework to decouple geometric and appearance modeling for mobile robots. A comprehensive analysis of feature extraction architectures is conducted, employing lightweight CNNs and Vision Transformers, and evaluating various multi-modal data association strategies to balance computational latency with robust tracking. Experiments on the Pedestrian class of the KITTI dataset reveal that naive linear fusion, of appearance and motion costs, degrades performance due to visual noise. Conversely, a cascaded matching strategy successfully recovers occluded tracks without compromising overall precision, effectively preventing identity switches to maintain human-robot interaction continuity. We show that lightweight architectures can offer an optimal trade-off between the low latency required for safe navigation and the discriminative power needed for social awareness.
- Abstract(参考訳): LiDARベースの3D多目的追跡(MOT)は、一般的に幾何学的情報のみに依存しており、長い閉塞や人口の多い環境において、ターゲットを区別するには不十分であることが多い。
RGBベースのRe-Identification(ReID)の統合は、アイデンティティコンテキストを保存するための理論的ソリューションを提供する一方で、既存のアプローチは、リアルタイムロボットの応答性を阻害する計算コストの高い並列検出器に依存していることが多い。
本研究は3次元MOTにおける画像ベースReIDの体系的研究であり,移動ロボットの幾何学的・外見的モデリングを分離するための軽量プロジェクションベースフレームワークを活用している。
特徴抽出アーキテクチャの包括的解析を行い、軽量CNNとビジョントランスフォーマーを使用し、様々なマルチモーダルデータアソシエーション戦略を評価し、計算遅延とロバストなトラッキングのバランスをとる。
KITTIデータセットのペデストリアンクラスの実験では、外見と運動コストのナイーブな線形融合が視覚ノイズによって性能を低下させることが明らかとなった。
逆に、カスケードマッチング戦略は、全体的な精度を損なうことなく、閉塞したトラックの回復に成功し、アイデンティティスイッチが人間とロボットの相互作用の連続性を維持するのを効果的に防止する。
軽量アーキテクチャは、安全なナビゲーションに必要な低レイテンシと、社会的認識に必要な差別力との間に最適なトレードオフをもたらすことができることを示す。
関連論文リスト
- Generative Texture Diversification of 3D Pedestrians for Robust Autonomous Driving Perception [0.0]
本稿では,合成シーン生成のための3次元歩行者資産における変動性のスケーリング手法を提案する。
我々は、多様な顔のテクスチャとアイデンティティレベルの外観変化を合成することにより、複数の異なる歩行者インスタンスを生成する。
これらの資産を用いて, 合成データセットを構築し, 実データと合成データを混合したRGBオブジェクト検出の影響について検討する。
論文 参考訳(メタデータ) (2026-05-13T16:35:50Z) - Real-Time Structural Detection for Indoor Navigation from 3D LiDAR Using Bird's-Eye-View Images [0.0]
既存の3D手法は計算が禁じられているが、従来の2D幾何学的手法は頑丈さを欠いている。
本稿では,3次元LiDARデータを2D BirdのEye-View画像に投影し,マッピングとナビゲーションに関連する構造要素の効率的な検出を可能にするリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-20T10:15:49Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - Robustifying 3D Perception via Least-Squares Graphs for Multi-Agent Object Tracking [43.11267507022928]
本稿では,3次元LiDARシーンにおける対向雑音に対する新たな緩和フレームワークを提案する。
我々は最小二乗グラフツールを用いて各検出の遠心点の位置誤差を低減する。
実世界のV2V4Realデータセットに関する広範な評価研究は、提案手法がシングルエージェントとマルチエージェントの両方のトラッキングフレームワークよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-07T08:41:08Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。