論文の概要: Polycepta: Object-Centric Appearance Estimation for Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2606.23604v1
- Date: Mon, 22 Jun 2026 17:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.216373
- Title: Polycepta: Object-Centric Appearance Estimation for Multi-Object Tracking
- Title(参考訳): Polycepta:マルチオブジェクトトラッキングのためのオブジェクト中心の外観推定
- Authors: Mohamed Nagy, Naoufel Werghi, Jorge Dias, Majid Khonji,
- Abstract要約: Polyceptaはオブジェクト中心の外観状態推定フレームワークである。
オブジェクト中心の外観状態推定フレームワークであるPolyceptaを紹介する。
Polyceptaは90.57Hzで動作し、KITTIベンチマークで最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 17.390642317718413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tracking-by-detection paradigm in multi-object tracking (MOT) typically relies on static appearance descriptors to complement motion estimation. However, these descriptors are frame-independent, limiting their robustness as visual cues. Since such descriptors are often obtained from computationally intensive pretrained backbones, real-time MOT systems frequently abandon appearance cues altogether and rely solely on motion prediction and geometric association. In this work, we introduce Polycepta, an object-centric appearance state estimation framework that reformulates appearance modeling as a recursive estimation problem rather than a frame-wise matching task. Polycepta constructs and continuously updates an independent appearance state for each tracked object, enabling future appearance representations to be estimated from accumulated observations. Polycepta is encouraged to learn the appearance-state construction of object-specific representations rather than memorize them through a proposed learning strategy, enabling appearance estimation for unseen classes. A key property of Polycepta is that the quality of appearance estimation improves as object states evolve during inference. While conventional appearance descriptors remain static or degrade over time, Polycepta progressively refines appearance estimates as additional observations are accumulated. Extensive experiments on KITTI, the Waymo Open Dataset, and MOT17 demonstrate consistent reductions in identity switches and improvements in tracking performance when integrated into the tracking-by-detection pipelines. Polycepta operates at 90.57 Hz and delivers state-of-the-art performance on the KITTI benchmark when integrated into the RobMOT framework, achieving a MOTA of 92.27\%.
- Abstract(参考訳): マルチオブジェクト追跡(MOT)におけるトラッキング・バイ・検出のパラダイムは、通常、動作推定を補完するために静的な外観記述子に依存している。
しかしながら、これらのディスクリプタはフレーム非依存であり、その堅牢性は視覚的手がかりとして制限される。
このような記述子は、計算的に集中的に訓練されたバックボーンから得られることが多いため、リアルタイムMOTシステムは外見の手がかりを完全に放棄し、運動予測や幾何学的関連にのみ依存することが多い。
本稿では、フレームワイドマッチングタスクではなく、再帰的な推定問題として外観モデリングを再構成するオブジェクト中心の外観状態推定フレームワークであるPolyceptaを紹介する。
ポリセプタは、追跡対象ごとに独立した外観状態を構築し、継続的に更新し、蓄積された観測から将来の外観表現を推定することができる。
ポリセプタは、未確認クラスの外観推定を可能とし、提案された学習戦略を通じて、オブジェクト固有の表現の外観状態構築を記憶するのではなく、学習することが奨励されている。
Polyceptaの重要な性質は、オブジェクト状態が推論中に進化するにつれて、外観推定の品質が向上することである。
従来の外観記述子は、時間とともに静的または劣化し続け、Polyceptaは、さらなる観測が蓄積されるにつれて、出現推定を徐々に洗練する。
KITTI、Waymo Open Dataset、MOT17に関する大規模な実験では、アイデンティティスイッチの一貫性の低下と、トラッキング・バイ・検出パイプラインに統合された場合のパフォーマンス向上が示されている。
Polyceptaは90.57Hzで動作し、RobMOTフレームワークに統合された場合、KITTIベンチマークで最先端のパフォーマンスを提供し、92.27\%のMOTAを達成する。
関連論文リスト
- Monitoring Data-aware Temporal Properties (Extended Version) [56.386411908764494]
有限トレース上の任意のSMT理論に富む線形時間特性の予測モニタリングについて考察する。
この設定での予測モニタリングは非常に困難であり、監視状態はこれまでのトレースプレフィックスと可能な有限継続の両方に依存している。
本研究は,表現的フラグメントオフMTにおける特性モニタリングのための新しい基礎的枠組みの正しさを提示し,正式に証明するものである。
論文 参考訳(メタデータ) (2026-05-14T10:23:11Z) - Geo-ID: Test-Time Geometric Consensus for Cross-View Consistent Intrinsics [37.614964138575935]
内在的な画像分解は、画像からアルベド、粗さ、および金属性などの物理ベースのレンダリングパラメータを推定することを目的としている。
ビデオベースのモデルは、クロスフレームの一貫性を改善することができるが、高密度で順序付けられたシーケンスと相当な計算を必要とする。
クロスビュー一貫した分解を生成するために,未学習の単視点予測器を本質的に再利用する新しいテストタイムフレームワークであるGeo-IDを提案する。
論文 参考訳(メタデータ) (2026-03-14T09:36:27Z) - GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture [27.70912792107499]
我々は,JEPAを画像特徴予測から追跡モデル予測まで拡張するモデル予測事前学習フレームワークであるGOT-JEPAを提案する。
さらに,物体追跡のためのオクルージョン知覚を高めるためにOccurを提案する。
論文 参考訳(メタデータ) (2026-02-16T14:26:07Z) - Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent [58.90049897180927]
視覚モデルにおける視覚的特徴の意図しない依存を検出するための自動フレームワークを提案する。
自己反射エージェントは、モデルが依存する可能性のある視覚特性に関する仮説を生成し、テストする。
我々は,視覚特性の多様さを示すために設計された130モデルの新しいベンチマークに対して,我々のアプローチを評価した。
論文 参考訳(メタデータ) (2025-10-24T17:59:02Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [53.5449912019877]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - UnsMOT: Unified Framework for Unsupervised Multi-Object Tracking with
Geometric Topology Guidance [6.577227592760559]
UnsMOTは、オブジェクトの外観と運動の特徴と幾何学的情報を組み合わせて、より正確なトラッキングを提供する新しいフレームワークである。
実験結果から, HOTA, IDF1, MOTAの計測値において, 最先端手法と比較して顕著な性能を示した。
論文 参考訳(メタデータ) (2023-09-03T04:58:12Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。