論文の概要: Towards Accurate and Robust Surveillance Roadside IVD via Trackletized Audio-Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.22299v1
- Date: Sun, 21 Jun 2026 01:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:19:51.905132
- Title: Towards Accurate and Robust Surveillance Roadside IVD via Trackletized Audio-Visual Reasoning
- Title(参考訳): トラックレプション・オーディオ・ビジュアル・リゾニングによる道路沿いの高精度・ロバスト監視IVDに向けて
- Authors: Xiwen Li, Xiaoya Tang, Bodong Zhang, Tolga Tasdizen,
- Abstract要約: アイドリング車両検出(IVD)は、ビデオクリップの最終フレームで、どの車両がアイドリングしているかを判断する。
マルチオブジェクトトラッキングによるオーディオ視覚フレームワークTAVR-IVDを紹介する。
- 参考スコア(独自算出の注目度): 0.9799637101641149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Idling Vehicle Detection (IVD) seeks to determine, at the final frame of a video clip, whether any vehicle is idling, meaning the vehicle is stationary with its engine running, using synchronized video from a remote surveillance camera and multichannel audio captured by spatially distributed wireless microphones along the roadside. Prior full-image, clip-level fusion approaches tend to overfit scene background and full-frame context, produce unstable temporal decisions, and lack an explicit spatial prior to align vehicles with microphones, which makes them brittle under domain shift and data inefficient. Instead, we introduce TAVR-IVD, an audio-visual framework guided by multi-object tracking. Our method detects vehicles, links detections into tracklets, and classifies each vehicle by operating on its tracklet. This design raises the effective signal-to-noise ratio, stabilizes temporal decisions through tracklets, enforces an explicit spatial prior to align vehicles with microphones, and adapts across domains with limited calibration annotations while remaining detector agnostic and efficient. To evaluate deployment robustness, we further curate two evaluation extensions, AVIVD-LT and AVIVD-M, covering inter-day and cross-site shifts.
- Abstract(参考訳): Idling Vehicle Detection (IVD)は、ビデオクリップの最終フレームで、車両がアイドリングしているかどうかを判断し、遠隔監視カメラからの同期ビデオと、道路沿いの空間的に分散されたワイヤレスマイクによってキャプチャされたマルチチャネルオーディオを使用して、車両がエンジンを走らせている状態で静止していることを意味する。
以前のフルイメージのクリップレベルの融合アプローチは、シーンの背景とフルフレームのコンテキストをオーバーフィットさせ、不安定な時間的決定を発生させ、車両とマイクを合わせる前に明示的な空間的決定を欠く傾向があるため、ドメインシフトやデータ非効率の下で不安定になる。
TAVR-IVDは、マルチオブジェクトトラッキングによって誘導されるオーディオ視覚フレームワークである。
本手法は,車両を検知し,トラックレットにリンクし,トラックレット上での動作によって各車両を分類する。
この設計は、効果的な信号対雑音比を高め、トラックレットによる時間的決定を安定化し、車両とマイクを合わせる前に明示的な空間的決定を強制し、検出器の非依存と効率を保ちながら、限られた校正アノテーションでドメイン全体に適応する。
AVIVD-LT と AVIVD-M の2つの評価拡張を, 日中, 日内, サイト間を対象とし, より堅牢性を評価する。
関連論文リスト
- OmniTraffic: A Controllable Generation Pipeline and Benchmark for Spatio-Temporal Traffic Reasoning [47.85568621735744]
トラフィック推論のための制御可能なパイプライン生成とベンチマークであるOmniTrafficを紹介した。
現実世界の12の交差点に建設され、2つの国の監視映像によって再建されている。
シーン認識、多視点、時間的推論、意思決定支援にまたがる3段階のタスク階層を定義する。
論文 参考訳(メタデータ) (2026-06-14T11:16:53Z) - Effective Multi-sensor Conditioning for Street-view Novel-view Synthesis [53.67632483195509]
ビデオ拡散フレームワークであるStreetNVSを紹介する。
我々は,高架,車線シフト,引き戻し,回転などの極端な軌道外経路に沿ってコヒーレントな映像を合成する能力を示す。
論文 参考訳(メタデータ) (2026-06-01T02:37:56Z) - SPOT!: Map-Guided LLM Agent for Unsupervised Multi-CCTV Dynamic Object Tracking [0.0]
本稿では,複数CCTV環境の盲点においても事前訓練なしで車両を追跡できる地図誘導型LLMエージェントであるSPOTを提案する。
CCTV画像で観測された物体の相対位置とFOV情報を用いて、車両の位置を実際の世界座標系に変換する。
仮想都市環境におけるCARLAシミュレータによる実験結果から,盲点区間においても,提案手法が次に現れるCCTVを正確に予測できることが確認された。
論文 参考訳(メタデータ) (2025-12-24T06:04:58Z) - SAE-MCVT: A Real-Time and Scalable Multi-Camera Vehicle Tracking Framework Powered by Edge Computing [2.9754058024342473]
我々は,最初のスケーラブルリアルタイムMCVTフレームワークであるSAE-MCVTを提案する。
SAE-MCVTは2K 15 FPSビデオストリーム上でリアルタイムに動作し,IFF1スコアが61.2であることを示す。
これは、都市規模のデプロイメントに適した、初めてのスケーラブルなリアルタイムMCVTフレームワークである。
論文 参考訳(メタデータ) (2025-11-17T20:55:14Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - HAVT-IVD: Heterogeneity-Aware Cross-Modal Network for Audio-Visual Surveillance: Idling Vehicles Detection With Multichannel Audio and Multiscale Visual Cues [1.0705399532413615]
アイドリング車両検出(IVD)は、監視ビデオとマルチチャネルオーディオを使用して、ピックアップゾーン内の車両のローカライズと分類を行う。
IVDは3つの課題に直面している: (i) 視覚的手がかりと音声パターンの不均一性、 (ii) 多分解能検出を必要とする大規模なボックススケール変動、 (iii) 複合検出ヘッドによるトレーニング不安定性。
HAVT-IVDは視覚的特徴ピラミッドと切り離された頭部を備えた異種認識ネットワークである。
論文 参考訳(メタデータ) (2025-04-15T21:10:17Z) - Application of 2D Homography for High Resolution Traffic Data Collection
using CCTV Cameras [9.946460710450319]
本研究では,CCTVカメラから高精細なトラフィックデータを抽出するための3段階のビデオ分析フレームワークを実装した。
このフレームワークの主要な構成要素は、オブジェクト認識、視点変換、車両軌道再構成である。
その結果, カメラ推定値間の速度偏差は10%以下で, 方向トラフィック数では+/-4.5%の誤差率を示した。
論文 参考訳(メタデータ) (2024-01-14T07:33:14Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Real Time Monocular Vehicle Velocity Estimation using Synthetic Data [78.85123603488664]
移動車に搭載されたカメラから車両の速度を推定する問題を考察する。
そこで本研究では,まずオフ・ザ・シェルフ・トラッカーを用いて車両バウンディングボックスを抽出し,その後,小型ニューラルネットワークを用いて車両速度を回帰する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:10:27Z) - Online Clustering-based Multi-Camera Vehicle Tracking in Scenarios with
overlapping FOVs [2.6365690297272617]
マルチターゲットマルチカメラ(MTMC)車両追跡は,視覚的交通監視において重要な課題である。
本稿では,MTMC追跡のための新しい低遅延オンライン手法を提案する。
論文 参考訳(メタデータ) (2021-02-08T09:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。