論文の概要: Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding
- arxiv url: http://arxiv.org/abs/2606.12047v1
- Date: Wed, 10 Jun 2026 13:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.464022
- Title: Metadata-Aware Multi-Prompt Reasoning for Zero-Shot Accident Understanding
- Title(参考訳): ゼロショット事故理解のためのメタデータ対応マルチプロンプト推論
- Authors: Tarandeep Singh, Soumyanetra Pal, Soham Biswas, Nishanth Chandran,
- Abstract要約: 事故をいつ,何,どこで理解するかを分解する3段階パイプラインを提案する。
ゼロショット映像理解を時間的局所化,意味分類,空間的グラウンド化に分解することで,より信頼性の高い推論が可能になることを示す。
- 参考スコア(独自算出の注目度): 9.094828055298166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we address the problem of zero-shot understanding of accidents from surveillance videos by identifying when an impact event occurs, what type of impact it is, and where in the frame it occurs using natural language. We propose a three-stage pipeline that decomposes the accident understanding into when, what, and where. The first stage extracts a short temporal window around the impact using vision-language similarity. In the second stage, we perform metadata-driven multi-prompt reasoning with five complementary views (baseline, motion, geometry, contrast, and tiebreaker) and resolve disagreement via an entropy-gated pairwise adjudicator. Finally, we localize the impact of an open-vocabulary detector queried on the predicted accident type and scene layout, and aggregate detections across keyframes using a score-weighted centroid. Our pipeline achieves a substantial improvement in the harmonic-mean score over a centre-of-frame baseline on the zero-shot ACCIDENT @ CVPR benchmark. We show that decomposing zero-shot video understanding into temporal localization, semantic classification, and spatial grounding enable more reliable reasoning with vision-language models than direct prompting alone.
- Abstract(参考訳): 本稿では, 衝突発生時刻, 影響状況, フレーム内での自然言語による事故発生状況の把握により, 監視ビデオからの事故のゼロショット理解の問題に対処する。
事故をいつ,何,どこで理解するかを分解する3段階パイプラインを提案する。
第1段階は視覚言語類似性を用いて衝撃の周りの短い時間窓を抽出する。
第2段階では,5つの相補的なビュー(ベースライン,運動,幾何学,コントラスト,タイブレーカ)でメタデータ駆動型マルチプロンプト推論を行い,エントロピーゲートの対述法を用いて不一致を解消する。
最後に,オープン語彙検出装置が予測された事故タイプおよびシーンレイアウトに与える影響を局所化し,スコア重み付きセントロイドを用いたキーフレーム全体の集約検出を行った。
我々のパイプラインは、ゼロショットACCIDENT @ CVPRベンチマークにおいて、フレームの中心ベースラインよりもハーモニック平均スコアが大幅に向上する。
ゼロショット映像理解を時間的局所化、意味分類、空間的グラウンド化に分解することで、直接的プロンプトよりも視覚言語モデルによる信頼性の高い推論が可能になることを示す。
関連論文リスト
- Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis [64.42659342276117]
ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T14:49:08Z) - TRACES: Temporal Recall with Contextual Embeddings for Real-Time Video Anomaly Detection [0.0]
本稿では,文脈認識型ゼロショット異常検出問題に対処する。
提案手法は,時間的信号と視覚的埋め込みを関連づけたメモリ拡張パイプラインを定義する。
我々は、UCF-Crimeで90.4%のAUC、XD-Violenceで83.67%のAPを達成している。
論文 参考訳(メタデータ) (2025-11-01T14:54:08Z) - Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition [36.36218470387896]
私たちはこの問題を因果推論問題として再考し、次のような質問をした。
推測時にこれを答えるために、CLIPの表現空間内のオブジェクトと背景の期待値を推定し、反ファクトの埋め込みを合成する。
提案手法は,再訓練や即時設計を伴わず,文脈に敏感なベンチマークにおいて,最悪のグループと平均精度の両方を著しく改善する。
論文 参考訳(メタデータ) (2025-10-30T13:11:23Z) - Causality Matters: How Temporal Information Emerges in Video Language Models [17.570777893613137]
ビデオ入力における位置エンコーディングの除去や修正は、時間的理解の性能の低下を最小限に抑えることが判明した。
この振る舞いを説明するために、我々は時間的情報がモデルにどのように組み込まれているかを追跡するための重要な分析実験を行った。
そこで我々は,2つの効率重視戦略を提案する。
論文 参考訳(メタデータ) (2025-08-15T16:33:14Z) - Autoregressive Denoising Score Matching is a Good Video Anomaly Detector [36.96911195723131]
ビデオ異常検出(VAD)はコンピュータビジョンの重要な問題である。
雑音条件付きスコア変換器を導入し、スコアマッチングを復調する。
次に,シーン依存型,動き認識型スコア関数を提案する。
我々は、新しい自己回帰型聴覚スコアマッチング機構を介して、影響を受けない視覚情報を統合する。
論文 参考訳(メタデータ) (2025-06-29T15:14:32Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。