Fugu-MT 論文翻訳(概要): Driving Video Retrieval for Complex Queries with Structured Grounding

論文の概要: Driving Video Retrieval for Complex Queries with Structured Grounding

arxiv url: http://arxiv.org/abs/2606.09109v1
Date: Mon, 08 Jun 2026 07:00:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.778989
Title: Driving Video Retrieval for Complex Queries with Structured Grounding
Title（参考訳）: 構造的接地を伴う複雑なクエリの動画検索
Authors: Manyi Yao, Sparsh Garg, Christian Shelton, Amit Roy-Chowdhury, Abhishek Aich,
Abstract要約: STRIVE-Dはビデオ駆動のためのデータキャリブレーションされた検索フレームワークである。クエリルールの信頼性を推定するために、弱いラベル付きドメイン内ビデオを使用する。最先端の手法に比べて、トップ1の精度が最大84%向上している。
参考スコア（独自算出の注目度）: 6.16173133327134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video retrieval at scale is central to data curation and safety validation in autonomous driving, where users want to find not only scenes but also dynamic events such as cut-ins and hard braking. Existing vision-language and keyword-based retrieval methods often miss these events because the relevant motion may not be explicitly described in text or captured by lexical overlap. Rule-based retrieval can encode such events more directly, but it is brittle: generated or hand-written rules often fail when their assumptions do not match real driving data. We propose STRIVE-D, a data-calibrated retrieval framework for driving videos. It uses weakly labeled in-domain videos to estimate when a query rule is reliable, adapt rules that mismatch observed data, and fuse calibrated rule scores with vision-language and keyword-based retrieval signals. Across three driving benchmarks, including newly released human-annotated event data on DrivingDojo, STRIVE-D delivers up to 84% relative improvement in top-1 accuracy over state-of-the-art methods.
Abstract（参考訳）: 大規模なビデオ検索は、自動運転におけるデータのキュレーションと安全性の検証の中心であり、ユーザーはシーンだけでなく、カットインやハードブレーキといったダイナミックなイベントも見つけたいと考えている。既存の視覚言語やキーワードベースの検索手法では、関連した動きをテキストで明示的に記述したり、語彙の重なりによってキャプチャしたりすることができないため、これらのイベントを見逃すことが多い。ルールベースの検索は、そのようなイベントをより直接的にエンコードできるが、不安定である: 生成または手書きのルールは、仮定が実際の駆動データと一致しないときに失敗することが多い。本稿では,ビデオ駆動のためのデータ校正検索フレームワークSTRIVE-Dを提案する。弱いラベル付きドメイン内ビデオを使用して、クエリルールが信頼できるタイミングを推定し、観測データにミスマッチするルールを適用し、視覚言語とキーワードベースの検索信号で校正されたルールスコアを融合する。 3つのドライビングベンチマーク、新たにリリースされたDrivingDojoの人間アノテーション付きイベントデータを含む、STRIVE-Dは、最先端のメソッドよりも84%の精度でトップ1の精度が向上している。

関連論文リスト

R^3: Composed Video Retrieval via Reasoning-Guided Recalling and Re-ranking [73.0537447183962]
本稿では、Reasoning-guided Recalling and Re rankを中心に構築されたゼロショット合成ビデオ検索パイプラインを提案する。モデルは、編集を適用した後、期待されるターゲットビデオを記述する推論トレースを生成する。この課題に対処する上で,本手法の有効性を実証した。
論文参考訳（メタデータ） (2026-05-31T09:20:53Z)
Revisiting Uncertainty: On Evidential Learning for Partially Relevant Video Retrieval [70.47320120707029]
部分的関連性のあるビデオ検索は、部分的コンテンツのみを記述するテキストクエリを使って、未編集の動画を検索することを目的としている。この設定では、曖昧なクエリはしばしばビデオ間のセマンティックなあいまいさを引き起こす。我々は,多粒質のクロスモーダルな証拠を集約し,不確実性を定量化し,モデル化する階層的顕在的学習フレームワークであるHolmesを提案する。
論文参考訳（メタデータ） (2026-05-07T12:06:13Z)
Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning [7.051314153203061]
既存のDense Video Captioning(DVC)の検索強化アプローチは、真のイベント境界に沿った正確な時間分割を達成できないことが多い。提案フレームワークであるbfSTaRCは、ハイライト検出モジュールを通じてフレームレベルのサリエンシを監視することによって、この制限を克服する。我々はYouCook2とViTTベンチマークで総合的な評価を行い、STaRCはほとんどのメトリクスで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-12T02:37:21Z)
Addressing Out-of-Label Hazard Detection in Dashcam Videos: Insights from the COOOL Challenge [0.0]
本稿では,ダッシュカム映像におけるハザード解析の新しい手法を提案する。危険物に対する運転者反応の検出、危険物の検出、説明的なキャプションの生成に対処する。本手法は,自動運転におけるアウト・オブ・ラベルの課題において,最も高いスコアを得た。
論文参考訳（メタデータ） (2025-01-27T13:32:01Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文参考訳（メタデータ） (2022-10-22T00:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。