論文の概要: Rethinking RAG in Long Videos: What to Retrieve and How to Use It?
- arxiv url: http://arxiv.org/abs/2606.13141v1
- Date: Thu, 11 Jun 2026 10:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.718061
- Title: Rethinking RAG in Long Videos: What to Retrieve and How to Use It?
- Title(参考訳): ロングビデオにおけるRAGの再考 - 検索方法と使い方
- Authors: Yuho Lee, Jisu Shin, Nicole Hee-Yeon Kim, Jihwan Bang, Juntae Lee, Kyuwoong Hwang, Fatih Porikli, Hwanjun Song,
- Abstract要約: V-RAGBenchは$langle$query, evidence chunk, answer$rangle$三重項のベンチマークで、検索と生成を忠実に分離した評価を可能にする。
また、CARVEは、コンフィグレーションにまたがって並列レトリバーを動作させ、チャンク毎に入賞構成を識別するためにチャンク適応リランクを用いる手法である。
- 参考スコア(独自算出の注目度): 56.38819694781005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation is moving beyond text into long, egocentric video, where systems must select query-relevant chunks across multiple modalities and temporal granularities. Yet progress in VideoRAG is limited by two gaps: existing benchmarks allow queries to be answered without the video, obscuring retrieval errors, and prior methods apply a single modality-granularity configuration per query, ignoring chunk-level variability. We address both by introducing V-RAGBench, a benchmark of $\langle$query, evidence chunk, answer$\rangle$ triplets that enables faithful, decoupled evaluation of retrieval and generation, and CARVE, a simple method that runs parallel retrievers across configurations and employs chunk-adaptive reranking to identify the winning configuration for each chunk. Each chunk then enters the generator under its winning configuration selected during retrieval, yielding an interleaved evidence form where the chunk-level decision propagates across both stages. CARVE outperforms eight recent VideoRAG baselines, with the chunks supplied to the generator interleaving multiple configurations rather than sharing a single one, a behavior unattainable by query-level methods.
- Abstract(参考訳): Retrieval-augmented Generationはテキストを超えて、長いエゴセントリックなビデオへと移行し、システムは複数のモーダルと時間的粒度のクエリ関連チャンクを選択する必要がある。
しかし、VideoRAGの進歩は2つのギャップによって制限されている: 既存のベンチマークでは、ビデオなしでクエリに答えることができ、検索エラーを隠蔽し、以前の手法ではクエリ毎に単一のモジュラリティ-グラニュラ性設定を適用し、チャンクレベルの変数を無視している。
V-RAGBenchは$\langle$query, evidence chunk, answer$\rangle$ tripletのベンチマークで、検索と生成を忠実に分離した評価を可能にする。
各チャンクは、検索中に選択された勝利構成の下でジェネレータに入り、チャンクレベルの決定が両方のステージにわたって伝播するインターリーブされたエビデンスを生成する。
CARVEは最近の8つのVideoRAGベースラインを上回り、単一の構成を共有するのではなく、複数の構成をインターリーブするジェネレータに供給されるチャンクは、クエリレベルのメソッドでは達成できない振る舞いである。
関連論文リスト
- Fewer Steps, Better Performance: Efficient Cross-Modal Clip Trimming for Video Moment Retrieval Using Language [60.91064560080974]
本稿では,クエリ関連クリップをトリムするスポットVMRを提案する。
提案するSpotVMRは,最新のVMR手法の効率性を実現するプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2026-05-28T11:42:28Z) - DynFrame: Adaptive Reasoning-Driven Multimodal Framework with Dynamic Frame Augmentation for Complex Video Understanding [19.492762364136393]
時間ウィンドウとサンプリング密度を1つの自己回帰パス内でネイティブトークンとして出力するフレームワークであるDynFrameを提案する。
この学習可能なスパン密度検索は、単一の検索ステップで多粒度証拠の取得を可能にする。
論文 参考訳(メタデータ) (2026-05-26T08:16:16Z) - R$^3$AG: Retriever Routing for Retrieval-Augmented Generation [59.47703698994575]
R$3$AGは、検索機能を2つの学習可能なディメンション、すなわち検索品質と生成ユーティリティに分解する。
R$3$AGは、最高の個々のレトリバーと最先端の静的ルーティングメソッドの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2026-04-22T06:51:20Z) - Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding [21.18266593437182]
そこで本研究では,クエリタイプに基づいた学習自由なフレーム選択フレームワークを提案する。
3つの長いビデオ理解ベンチマークの実験は、DIGが既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-03T17:36:06Z) - Towards Hyper-Efficient RAG Systems in VecDBs: Distributed Parallel Multi-Resolution Vector Search [5.216774377033164]
我々は,VecDBにおけるRAGのための新しい多分解能ベクトルインデックスフレームワークである textbfSemantic Pyramid Indexing (SPI) を提案する。
オフラインチューニングやモデルトレーニングの分離を必要とする既存の階層的手法とは異なり、SPIはドキュメントの埋め込みの上にセマンティックピラミッドを構築し、クエリ毎に最適な解像度レベルを動的に選択する。
FAISSとQdrantバックエンドのプラグインとしてSPIを実装し、MS MARCO、Natural Questions、マルチモーダル検索ベンチマークを含む複数のRAGタスクでSPIを評価する。
論文 参考訳(メタデータ) (2025-11-12T09:31:08Z) - LOVO: Efficient Complex Object Query in Large-Scale Video Datasets [11.821229903544404]
LOVOは、comp$underlineL$ex $underlineO$bjectクエリを大規模$underlineV$ide$underlineO$データセットで効率的に扱うように設計された新しいシステムである。
ユーザクエリに依存しないLOVOは、事前トレーニングされたビジュアルエンコーダを使用して、ワンタイムの機能抽出を実行し、キーフレームに対するコンパクトなビジュアル埋め込みを生成する。
クエリフェーズの間、LOVOはオブジェクトクエリをクエリの埋め込みに変換し、視覚的な埋め込みの近傍の高速な探索を行う。
論文 参考訳(メタデータ) (2025-07-18T18:21:43Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - Enhancing Multi-modal and Multi-hop Question Answering via Structured
Knowledge and Unified Retrieval-Generation [33.56304858796142]
マルチモーダルなマルチホップ質問応答は、異なるモーダルから複数の入力ソースを推論することで質問に答える。
既存の手法は、しばしば別々に証拠を検索し、その後言語モデルを使用して、得られた証拠に基づいて回答を生成する。
本稿では,これらの問題に対処するため,構造化知識と統一検索生成(RG)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。