論文の概要: MAVIS: Multi-Agent Video Retrieval via Structured Video Understanding
- arxiv url: http://arxiv.org/abs/2606.09641v1
- Date: Mon, 08 Jun 2026 15:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.466068
- Title: MAVIS: Multi-Agent Video Retrieval via Structured Video Understanding
- Title(参考訳): MAVIS:構造化ビデオ理解によるマルチエージェントビデオ検索
- Authors: Jie Zhang, Qilang Ye, Hao Zhou, Haochen Liang, Fei Luo,
- Abstract要約: textbfMAVISは、検索をブルートフォース検索ではなく協調推論として再考する、新しいマルチエージェントフレームワークである。
検索中、プランナーは複雑なユーザ意図をアトミックなサブタスクに分解し、個別に候補を指名するために特別エージェントを派遣する。
MSR-VTT、MSVD、ActivityNetの実験は、MAVISがタスク固有の微調整なしで競争性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 11.308633179211348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant paradigm in video retrieval relies on embedding-based full-corpus scanning, which suffers from inherent computational inefficiency and the semantic asymmetry between information-dense videos and sparse textual queries. To bridge this gap, we introduce \textbf{MAVIS}, a novel multi-agent framework that rethinks retrieval as cooperative reasoning rather than brute-force search. MAVIS first bridges the granularity mismatch by parsing raw videos into a \textbf{Structured Semantic Library}, enabling explicit attribute-level indexing. During retrieval, a planner decomposes complex user intents into atomic sub-tasks, dispatching specialized agents to independently nominate candidates. Crucially, MAVIS employs a \textbf{Logic-aware Debate} mechanism with a strict veto protocol, where agents collaboratively prune logical mismatches to identify a compact set of ``controversial'' candidates for fine-grained verification. This agentic workflow effectively bypasses the inefficiency of full-library traversal. Extensive experiments on MSR-VTT, MSVD, and ActivityNet demonstrate that MAVIS achieves competitive performance without task-specific fine-tuning, offering a scalable and interpretable alternative to traditional dual-encoder approaches.
- Abstract(参考訳): ビデオ検索における支配的なパラダイムは埋め込みベースのフルコーパススキャンに依存しており、これは本質的に計算の非効率さと、インフォメーションセンスビデオとスパーステキストクエリ間の意味的非対称性に悩まされている。
このギャップを埋めるために、ブルートフォース検索ではなく協調推論として検索を再考する新しいマルチエージェントフレームワークである \textbf{MAVIS} を導入する。
MAVIS は、生のビデオを \textbf{Structured Semantic Library} に解析することで、まず粒度のミスマッチをブリッジし、明示的な属性レベルのインデックス化を可能にする。
検索中、プランナーは複雑なユーザ意図をアトミックなサブタスクに分解し、個別に候補を指名するために特別エージェントを派遣する。
重要なことに、MAVISは厳密なvetoプロトコルを備えた \textbf{Logic-aware Debate} メカニズムを採用しており、エージェントが協調的に論理ミスマッチを行い、詳細な検証のために `Controversial'' 候補のコンパクトなセットを特定する。
このエージェントワークフローは、フルライブラリ・トラバースの非効率性を効果的に回避する。
MSR-VTT、MSVD、ActivityNetの大規模な実験は、MAVISがタスク固有の微調整なしで競争性能を達成し、従来のデュアルエンコーダアプローチに代わるスケーラブルで解釈可能な代替手段を提供することを示した。
関連論文リスト
- PRIMA: Operational Patterns for Resilient Multi-Agent Research with Verifiable Identity and Convergent Feedback [0.0]
PRIMAは、複数時間にわたる協調型マルチエージェント研究システムとして運用されている。
主なコントリビューションは、生存可能な障害モードのための3つの運用パターンである。
グラフ同型ケーススタディは、生成されたアーティファクトのアーキテクチャ的クレームを根拠にしている。
論文 参考訳(メタデータ) (2026-05-23T23:27:46Z) - Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [127.64173950476702]
エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-05-03T19:13:11Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - EEA: Exploration-Exploitation Agent for Long Video Understanding [24.45791994592314]
ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解のロングフォーム化への現在のアプローチは、高密度な前処理による計算オーバーヘッドに悩まされるか、どちらかである。
セマンティックガイダンスを通じて探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
論文 参考訳(メタデータ) (2025-12-03T06:48:36Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。