論文の概要: Decoupling Semantics and Logic: A Training-Free Coarse-to-Fine Pipeline for Video Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2606.07924v1
- Date: Sat, 06 Jun 2026 01:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.538015
- Title: Decoupling Semantics and Logic: A Training-Free Coarse-to-Fine Pipeline for Video Retrieval-Augmented Generation
- Title(参考訳): 意味論と論理のデカップリング:ビデオ検索・拡張生成のための訓練不要な粗結合パイプライン
- Authors: Jiaxin Dai, Zehang Wei, Jiamin Yan, Xiang Xiang,
- Abstract要約: 本稿では,Multimodal Retrieval (MAGMaR)によるマルチモーダル生成に関する第2回ワークショップのシステム記述について述べる。
言語間の長いビデオ理解,厳密なペルソナの定着,ゼロ・ハロシン化時間的接地といった重要な課題に対処するため,2段階のビデオRAGパイプラインを提案する。
我々のアーキテクチャは、認知的論理的推論から、モダリティを意識した分業を通じて意味的検索を戦略的に分離する。
- 参考スコア(独自算出の注目度): 5.263138429758972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our system description for the 2nd Workshop on Multimodal Augmented Generation via MultimodAl Retrieval (MAGMaR). Addressing the critical challenges of cross-lingual long-video comprehension, strict persona adherence, and zero-hallucination temporal grounding, we propose a fully training-free, two-stage cascaded Video RAG pipeline. Our architecture strategically decouples semantic retrieval from cognitive logical reasoning through a modality-aware division of labor. In the first stage, a high-recall semantic pre-fetching module employs dense retrieval using only high-fidelity visual summaries and global text descriptions, explicitly isolating noisy modalities (e.g., OCR and ASR) to maintain a pristine vector space. In the second stage, an Adaptive, Iterative, and Reasoning-based (A.I.R.) filtering agent, powered by a commercial Large Language Model (LLM), performs fine-grained cognitive reranking. The agent re-incorporates full multimodal contexts to enforce strict logical alignment with user personas, effectively pruning semantically similar but logically irrelevant candidates. Finally, a Prompt Sculpting mechanism constrains the generator to synthesize the distilled subset into strictly formatted JSON responses with exact chunk-level citations. Evaluated on the RAG track, our resource-aware approach shows exceptional precision in both information retrieval and persona-conditioned generation.
- Abstract(参考訳): 本稿では,Multimodal Retrieval (MAGMaR)によるMultimodal Augmented Generationの第2回ワークショップのシステム記述について述べる。
言語間の長いビデオ理解,厳密なペルソナの定着,ゼロ・ハロシン化の時間的基盤化といった重要な課題に対処し,フルトレーニングフリーの2段階ビデオRAGパイプラインを提案する。
我々のアーキテクチャは、認知的論理的推論から、モダリティを意識した分業を通じて意味的検索を戦略的に分離する。
第1段階では、ハイリコールセマンティックプレフェッチモジュールは、高忠実度ビジュアルサマリーとグローバルテキスト記述のみを使用して高密度検索を用い、ノイズモード(例えば、OCR、ASR)を明示的に分離し、プリスタンベクター空間を維持する。
第2段階では、適応的、反復的、および推論に基づく(A.I.R.)フィルタリングエージェントが商用のLarge Language Model (LLM)を動力として、きめ細かな認知的再分類を行う。
エージェントは、完全なマルチモーダルコンテキストを再編成し、ユーザペルソナと厳密な論理的アライメントを強制し、意味論的に類似しているが論理的に無関係な候補を効果的に決定する。
最後に、Prompt Sculptingメカニズムは、蒸留されたサブセットを正確なチャンクレベルの引用で厳密にフォーマットされたJSONレスポンスに合成することをジェネレータに制約する。
RAGトラックから評価すると,情報検索とペルソナ条件付き生成の双方において,資源認識のアプローチは例外的精度を示す。
関連論文リスト
- Latent Abstraction for Retrieval-Augmented Generation [4.6096940605642915]
既存のシステムは各ホップで自然言語クエリを生成することに依存している。
我々は,単一のLLMが符号化,検索,生成を同時に行う統一的なフレームワークである textbfLAnR (Latent Abstraction for RAG) を提案する。
論文 参考訳(メタデータ) (2026-04-20T06:26:13Z) - Unlocking Cognitive Capabilities and Analyzing the Perception-Logic Trade-off [29.48293757752123]
パーセプションとReasoning機能を統合したプログレッシブトレーニングパイプラインを提案する。
長文音声におけるテンポラルドリフトを同定し、拡張推論により音響タイムスタンプからモデルを非同期化する。
本報告では、アーキテクチャ、データ効率のトレーニングレシピ、頑健な認識と構造化推論のトレードオフの診断分析について詳述する。
論文 参考訳(メタデータ) (2026-02-27T06:56:50Z) - OMG-Agent: Toward Robust Missing Modality Generation with Decoupled Coarse-to-Fine Agentic Workflows [9.617220633655716]
textbfunderlineOmni-textbfunderlineModality textbfunderlineGeneration Agent (textbfOMG-Agent)について述べる。
論文 参考訳(メタデータ) (2026-02-04T02:25:40Z) - AffordanceGrasp-R1:Leveraging Reasoning-Based Affordance Segmentation with Reinforcement Learning for Robotic Grasping [37.71157510922818]
AffordanceGrasp-R1は、ロボットグリップのための推論駆動のアベイランスセグメンテーションフレームワークである。
AffordanceGrasp-R1は、ベンチマークデータセットにおける最先端(SOTA)メソッドよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-03T14:00:56Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。