論文の概要: MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation
- arxiv url: http://arxiv.org/abs/2606.17449v1
- Date: Tue, 16 Jun 2026 03:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.230561
- Title: MODE-RAG: Manifold Outlier Diagnosis and Energy-based Retrieval-Augmented Generation Evaluation
- Title(参考訳): MODE-RAG:manifold Outlier 診断とエネルギーベース検索型生成評価
- Authors: Zehang Wei, Jiaxin Dai, Jiamin Yan, Xiang Xiang,
- Abstract要約: M-RAG(Multimodal Retrieval-Augmented Generation, M-RAG)は幻覚, 因果形成, 梅毒の感受性が高い。
VFE(Vari Free Energy)により駆動されるマルチエージェントシステムMODE-RAGと,動的ゲート介入のための内部注意状態を提案する。
本システムは幻覚率と論理的生成を効果的に低減し,M-RAGシステムのロバスト性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 5.263138429758972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Retrieval-Augmented Generation (M-RAG) enhances Large Vision-Language Models, it remains highly susceptible to cross-modal hallucinations, causal fabrications, and sycophancy. Furthermore, existing mitigation pipelines often face an intervention paradox: static rules tend to unnecessarily disrupt accurate generations, whereas leaving the multi-modal reasoning completely unguided allows existing mismatches to cascade into severe logical fabrications. To quantify and mitigate these hallucinations, we propose a Multi-Agent system, MODE-RAG, driven by Variational Free Energy (VFE) and internal attention states to dynamically gate interventions. High-risk queries are routed to five stage-specific agents, integrating Monte Carlo Tree Search (MCTS) for rigorous causal derivation and logit perturbations to penalize sycophancy. Dedicated Correction and Overseer agents ensure formatting stability and perform post-hoc factual verification. To objectively evaluate our approach, we introduce ModeVent, a challenging subset derived from the MultiVent dataset. Extensive experiments indicate that our system effectively reduces hallucination rates and logical fabrication, significantly improving the robustness of M-RAG systems.
- Abstract(参考訳): M-RAG(Multimodal Retrieval-Augmented Generation)は、大規模視覚ランゲージモデルを強化するが、クロスモーダル幻覚、因果生成、およびサイコファンシーの影響を受けやすい。
さらに、既存の緩和パイプラインは、しばしば介入のパラドックスに直面している: 静的ルールは、必要以上に正確な世代を破壊しがちであるが、マルチモーダルな推論は完全に誘導されていないため、既存のミスマッチは、深刻な論理的構成にカスケードすることができる。
本稿では,これらの幻覚を定量化し緩和するために,変動自由エネルギー(VFE)と内部注意状態によって動的にゲート介入を行うマルチエージェントシステム,MODE-RAGを提案する。
リスクの高いクエリは5つのステージ固有のエージェントにルーティングされ、モンテカルロ木探索(MCTS)を統合して厳格な因果関係の導出と、サイコファンシーをペナライズするロジット摂動を行う。
Dedicated Correction と Overseer エージェントはフォーマットの安定性を確保し、ポストホックな事実検証を行う。
このアプローチを客観的に評価するために、MultiVentデータセットから派生した挑戦的なサブセットであるModeVentを導入する。
広汎な実験により,本システムは幻覚率と論理的生成を効果的に低減し,M-RAGシステムのロバスト性を大幅に向上させることが示された。
関連論文リスト
- MM-Snowball: Evaluating and Mitigating Hallucination Snowballing in Multimodal Multi-Turn Dialogue [98.58433916474472]
MM-Snowballは,対話内における幻覚雪球の診断のための最初のベンチマークである。
本稿では,この劣化に対処するために,コンフリクト・アウェア・ビジュアル・リクティフィケーション(CAVR)を提案する。
論文 参考訳(メタデータ) (2026-05-30T08:53:34Z) - MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing [18.35295672031847]
MAVENは、LLMを明示的な役割分離を通じて意図的な推論に変換するように設計されたフレームワークである。
MAVEN は GEMINI-3.1-Pro などの潜在推論モデルより一貫して優れている。
MAVENは完全にモデルに依存しず、強力で伝達可能な推論ブースターとして機能する。
論文 参考訳(メタデータ) (2026-05-08T12:11:08Z) - Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction [49.96701537295129]
LVLM(Large Vision-Language Models)は、モーダルなタスク間で大きな成功を収めてきたが、幻覚によって妨げられている。
既存の方法は幻覚を緩和するが、しばしば生成行動を変化させ、結果として出力が短くなり、トークンの分布がシフトする。
幻覚緩和のための制御および選択的な潜伏介入を行う効果的なプラグアンドプレイフレームワークであるMESAを提案する。
論文 参考訳(メタデータ) (2026-04-09T07:31:27Z) - Adaptive Guidance for Retrieval-Augmented Masked Diffusion Models [60.25003813232697]
本稿では,Masked Diffusion Models (MDMs) のトレーニング自由適応ガイダンスフレームワークとして,適応検索型Masked Diffusion (ARAM) を提案する。
ARAMは、検索した文脈によって誘導される分布シフトのSNR(Signal-to-Noise Ratio)に従って、雑音発生時の誘導スケールを校正する。
複数の知識集約型QAベンチマークの実験は、ARAMが競争力のあるRAGベースラインよりも全体的なQA性能を改善することを示している。
論文 参考訳(メタデータ) (2026-03-18T12:54:50Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - MONICA: Real-Time Monitoring and Calibration of Chain-of-Thought Sycophancy in Large Reasoning Models [8.790366364290065]
大規模推論モデル(LRM)は、モデルがユーザーの誤った信念と一致し、独立した推論を維持するよりも誤った情報に従う傾向にある、幻想的な行動に苦しむ。
LRM sycophancyを緩和するには、このsycophancyが推論軌道中にどのように現れるかを監視する必要がある。
そこで本研究では,モデル推論におけるサイコファンシーの監視と緩和を行う新しいモニタ誘導フレームワークであるMONICAを提案する。
論文 参考訳(メタデータ) (2025-11-09T15:18:58Z) - MRFD: Multi-Region Fusion Decoding with Self-Consistency for Mitigating Hallucinations in LVLMs [57.931366749890906]
MRFD (Multi-Region Fusion Decoding) は、領域間の一貫性をモデル化することにより、現実のグラウンド化を改善する訓練自由復号法である。
MRFDは、クロスアテンションを用いて正常な領域を特定し、それぞれの初期応答を生成し、Jensen-Shannon Divergenceに基づいて信頼性ウェイトを算出する。
論文 参考訳(メタデータ) (2025-08-14T01:17:39Z) - A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。
しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。
本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T11:38:01Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。