論文の概要: TrustMargin: Training-Free Arbitration between Parametric Memory and Retrieved Evidence in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.08397v1
- Date: Sun, 07 Jun 2026 01:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.082047
- Title: TrustMargin: Training-Free Arbitration between Parametric Memory and Retrieved Evidence in Large Language Models
- Title(参考訳): TrustMargin: 大規模言語モデルにおけるパラメトリックメモリと検索エビデンスの間のトレーニング不要な調停
- Authors: Jingyan Xu, Hong Shi, Yi Shan, Penghui Liu, Yunhao Bai, Ningyuan Li, Xueyang Liu,
- Abstract要約: 我々は、このポストジェネレーションコンフリクトを回答レベルのソース仲裁として研究する。
DirectとRAGが同じ凍結モデルから回答すると、どのソースを信頼するかを判断します。
本稿では,既存の2つの候補をモデル自身の可能性で評価する,トレーニングフリーのプラグイン・アンド・プレイ調停層TRUSTMARGINを提案する。
- 参考スコア(独自算出の注目度): 10.379427318055434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models answer knowledge-intensive questions using both parametric memory and retrieved evidence, but neither source is uniformly reliable. Retrieval can fill knowledge gaps, yet distracting passages may override correct closed-book answers. We study this post-generation conflict as answer-level source arbitration: given Direct and RAG answers from the same frozen model, decide which source to trust. We propose TRUSTMARGIN, a training-free, plug-and-play arbitration layer that scores the two existing candidates with the model's own likelihoods. It combines a parametric-prior margin, which tests whether memory accepts the retrieved answer, with an evidence-binding margin, which discounts passage-only salience and measures question-specific support. TRUSTMARGIN selects between Direct and RAG without fine-tuning, external judges, or additional generation. Across 2WIKIMQA and CWQA with three LLaMA scales, TRUSTMARGIN consistently improves over Direct generation and BM25-RAG, recovers part of the Direct/RAG oracle gap, and generalizes to multiple training-free RAG pipelines.
- Abstract(参考訳): 大規模言語モデルはパラメトリックメモリと検索された証拠の両方を用いて知識集約的な質問に答えるが、どちらの情報源も一様ではない。
Retrievalは知識ギャップを埋めることができますが、気を散らすパスは、正しいクローズドブックの回答をオーバーライドします。
我々は、このポストジェネレーション紛争を回答レベルのソース仲裁として研究し、同じ凍結モデルからのダイレクトとRAGの回答を与えられた場合、どのソースを信頼するかを決定する。
本稿では,既存の2つの候補をモデル自身の可能性で評価する,トレーニングフリーのプラグイン・アンド・プレイ調停層TRUSTMARGINを提案する。
これは、メモリが検索された回答を受け入れるかどうかを検査するパラメトリック優先マージンと、パスのみのサリエンスを割引し、質問固有のサポートを測定するエビデンス結合マージンを組み合わせたものである。
TRUSTMARGINは、微調整、外部判断、追加生成なしでDirectとRAGを選択できる。
3つのLLaMAスケールを持つ2WIKIMQAとCWQA全体で、TRUSTMARGINは、ダイレクトジェネレーションとBM25-RAGを継続的に改善し、ダイレクト/RAGのオラクルギャップの一部を回復し、複数のトレーニング不要なRAGパイプラインに一般化する。
関連論文リスト
- BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation [8.129733777508434]
大規模言語モデル(LLM)は、検索強化世代(RAG)を通して事実性を高めることができる
モデルのみの回答が信頼できる場合には、すべてのクエリにRAGを適用する必要はない。
我々は、しきい値ペアを目標リスクレベルで認証する BalanceRAG を開発した。
論文 参考訳(メタデータ) (2026-05-19T16:38:55Z) - Reinforce to Learn, Elect to Reason: A Dual Paradigm for Video Reasoning [17.78591587115095]
Reinforce to Learn, Elect to Reason (RLER) は、信頼できる回答から証拠を得るために学習を分離する二重パラダイムである。
RLERはすべてのベンチマークで最先端を達成し、ベースモデルよりも平均6.3%改善されている。
論文 参考訳(メタデータ) (2026-04-06T03:01:52Z) - Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - R3-RAG: Learning Step-by-Step Reasoning and Retrieval for LLMs via Reinforcement Learning [60.17074283370798]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)と統合し、事実の正しさと幻覚を高める。
我々は、 $textbfR$einforcement Learning を用いて LLM に $textbfR$eason と $textbfR$etrieve を段階的に学習させる $textbfR3-RAG$ を提案する。
論文 参考訳(メタデータ) (2025-05-26T12:25:37Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。