論文の概要: ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents
- arxiv url: http://arxiv.org/abs/2606.18037v1
- Date: Tue, 16 Jun 2026 15:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.506877
- Title: ProvenanceGuard: Source-Aware Factuality Verification for MCP-Based LLM Agents
- Title(参考訳): ProvenanceGuard:MCP系LCM剤のソースアウェア・ファクチュアリティ検証
- Authors: Ander Alvarez, Santhiya Rajan, Samuel Mugel, Román Orús,
- Abstract要約: ProvenanceGuard は Model Context Protocol-grounded answer のソース認識検証ツールである。
答えを原子的クレームに分解し、ソース固有のエビデンスにルートする。
ブロック F1 0.802 とソース精度 0.858 over 260 のソース許容クレームを達成し、ソースブラインドベースラインを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool-using LLM agents increasingly use the Model Context Protocol (MCP) to answer from heterogeneous evidence sources, including search, APIs, databases, clinical records, and formulary tools. Standard factuality metrics usually test whether an answer is supported by pooled evidence, missing a provenance-sensitive failure mode: a claim may be supported somewhere while being attributed to the wrong source. We call this cross-source conflation. We introduce ProvenanceGuard, a source-aware verifier for MCP-grounded answers. It consumes captured MCP traces with stable tool IDs, source IDs, and raw outputs; decomposes answers into atomic claims; routes claims to source-specific evidence; checks support with NLI and a token-alignment proxy; compares stated attribution with the routed source; and returns per-claim verdicts plus an answer-level allow/block decision. Blocked answers can be repaired with retrieval-augmented answer revision and re-verified. We evaluate on 281 medical-domain MCP-agent traces. A 266-trace adjudicated subset yields 2,325 LLM-assisted claim labels split by trace; 361 held-out labels are human-verified. On the 40-trace held-out split, ProvenanceGuard achieves block F1 0.802 and source accuracy 0.858 over 260 source-eligible claims, outperforming source-blind baselines that do not emit claim-to-source IDs. On a harder multi-source benchmark it reaches block F1 0.846, while source-plus-relation accuracy drops to 0.229, showing that exact source ownership remains difficult with semantically close sources. Repair-and-reverify resolves all blocked answers in the full trace set, often via conservative fallback. In 50 controlled clinical conflation probes, ProvenanceGuard detects all injected attribution swaps with no retained wrong attribution. These results show that source attribution is an independent axis for factuality verification in MCP-based agents.
- Abstract(参考訳): ツールを使用するLLMエージェントは、検索、API、データベース、臨床記録、公式ツールを含む異種エビデンスソースから回答するために、モデルコンテキストプロトコル(MCP)をますます利用している。
標準的な事実性メトリクスは、通常、解答がプールされたエビデンスによってサポートされているかどうかをテストし、証明に敏感な障害モードを欠いている。
これをクロスソース・コンフリレーション(cross-source conflation)と呼ぶ。
提案手法は,MPP-grounded answerのソース認識検証であるProvenanceGuardを紹介する。
取得したMCPトレースを安定したツールID、ソースID、生の出力で消費し、回答をアトミックなクレームに分解し、ソース固有のエビデンスをルートする。
ブロックされた回答は、検索強化された回答の修正と再検証によって修復することができる。
健常者281例について検討した。
266のトラス調整されたサブセットは、2,325 LLM補助クレームラベルをトレースで分割し、361のホールドアウトラベルを人間認証する。
40トレースのホールドアウトスプリットでは、ProvenanceGuardがブロックF1 0.802とソース精度0.858を260以上のソース認証可能なクレームで達成し、クレームからソースIDを出力しないソースブラインドベースラインを上回っている。
より厳しいマルチソースベンチマークではブロックF1 0.846に達し、ソース+リレーショナルな精度は0.229に低下し、セマンティックに近いソースでは正確なソースオーナシップが困難であることを示す。
repair-and-reverifyは、完全なトレースセット内のすべてのブロックされた回答を、保守的なフォールバックを通じて解決する。
ProvenanceGuardは50の制御された臨床試験プローブにおいて、間違った帰属を伴わない全ての帰属スワップを検出する。
これらの結果から,MCPをベースとしたエージェントにおいて,情報源属性は事実性検証の独立軸であることが示唆された。
関連論文リスト
- Verified Misguidance: Measuring Structural Citation Failures in Search-Augmented LLMs [8.721564756242431]
CITETRACEは、ユーザクエリから取得したソースから生成された回答まで、完全な引用チェーンをトレースするデータセットである。
我々は,意図的アライメント,ソース適合性,回答ソースの忠実度に基づいて各引用をスコアする3次元評価フレームワークを設計する。
プールの向こう側では、引用の30.6%がソースを歪めており、27.1%はドメイン不適切なソースから来ている。
論文 参考訳(メタデータ) (2026-05-27T14:54:05Z) - What Are We Actually Decoding? Source Attribution for Non-Invasive Brain-to-Language Retrieval [42.66754319854329]
我々は,刺激同期MEG-to-audio検索を監査フレームワークとして再放送した。
構造的ショートカット、ウィンドウレベルの刺激ロックされたエビデンス、ウィンドウ間のコンテキストアグリゲーションを使用します。
これらの結果は、脳から言語へのパフォーマンスは、単に報告されるのではなく、ソース属性であるべきだことを示唆している。
論文 参考訳(メタデータ) (2026-05-23T11:23:39Z) - Claim-Selective Certification for High-Risk Medical Retrieval-Augmented Generation [0.0]
混在した証拠は、ある主張を支持し、別の主張の条件を必要とし、第三の主張に矛盾する可能性がある。
我々は、クレーム選択応答を検証可能なクレームに検証し、回収された証拠に対して評価し、インテントを意識したセレクタによって完全な、部分的、紛争、棄却にマッピングする。
結果として生じるインターフェースは、アクションラベル予測と、混在する証拠の下でのエビデンスリンクされたクレーム選択を分離する。
論文 参考訳(メタデータ) (2026-05-21T03:29:50Z) - Pramana: A Protocol-Layer Treatment of Claim Verification in Autonomous Agent Networks [0.0]
確率的検証パターン(自己整合性投票、レビュアー LLM アンサンブル)は、人工物ではなく、判断を生成する。
Pramana は、ワイヤフォーマットの欠如を定義している。すべての連続エージェント出力は、タイプ付き ClaimAttestation でラップされ、4つの変種のうちの1つでラップされる。
プラマナは3つの対称性を再現したモデル(38,563個の到達可能な状態、0個の不変な違反)でTLCの下で徹底的に検証された。
論文 参考訳(メタデータ) (2026-05-19T17:00:33Z) - Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents [0.18762753243053634]
大規模言語モデル(LLM)は、数百のWebソースから情報を引用したレポートに合成するディープリサーチエージェントをパワーアップする。
現在のアプローチでは、信頼モデルが正確な自己引用、バイアスのリスク、あるいはソースアクセシビリティ、関連性、事実整合性を検証しない検索強化世代(RAG)を採用する。
本稿では,再現可能なASTルーブリックを用いてインライン引用を大規模に抽出し,評価する最初の情報源属性評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:46:45Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。