論文の概要: CREDENCE: Claim Reduction for Decomposition & Enhanced Credibility -- Semantic Metrics and Convergence Analysis
- arxiv url: http://arxiv.org/abs/2606.19819v1
- Date: Thu, 18 Jun 2026 05:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.672154
- Title: CREDENCE: Claim Reduction for Decomposition & Enhanced Credibility -- Semantic Metrics and Convergence Analysis
- Title(参考訳): CREDENCE: 分解と信頼性向上のためのクレーム削減 -- セマンティックメトリクスと収束分析
- Authors: Phuong Huu Vu Tran, Thuan Duc Mai, Bach Xuan Le,
- Abstract要約: 複合文を原子的検証可能なクレームに分解することは、信頼性の高い自動事実チェックの前提条件である。
従来の作業は、パラフレーズ的クレームの分解品質を体系的に過小評価するトークンオーバーラップ(Jaccard)メトリクスに依存していました。
両欠点に対処するクレーム分解および評価フレームワークであるクレデンスについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decomposing compound sentences into atomic, verifiable claims is a prerequisite for reliable automated fact-checking. Prior work has relied on token-overlap (Jaccard) metrics that systematically underestimate decomposition quality for paraphrastic claims, and has lacked formal termination analysis for the repair loop. We present Credence, a revised claim decomposition and evaluation framework addressing both shortcomings. Our contributions are: (1) Semantic-F1: we use BGE-large cosine similarity fidelity metric that resolves Jaccard's penalisation and improves downstream fact-checking accuracy; (2) Convergence theorems: we formally characterise four properties of the repair pipeline, establishing that rule-based repair is monotone and finitely terminating under an oracle parser assumption; LLM-based self-repair is provably non-monotone and requires an early-exit guard; (3) Three evaluation benchmarks spanning social-media, encyclopaedic, and news domains for cross-domain generalisation measurement; (4) Multi-model benchmarking across four decomposer models (3.8B-12B) and a closed API model. Experiments on SocialClaimSplit, WikiSplitBench, and ClaimDecompBench show that Semantic-F1 outperforms Jaccard-F1 by +15-32pp. EPR ranges from 0.94 to 1.00 on SocialClaimSplit and WikiSplitBench, while ClaimDecompBench includes lower base EPR cases (down to 0.824) due to harder news-domain constructions, and rule-repair reduces the Atomicity Violation Rate (AVR) by 47-100% relative to the base model without degrading fidelity.
- Abstract(参考訳): 複合文を原子的検証可能なクレームに分解することは、信頼性の高い自動事実チェックの前提条件である。
従来の作業は、パラフラスティッククレームの分解品質を体系的に過小評価するトークンオーバーラップ(Jaccard)メトリクスに依存しており、修復ループの正式な終了分析を欠いていた。
両欠点に対処するクレーム分解および評価フレームワークであるクレデンスについて述べる。
Semantic-F1: BGE-large cosine similarity fidelity metricを使用してJaccardのペナル化を解決し、下流のファクトチェックの精度を向上させる 収束定理: 修復パイプラインの4つの特性を形式的に特徴付ける ルールベースの修復は単調で、オラクルパーサーの仮定の下で有限終了であると確立する LPMベースの自己修復は証明可能なノンモノトンであり、早期退避のガードを必要とする (3) ソーシャルメディア、百科事典、ニュースドメインにまたがる3つの評価ベンチマークは、クロスドメインの一般化測定のために、ソーシャルメディア、百科事典、ニュースドメインにまたがる3つの評価ベンチマーク (4) 4つのデコンポスタモデル(328B-12)とクローズドAPIモデルにまたがるマルチモデルベンチマーク。
SocialClaimSplit, WikiSplitBench, ClaimDecompBench の実験では、Semantic-F1 が Jaccard-F1 を +15-32pp で上回っている。
EPRはSocialClaimSplitとWikiSplitBenchの0.94から1.00の範囲で、ClaymDecompBenchはより厳しいニュースドメイン構造のために低レベルのEPRケース(0.824までダウン)を含み、ルール・リペアは基本モデルの信頼性を低下させることなくアトミック・ヴァイオレーション・レート(AVR)を47-100%削減する。
関連論文リスト
- A Family of Divergence Measures for Evaluating the Reconstruction Quality of Explainable Ensemble Trees [0.41292255339309664]
相関に基づくアプローチは、共起構造における系統的な不一致を検出するのに失敗する。
本稿では,合意・連想の区別に基づく統計的枠組みを提案する。
このフレームワークには、近似品質の異なる構造面をキャプチャする4つの補完的な尺度が含まれている。
論文 参考訳(メタデータ) (2026-05-19T09:56:04Z) - Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals [0.0]
本研究では,4つの行動不正パターン(P1-P4)の分類法を定式化し,事象間タイミング,バースト構造,マルチアカウントグラフモチーフ,速度ルールトリガ率について検討した。
我々は、IEEE-CIS Fraud DetectionとAmazon FraudデータセットでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルデータを持つ任意のドメインに拡張する。
論文 参考訳(メタデータ) (2026-04-13T19:36:00Z) - Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Guaranteeing Knowledge Integration with Joint Decoding for Retrieval-Augmented Generation [45.13215113490545]
GuarantRAGは、証拠統合から推論を明示的に分離するフレームワークである。
5つのQAベンチマークの実験では、GurantRAGは最大で12.1%精度が向上している。
論文 参考訳(メタデータ) (2026-04-09T09:52:21Z) - How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。
実際には、これは相関した推論パターンと同期された障害として現れます。
ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文 参考訳(メタデータ) (2026-04-08T23:32:06Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。