論文の概要: Coherence Under Commitment: Probing Generalization and Vacuous Memorization in LLM Logical Reasoning
- arxiv url: http://arxiv.org/abs/2606.21083v1
- Date: Fri, 19 Jun 2026 04:12:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:21:35.949297
- Title: Coherence Under Commitment: Probing Generalization and Vacuous Memorization in LLM Logical Reasoning
- Title(参考訳): コミット下のコヒーレンス:LLM論理推論における一般化と希少記憶の探索
- Authors: Noor Islam S. Mohammad, Mahmudul Hasan,
- Abstract要約: コヒーレンス・アンダー・コミット(CUC: Coherence Under Commitment)は、一貫性と決定性を共同で測定する二重クエリ評価パラダイムである。
CUC は,(1) コミットメントスコア $c(varphi) = p(varphi) + p(lnotvarphi)$ 決定的な結果に割り当てられた確率質量の定量化,(2) 正規化YES/NOログ確率によるテキストbf決定論的推論プロトコルによるサンプリング分散の排除,(3) コヒーレンス・コミットトレードオフをメトリクスに運用する3方向決定フレームワーク (True/False/Uncertain) の3つの革新に寄与する。
- 参考スコア(独自算出の注目度): 0.9023847175654603
- License:
- Abstract: Large language models (LLMs) deployed for logical reasoning in knowledge-intensive domains exhibit a subtle but critical failure: coherence can be vacuously achieved through systematic abstention. A model that withholds commitment to either entailment or refutation satisfies negation consistency while providing no utility. We introduce Coherence Under Commitment (CUC), a dual-query evaluation paradigm that jointly measures consistency and decisiveness. CUC contributes three innovations: (1) a commitment score $c(\varphi) = p(\varphi) + p(\lnot\varphi)$ quantifying probability mass allocated to decisive outcomes; (2) a \textbf{deterministic elicitation protocol} via normalized YES/NO log probabilities, eliminating sampling variance; and (3) a 3-way decision framework (True/False/Uncertain) operationalizing the coherence-commitment trade-off into metrics. Experiments on four open-weight LLMs (1B-3B) across 204 FOLIO examples expose a sharp frontier. Qwen2.5-3B achieves near-zero contradiction ($\mathbb{E}[v_{\mathrm{neg}}]{=}0.025$) but only $7.4\%$ coverage, while TinyLlama-1.1B reaches $79.4\%$ coverage with violations on every example. Coherence-only evaluation would rank the abstaining model first; CUC exposes this as vacuous, and the frontier generalizes to LogiQA~v2 ($ρ{=}0.97$). We argue that evaluation must report both coherence and non-vacuous commitment and release a toolkit for standardized assessment.
- Abstract(参考訳): 知識集約ドメインにおける論理的推論のために展開される大規模言語モデル(LLM)は、微妙ながら批判的な失敗を示す。
難読化や難読化へのコミットメントを保たないモデルは、実用性を提供しながら否定の一貫性を満足させる。
コヒーレンス・アンダー・コミット(CUC: Coherence Under Commitment)は、一貫性と決定性を共同で測定する二重クエリ評価パラダイムである。
CUC は、(1) コミットメントスコア $c(\varphi) = p(\varphi) + p(\lnot\varphi)$ 決定的な結果に割り当てられた確率質量の定量化、(2) 正規化された YES/NO ログのばらつきを排除して正規化された YES/NO ログ確率を経由する \textbf{deterministic elicitation Protocol} 、(3) コヒーレンス・コミットのトレードオフをメトリクスに運用する3方向決定フレームワーク(True/False/Uncertain)である。
204 FOLIO の4つのオープンウェイト LLM (1B-3B) 実験は、鋭いフロンティアを露呈する。
Qwen2.5-3Bは、ほぼゼロに近い矛盾($\mathbb{E}[v_{\mathrm{neg}}]{=}0.025$)を達成しているが、わずか7.4\%のカバレッジしか達成していない。
コヒーレンスのみの評価はまず吸収モデルにランク付けし、CUCはこれを空白として公開し、フロンティアはLogiQA~v2(ρ{=}0.97$)に一般化する。
我々は、評価はコヒーレンスと非空白のコミットメントの両方を報告し、標準化された評価のためのツールキットをリリースしなければならないと論じている。
関連論文リスト
- Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Measuring Evaluation-Context Divergence in Open-Weight LLMs: A Paired-Prompt Protocol with Pilot Evidence of Alignment-Pipeline-Specific Heterogeneity [1.253312107729806]
安全ベンチマークは、言語モデルが一度デプロイされたらどのように振る舞うかを示す証拠として、定期的に扱われるが、この推論は、振る舞いがプロンプトが評価のように見えるかどうかに依存する場合、脆弱である。
我々は、評価コンテキストのばらつきを、一定のタスクのフレーミングによって引き起こされる行動の観測可能な内部的変化として定義する。
パラフレーズ変動,ベンチマーク親しみ,およびフレーミング感度を制御しながら,オープンウェイトLLMで測定するペアプロンプトプロトコルを提案する。
論文 参考訳(メタデータ) (2026-05-07T14:23:31Z) - MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。