論文の概要: Decodable but Not Faithful: Coupling Natural-Language Rationales to Programmatic Verifiers
- arxiv url: http://arxiv.org/abs/2606.21678v1
- Date: Fri, 19 Jun 2026 18:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:04:08.945366
- Title: Decodable but Not Faithful: Coupling Natural-Language Rationales to Programmatic Verifiers
- Title(参考訳): 疑わしいが忠実ではない: 自然言語をプログラム的検証に結合する
- Authors: Vatsal Ananthula, Adarsh Kumarappan,
- Abstract要約: 言語モデルはそれらの予測に対して妥当な有理性を生成することができるが、これらの説明はモデルの内部的推論を忠実に表すものではないかもしれない。
本稿では,インラインクレームを推論トレースに挿入するフレームワークである検証器結合推論を提案し,プログラム的検証器出力を予測するための補助整合ヘッドを訓練する。
整合性トレーニングは、検証情報を合理性表現から復調可能にしますが、復調性は忠実な生成を保証しません。
- 参考スコア(独自算出の注目度): 0.7212939068975618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can generate plausible rationales for their predictions, but these explanations may not faithfully represent the model's internal reasoning. We propose verifier-coupled reasoning, a framework that inserts inline claims into reasoning traces and trains an auxiliary consistency head to predict programmatic verifier outputs from rationale-span hidden states. The central finding is a gap between decodability and faithfulness: consistency training reliably makes verifier information decodable from rationale representations, but decodability does not guarantee faithful generation. In LeanCheck (formal theorem proving), rationale-only and proof-only pooling achieve perfect directional separation under counterfactual conflict. In KataGo (Go engine), commentary spans encode 10-way win-rate buckets at 81% accuracy. Yet in a code setting, the model achieves 98.6% coupling while its generated explanations remain unfaithful: fluent prose with correct structured claims, but describing unrelated algorithms; a controlled pretrained-vs-from-scratch comparison shows the gap is not capacity-driven. Synthetic activation patching confirms causal influence (73-89% vs. 31% baseline), FEVER reveals that evidence-only pooling isolates genuine evidence sensitivity at the cost of raw accuracy, and per-claim analysis shows that consistency loss disproportionately benefits fine-grained claims over binary ones. These results establish that consistency losses are effective diagnostics and representation-shaping tools, but not sufficient conditions for faithful reasoning.
- Abstract(参考訳): 言語モデルはそれらの予測に対して妥当な有理性を生成することができるが、これらの説明はモデルの内部的推論を忠実に表すものではないかもしれない。
本稿では,インラインクレームを推論トレースに挿入し,有理スパン隠れ状態からプログラムによる検証結果を予測するための補助整合ヘッドを訓練するフレームワークである検証器結合推論を提案する。
一貫性のトレーニングは、検証情報を合理的表現から確実に復号化させるが、復号化は忠実な生成を保証しない。
LeanCheck(形式的定理証明)では、論理のみ、証明のみのプーリングは、反実的衝突の下で完全な方向性の分離を実現する。
KataGo(Goエンジン)では、コメンタリーが10ウェイの勝率バケットを81%の精度でエンコードしている。
しかし、コード設定では、モデルが98.6%の結合を実現し、生成した説明は偽りのままである: 正しい構造化されたクレームを持つが、無関係なアルゴリズムを記述する、制御された事前訓練されたvs-from-scratch比較は、ギャップがキャパシティ駆動ではないことを示している。
合成活性化パッチングは因果的影響(73-89%対31%)を確認し、FEVERはエビデンスのみのプールは生の精度で真のエビデンス感度を分離することを示した。
これらの結果は、一貫性の喪失は効果的な診断と表現形成ツールであるが、忠実な推論には十分でないことを証明している。
関連論文リスト
- Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation [0.0]
モデルが生成した統計量を検出する能力を持っているが、マルチソース合成においてこの能力を採用していないことを示す。
具体的には、ソースの影響は、解析テキストの分布レジスタに応答するが、数値の有効性には反応しない方法論登録ゲートによって制御される。
論文 参考訳(メタデータ) (2026-06-03T20:15:48Z) - Do LLMs Game Formalization? Evaluating Faithfulness in Logical Reasoning [20.336209492846752]
形式検証は証明の正当性を保証するが、形式化の忠実性は保証しない。
私たちは、Lean 4の証明を生成する際に、フロンティアモデルがこのギャップを利用するかどうかを調査します。
統一世代における体系的なゲーミングの証拠は見つからない。
論文 参考訳(メタデータ) (2026-04-21T13:37:49Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models [5.733004743054914]
大規模な推論モデル(LRM)は、強い性能を示すが、しばしば妥当に聞こえるが、真の決定過程を反映しない合理性を生み出す。
2つのテスト可能な条件で定義された忠実性を推論するための公式な枠組みを導入する。
RFEvalは、7,186インスタンスのベンチマークであり、制御された出力レベルの対実的介入を通じて忠実さを調査する。
論文 参考訳(メタデータ) (2026-02-19T03:49:37Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。