論文の概要: Know Your Limits : On the Faithfulness of LLMs as Solvers and Autoformalizers in Legal Reasoning
- arxiv url: http://arxiv.org/abs/2606.16118v2
- Date: Fri, 19 Jun 2026 01:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.826265
- Title: Know Your Limits : On the Faithfulness of LLMs as Solvers and Autoformalizers in Legal Reasoning
- Title(参考訳): 限界を知る : 法理推論におけるソルバーとオートフォーマライザとしてのLCMの忠実さについて
- Authors: Olivia Peiyu Wang, Sanna Wong-Toropainen, Daneshvar Amrollahi, Ryan Bai, Tashvi Bansal, Arush Garg, Leilani H. Gilpin,
- Abstract要約: 大規模言語モデル(LLM)は推論タスクにおいて高い性能を達成するが、それが忠実な論理的推論や近似を反映しているかどうかは不明だ。
本稿では, LLM分類, LLMに基づく推論, および解法に基づく形式推論の3つのパラダイムを比較して検討する。
我々の再注釈は、実用的法的解釈と厳密な形式的含意の間の体系的かつ測定可能なギャップを明らかにしている。
- 参考スコア(独自算出の注目度): 2.1108097398435337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong performance on reasoning tasks, but whether this reflects faithful logical inference or heuristic approximation remains unclear. We study this question in legal entailment by comparing three paradigms, including pure LLM classification, LLM-based Formal Reasoning, and solver-based Formal Reasoning using the Z3 SMT solver, on a re-annotated subset of ContractNLI across five LLMs. Our re-annotation reveals a systematic and measurable gap between pragmatic legal interpretation and strict formal entailment, where a substantial proportion of legally sound inferences are not formally grounded without additional unstated assumptions. While introducing formal structure improves accuracy, with LLM-based Formal Reasoning achieving the highest benchmark performance, we show that this gain does not imply faithful reasoning. We identify three recurring failure modes: scope laundering, where LLMs report solver-inconsistent classifications without executing the underlying formal reasoning, producing conclusions that appear logically grounded but are not; implicit constraint blindness, where LLMs overlook logical constraints present in formal representations; and program synthesis failures, where LLMs generate incorrect Z3 code despite structured prompting. Critically, scope laundering persists across all models, raising serious concerns about the faithfulness of LLM-based formal reasoning as a proxy for symbolic execution. These results reveal a fundamental gap between benchmark accuracy and logical faithfulness.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクにおいて高い性能を達成するが、それが忠実な論理的推論やヒューリスティック近似を反映しているかどうかは不明だ。
本研究では,Z3 SMTソルバを用いたLLM分類,LLMに基づく形式推論,および解法に基づく形式推論の3つのパラダイムを,5つのLLMにまたがるContractNLIの再注釈付きサブセット上で比較することにより,法的な含意について検討する。
我々の再注釈は、プラグマティックな法的解釈と厳密な形式的含意の間の体系的かつ測定可能なギャップを明らかにしている。
フォーマルな構造を導入することで精度が向上する一方,LDMをベースとしたフォーマル推論は最高のベンチマーク性能を達成できた。
LLMは形式的推論を行なわずに解決不能な分類を報告し、論理的に根拠があるように見える結論を導出する、暗黙的な制約ブラインドネス(LLMが形式的表現に存在する論理的制約を無視する)、プログラム合成失敗(LLMが構造的プロンプトにもかかわらず誤ったZ3コードを生成する)、の3つの繰り返し失敗モードを識別する。
批判的に、スコープ洗浄は全てのモデルにわたって継続し、象徴的実行のプロキシとしてのLLMベースの形式推論の忠実性に対する深刻な懸念を提起する。
これらの結果から,ベンチマーク精度と論理忠実度の間には根本的なギャップがあることがわかった。
関連論文リスト
- CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。
CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。
回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文 参考訳(メタデータ) (2026-02-23T18:06:15Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning [11.842866992683158]
既存のLLMベースのシステムは、表面レベルのテキスト解析に優れるが、原理的合理性に必要な保証は欠如している。
本稿では,LSM エージェントと SMT ソルバ支援法則を組み合わせた新しいフレームワーク L4M を紹介する。
我々のシステムは、GPT-o4-mini、DeepSeek-V3、Claude 4、最先端の法務AI証明など、先進的なLCMを超えている。
論文 参考訳(メタデータ) (2025-11-26T04:05:06Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations [13.485604499678262]
自然言語推論(NLI)における自然言語説明の役割
近年の研究では、大言語モデル(LLM)と定理証明器(TP)の相互作用が、NLI説明の有効性の検証と改善に役立つことが示されている。
本稿では,自己形式化時の意味喪失を軽減するための戦略について検討する。
論文 参考訳(メタデータ) (2025-05-30T06:38:39Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment [53.17596274334017]
我々は,LLMの詳細な推論パターンの正確さを,その正しい出力の裏側で評価した。
実験により、言語生成結果が正しそうであっても、LLMが法的な判断に用いた推論パターンのかなりの部分は、誤解を招く論理や無関係な論理を表す可能性があることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Preference Consistency in Large Language Models [31.558429029429863]
大規模言語モデル(LLM)は、信頼できる意思決定システムをサポートするために予測可能で信頼性が高いと期待されている。
本研究では、より信頼性の高いLLMシステムを構築するための基本的な要件として、論理的選好整合性を検討する。
一貫性の向上はLLM駆動論理ベースのアルゴリズムの性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使用して、現実世界のクレームを取り入れた最初のクレーム検証ベンチマークであるRECVを作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。