論文の概要: ForEx: A Formal Verification Framework for Explainable Reasoning in Logical Fallacy Detection and Annotation
- arxiv url: http://arxiv.org/abs/2606.21867v1
- Date: Sat, 20 Jun 2026 04:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 21:55:14.447919
- Title: ForEx: A Formal Verification Framework for Explainable Reasoning in Logical Fallacy Detection and Annotation
- Title(参考訳): ForEx: 論理的誤り検出とアノテーションにおける説明可能な推論のための形式的検証フレームワーク
- Authors: Pei-Cing Huang, Chienyu Liu, Chan Hsu, Ci-Siang Chen, Pei-Ju Lee, Yihuang Kang,
- Abstract要約: 大規模な言語モデルをLean4に変換するフレームワークであるForExを提案する。
ForExは、翻訳された論理式が、元の自然言語引数の論理的妥当性ではなく、符号化された前提の下で導出可能であるかどうかを検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluations of Large Language Models (LLMs) on logical fallacy detection focus on predicted labels, but do not establish whether those labels are supported by the reasoning the models provide. We propose ForEx (Formal Verification for Explainable Reasoning), a framework that translates LLM-generated explanations into Lean4 and verifies whether the translated rationale is derivable under encoded premises, not the logical validity of the original natural language argument. To distinguish prediction outcomes from the formal status of the supporting reasoning, we introduce the LLM Argument Verification Matrix, which separates label consistency from formal verification status. Experiments on LOGIC-Climate show that over 90% of LLM outputs can be translated into formal reasoning chains that pass verification, while agreement with human annotations remains around 20%. These results expose a systematic gap between formal derivability and label agreement, a distinction invisible to prediction-based metrics. ForEx moves LLM evaluation beyond label correctness toward machine-checkable analysis of formalized reasoning chains.
- Abstract(参考訳): 現在,Large Language Models (LLMs) の予測ラベルに対する論理的誤り検出に対する評価は行われているが,それらのラベルがモデルが提供する理由によってサポートされているかどうかは定かではない。
本稿では,LLMによる説明をLean4に変換するフレームワークであるForEx(Formal Verification for Explainable Reasoning)を提案する。
予測結果と支持推論の形式的状態とを区別するために,ラベルの一貫性を形式的検証状態から分離するLLMargument Verification Matrixを導入する。
LOGIC-Climateの実験では、LLM出力の90%以上が検証に合格する正式な推論チェーンに変換可能である一方で、人間のアノテーションとの合意は約20%である。
これらの結果から,形式的導出可能性とラベル合意の体系的なギャップが明らかとなった。
ForEx は LLM の評価をラベルの正しさを超えた形式化された推論チェーンの機械チェック可能な解析へ移行させる。
関連論文リスト
- Position: Logical Soundness is not a Reliable Criterion for Neurosymbolic Fact-Checking with LLMs [6.916679603940271]
いくつかのニューロシンボリックシステムは、自然言語を論理式に変換するために大きな言語モデル(LLM)を用いて主張を検証する。
このようなアプローチは、論理的に健全な結論と人間が通常行う推論の体系的な相違により、構造的に誤解を招く主張を検出するのに失敗する、と我々は主張する。
論文 参考訳(メタデータ) (2026-04-05T16:48:57Z) - LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse [0.18268488712787334]
大規模言語モデル(LLM)は、大規模に教育対話を自動的にラベル付けし分析するために、ますます多くデプロイされている。
本研究では,LLMが生成した推論がモデル自身の予測の正確性を予測するのに有効かどうかを検討する。
授業の対話から30,300人の教師の発話を分析し,複数の最先端LPMでラベル付けし,指導的移動構造とそれに伴う推論を行った。
論文 参考訳(メタデータ) (2026-02-10T14:38:13Z) - Uncovering Hidden Correctness in LLM Causal Reasoning via Symbolic Verification [56.51953062869371]
DoVerifier は、因果表現が与えられた因果グラフから導出可能であるかどうかをdo-calculus と probability theory の規則を用いてチェックする記号検証器である。
因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果的因果
論文 参考訳(メタデータ) (2026-01-29T03:22:58Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。