論文の概要: HOLMES: Evaluating Higher-Order Logical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2606.23238v1
- Date: Mon, 22 Jun 2026 12:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.182041
- Title: HOLMES: Evaluating Higher-Order Logical Reasoning in LLMs
- Title(参考訳): HOLMES: LLMにおける高次論理推論の評価
- Authors: Yucheng Wu, Jundong Xu, Mingzhen Ju, Yue Yu, Chenpeng Wang, Haoxuan Li, Liangming Pan,
- Abstract要約: HOLMES(Higher-Order Logic Meets real-world Explainable reasoning)は,LLMにおける高階記号推論のための最初の実世界ベンチマークである。
高階論理に基づいて構築されたHOLMESは、自然言語問題とHOLの形式化、基礎的真理解、検証可能な推論トレース、法と財務の細かい制御可能な推論要素をペアリングする。
実験によると、現在のLLMはHOLMESに苦戦しており、平均精度は50.64%、最高のモデルは59.54%である。
- 参考スコア(独自算出の注目度): 37.82259837085897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical reasoning is essential for reliable AI, yet existing benchmarks are largely first-order-logic-centric, focusing on object-level deduction over fixed predicates. This misses many realistic scenarios where models must reason over rules, predicates, functions, constraints, and decision procedures themselves. We introduce HOLMES (Higher-Order Logic Meets real-world Explainable Symbolic reasoning), the first real-world benchmark for higher-order symbolic reasoning in LLMs, containing 1379 instances. Built on higher-order logic, HOLMES pairs natural-language problems with HOL formalizations, ground-truth answers, verifiable reasoning traces, and fine-grained controllable reasoning factors across law and finance. Experiments show that current LLMs still struggle on HOLMES, with an average accuracy of only 50.64% and the best model reaching 59.54%. Our analyses further reveal that high final-answer accuracy can mask shortcut reasoning in conflict-resolution settings, while performance drops sharply under scope-conditioned and compositional reasoning. These findings identify higher-order symbolic reasoning as a key bottleneck for building reliable and verifiable LLMs. The project code and dataset are publicly available at https://github.com/wuyucheng2002/HOLMES.
- Abstract(参考訳): 論理推論は信頼性の高いAIには不可欠だが、既存のベンチマークは主に一階述語中心であり、固定述語よりもオブジェクトレベルの推論に重点を置いている。
これは、モデルがルール、述語、関数、制約、決定手順自体を推論しなければならない多くの現実的なシナリオを見逃している。
HOLMES(Higher-Order Logic Meets real-world Explainable Symbolic reasoning)は,LLMにおける高階記号推論のための最初の実世界ベンチマークであり,1379のインスタンスを含む。
高階論理に基づいて構築されたHOLMESは、自然言語問題とHOLの形式化、基礎的真理解、検証可能な推論トレース、法と財務の細かい制御可能な推論要素をペアリングする。
実験によると、現在のLLMはHOLMESに苦戦しており、平均精度は50.64%、最高のモデルは59.54%である。
さらに,コンフリクト分解条件下でのショートカット推論を,スコープ条件および構成的推論下では性能が急激に低下するのに対し,ファイナルアンサーの精度が高い場合には,ショートカット推論をマスクできることを示した。
これらの結果から,高次記号推論は信頼性と検証可能なLLM構築の鍵となるボトルネックであると考えられた。
プロジェクトコードとデータセットはhttps://github.com/wuyucheng2002/HOLMESで公開されている。
関連論文リスト
- Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach [11.400815134634016]
本稿では,忠実な論理的推論のためのニューロシンボリックアプローチであるLINAを紹介する。
LLMが命題論理抽出から洗練された論理推論への移行を自律的に行えるようにすることで、LINAは推論プロセスのレジリエンスを高める。
実証的な評価は、LINAが確立された命題論理フレームワークと従来のプロンプト技術の両方を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-10-29T06:38:46Z) - Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。