論文の概要: QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation
- arxiv url: http://arxiv.org/abs/2606.20227v1
- Date: Thu, 18 Jun 2026 13:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.882985
- Title: QMFOL: Benchmarking Large Language Model Reasoning via Quantifiable Monadic First-Order Logic Test Case Generation
- Title(参考訳): QMFOL: 定量化モナディック一階論理テストケース生成による大規模言語モデル推論のベンチマーク
- Authors: Xinyi Zheng, Ling Shi, Tianlong Yu, Yongxin Zhao, Lorenz Goette, Kailong Wang,
- Abstract要約: 本稿では,モナディックな一階述語論理推論タスクを生成するためのフレームワークQMFOLを提案する。
結合パターンと解離パターンを用いて形式的な論理構造を構築し、推論の深さ、幅、ラベルタイプ、およびイントラクタの正確な制御を可能にする。
QMFOLBenchは2880のインスタンスと960のコンフィギュレーションを、さまざまな論理的、セマンティックな側面で構成したベンチマークです。
- 参考スコア(独自算出の注目度): 7.42425368511977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have made significant progress in reasoning, particularly in deductive reasoning, which is crucial for high-stakes decision-making. As models improve, evaluation benchmarks should evolve to keep pace. However, existing benchmarks lack fine-grained control over logical complexity and struggle to balance semantic diversity with logical consistency. To address these issues, we propose QMFOL, an automated framework for generating monadic first-order logic reasoning tasks with quantifiable and controllable complexity. It constructs formal logical structures using conjunction and disjunction patterns, enabling precise control over reasoning depth, width, label types, and distractors. These structures are then translated into natural language via LLMs, with logical consistency ensured through round-trip verification using an external prover. Based on our framework, we build QMFOLBench, a benchmark comprising 2880 instances with 960 configurations across diverse logical and semantic dimensions. Evaluations on six large reasoning models (LRMs) and two LLMs show that performance degrades and computational overhead increases with rising logical complexity. Models perform better on True-labeled tasks than on False or Unknown ones, and exhibit sensitivity to semantic variation. Overall, QMFOL offers a scalable and reliable approach for constructing deductive reasoning benchmarks with controllable complexity, enabling more precise evaluation of reasoning capabilities in modern language models.
- Abstract(参考訳): 大規模言語モデル (LLMs) は推論、特に帰納的推論において大きな進歩を遂げており、これは高い意思決定に不可欠である。
モデルが改善されるにつれて、評価ベンチマークはペースを維持するために進化するべきである。
しかし、既存のベンチマークでは、論理的な複雑さに対するきめ細かい制御がなく、意味的な多様性と論理的な一貫性のバランスがとれていない。
これらの問題に対処するために、QMFOLを提案する。QMFOLは、定量化と制御可能な複雑さを伴う一階述語論理推論タスクを生成する自動化フレームワークである。
結合パターンと解離パターンを用いて形式的な論理構造を構築し、推論の深さ、幅、ラベルタイプ、およびイントラクタの正確な制御を可能にする。
これらの構造はLLMを通して自然言語に変換され、外部証明器を用いたラウンドトリップ検証によって論理的一貫性が保証される。
QMFOLBenchは2880のインスタンスと960のコンフィギュレーションを、さまざまな論理的、セマンティックな側面で構成したベンチマークです。
6つの大推理モデル (LRM) と2つの LLM の評価により, 性能劣化と計算オーバーヘッドが増大し, 論理的複雑性が増大することを示した。
モデルは False や Unknown よりもTrue-labeled タスクの方が優れており、セマンティックなバリエーションに敏感である。
全体として、QMFOLは、制御可能な複雑性を持つ推論ベンチマークを構築するためのスケーラブルで信頼性の高いアプローチを提供し、現代の言語モデルにおける推論能力をより正確に評価することを可能にする。
関連論文リスト
- From Ambiguity to Verdict: A Semiotic-Grounded Multi-Perspective Agent for LLM Logical Reasoning [16.381034926435074]
LogicAgentは、論理的な複雑さと意味的な複雑さを共同で扱うように設計された、セミオティックな2乗誘導フレームワークである。
既存のデータセットのセマンティックな単純さと論理的な複雑さを克服するために、大学レベルの難易度に達するベンチマークであるRepublicQAを導入する。
LogicAgentはRepublicQAで最先端のパフォーマンスを実現しており、強いベースラインよりも平均6.25%向上している。
論文 参考訳(メタデータ) (2025-09-29T13:31:22Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。