論文の概要: PrologMCP: A Standardized Prolog Tool Interface for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.14935v1
- Date: Fri, 12 Jun 2026 20:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.466053
- Title: PrologMCP: A Standardized Prolog Tool Interface for LLM Agents
- Title(参考訳): PrologMCP: LLMエージェントのための標準化されたPrologツールインターフェース
- Authors: Agnieszka Mensfelt, Adarsh Prabhakaran, Adrian Haret, Vince Trencsenyi, Kostas Stathis,
- Abstract要約: タスクに依存しないオープンソースのサーバであるPrologMCPを導入し、モデルコンテキストプロトコル(MCP)を通じてPrologをステートフルなツールとして公開する。
我々は,PrologMCPで強化されたホルマタイザー剤を標準および推論LDMに対して評価した。
- 参考スコア(独自算出の注目度): 4.416593559466468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier reasoning-tuned language models still fail on deductive tasks at depth, and the cost of improved performance through extended internal reasoning scales poorly. Symbolic delegation offers a complementary route: a language model translates the problem, while a solver performs the inference. However, current autoformalization pipelines for logic programming are typically bespoke integrations tied to particular tasks or agents. We introduce PrologMCP, a task-agnostic, open-source server that exposes Prolog as a stateful tool through the Model Context Protocol (MCP). Its compact tool interface, structured error reporting, and per-session isolation make the translate-run-inspect-repair loop a reusable primitive for MCP-capable agents. We evaluate a formalizer agent enhanced with PrologMCP against standard and reasoning LLMs (Claude Sonnet 4.6, GPT-4.1, and o4-mini) on two subsets of PARARULE-Plus: a general-purpose sample and a more challenging one targeting a specific failure mode of natural-language reasoning. On the general sample, the formalizer matches or exceeds reasoning LLMs (accuracy 1.00 vs.\ 1.00 / 0.998), with the largest gains over standard models (0.762 for GPT-4.1). On the challenging subset, the formalizer remains near-perfect (1.00 / 0.99) while reasoning LLMs drop to 0.95 / 0.94. These results suggest that delegating inference to Prolog via MCP is a robust and inspectable alternative to extended natural-language reasoning.
- Abstract(参考訳): 最前線の推論をチューニングした言語モデルは、深さの抑揚的なタスクでは依然として失敗し、内部推論の拡張によるパフォーマンス向上のコストは、不十分である。
言語モデルは問題を翻訳し、解法は推論を実行する。
しかしながら、ロジックプログラミングの現在のオートフォーマル化パイプラインは、通常、特定のタスクやエージェントに結びついているような統合である。
本稿では,タスクに依存しないオープンソースのサーバであるPrologMCPを紹介し,モデルコンテキストプロトコル(MCP)を通じてPrologをステートフルなツールとして公開する。
コンパクトなツールインターフェース、構造化エラーレポート、セッションごとの分離により、トランスレーショナル・ラン・インスペクション・リペア・ループはMPP対応エージェントにとって再利用可能なプリミティブとなる。
我々は、PARARULE-Plusの2つのサブセット(汎用サンプルと、自然言語推論の特定の障害モードをターゲットにしたより難しいもの)に対して、PrologMCPで強化された形式化剤(Claude Sonnet 4.6, GPT-4.1, o4-mini)を評価した。
一般的なサンプルでは、フォーミュラライザはLSM(精度1.00対0)と一致するか、あるいは超える。
標準モデル (0.762 for GPT-4.1) よりも最大のゲインを持つ 1.00 / 0.998 である。
挑戦的な部分集合では、フォーミュラライザはほぼ完全であり(1.00 / 0.99)、LSMは0.95 / 0.94に低下する。
これらの結果から,MPPによるPrologへの推論の委譲は,拡張された自然言語推論に代わる堅牢で検査可能な代替手段であることが示唆された。
関連論文リスト
- LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening [69.1037790901185]
現実的な状況シナリオから構築した中国の論理的推論ベンチマークLLMEval-Logicを提案する。
パイプラインのフォワードオーサとエキスパート-オーディット 自然言語アイテムは、参照の形式化とともに、Z3による注釈付き回答を検証し、自然言語から形式へのグレーディングのためのエキスパートルーブリックを構築し、クローズドループの逆行ワークフローを通じて選択されたアイテムを硬化させる。
論文 参考訳(メタデータ) (2026-05-19T09:40:29Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - MCP-Diag: A Deterministic, Protocol-Driven Architecture for AI-Native Network Diagnostics [0.08921166277011344]
本稿では,モデルコンテキストプロトコル(MCP)上に構築されたハイブリッド型ニューロシンボリックアーキテクチャであるMCP-Diagを紹介する。
本稿では,AI導入前の標準ユーティリティ(dig,ping,tratraroute)から厳密なスキーマに変換する決定論的翻訳層を提案する。
また,プロトコルレベルでのHuman-in-the-Loop(HITL)認証を強制する「Elicitation Loop」も導入する。
論文 参考訳(メタデータ) (2026-01-30T06:49:25Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Improving Symbolic Translation of Language Models for Logical Reasoning [14.474630644806723]
小さな言語モデル(LM)は、しばしば自然言語(NL)を一階述語論理(FOL)に変換するのに苦労する。
既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。
本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル動作の制御性を高めるインクリメンタル推論を提案する。
論文 参考訳(メタデータ) (2026-01-14T12:47:14Z) - Training Language Models to Use Prolog as a Tool [2.4305775926851334]
検証可能な計算のための外部ツールとしてPrologを使用するための言語モデルを微調整する。
この結果から,形式的検証システムにおける基礎モデル推論は,安全クリティカルなアプリケーションに対する信頼性と監査性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-08T10:39:38Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文 参考訳(メタデータ) (2024-08-28T18:25:35Z) - Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。
1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。
他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。
具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-11-16T11:26:21Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。