論文の概要: Training the Orchestrator: A Supervised Approach to End-to-End PDDL Planning with LLM Agents
- arxiv url: http://arxiv.org/abs/2606.21740v1
- Date: Fri, 19 Jun 2026 20:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:37:35.472861
- Title: Training the Orchestrator: A Supervised Approach to End-to-End PDDL Planning with LLM Agents
- Title(参考訳): オーケストラの訓練: LLMエージェントを用いたエンドツーエンドPDDLプランニング
- Authors: Rajesh Mangannavar, Zachary Coalson, Pranay Dugar, Prasad Tadepalli,
- Abstract要約: 本稿では,外部検証器が有効計画の終了を認証したことを示す改良軌道からオーケストラを訓練するHALO(Hybrid Agent-Learned Orchestrator)を提案する。
各ステップでフロンティア LLM を促すアプローチや,エポゾドの粗末な報酬からオーケストレータを学習するアプローチとは違って,検証がすでに強力なガイダンスを提供しています。
PlanBench、Natural Plan、および古典的な計画ベンチマーク全体において、HALOはGPT-5-miniのベースラインを成功率で一致または超えている。
- 参考スコア(独自算出の注目度): 7.954705422811771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating natural-language planning intent into verified plans is a longstanding challenge: people communicate goals in language, while classical planners require formal PDDL specifications. Recent agentic frameworks bridge this gap by orchestrating a pool of specialized repair agents inside a verifier-checked refinement loop, but the orchestrator at the centre is itself a prompted frontier LLM, paying a frontier-LLM API call at every refinement step. We present HALO (Hybrid Agent-Learned Orchestrator), which trains the orchestrator from refinement trajectories that an external verifier has certified as ending in valid plans, across 11 PDDL domains. HALO pairs a small QLoRA-tuned policy with three hardcoded rules for trivially decidable selections, and operates over an expanded 21-agent action space. Unlike approaches that prompt a frontier LLM at every step or learn an orchestrator from sparse end-of-episode rewards, our key observation is that the verifier already provides strong guidance: every accepted trajectory is a sequence of demonstrably correct (state, agent) decisions, directly usable as supervision. Across PlanBench, Natural Plan, and classical planning benchmarks, HALO matches or exceeds the GPT-5-mini prompted baseline on success rate, sits within three percentage points of the stronger Gemini-3-Flash prompted baseline, reduces orchestration cost by more than an order of magnitude (\$0.18 to \$0.004 per task against GPT-5-mini, roughly 45$\times$ cheaper; roughly 15$\times$ cheaper than Gemini-3-Flash), and cuts total LLM calls per episode by 40 to 50 percent.
- Abstract(参考訳): 自然言語の計画意図を検証された計画に翻訳することは、人々が言語で目標を伝達するのに対して、古典的なプランナーは正式なPDDL仕様を必要とする、という長年の課題である。
最近のエージェントフレームワークは、検証済みリファインメントループ内で特別な修復エージェントのプールを編成することでこのギャップを埋めるが、中央のオーケストレータはそれ自体はフロンティアLLMであり、すべてのリファインメントステップでフロンティアLLM APIコールを支払う。
本稿では,11個のPDDLドメインにまたがって,外部検証器が有効計画の終了を認証したことを示す改良軌道からオーケストラを訓練するHALO(Hybrid Agent-Learned Orchestrator)を提案する。
HALOは、簡単に決定可能な選択のための3つのハードコードされたルールとQLoRAで調整された小さなポリシーをペアリングし、拡張された21エージェントアクション空間上で動作する。
あらゆるステップでフロンティアのLSMを促したり、オーケストレータの粗末な報酬からオーケストレータを学ぶアプローチとは違って、我々の重要な観察では、検証者がすでに強力なガイダンスを提供しており、全ての軌道は実証可能な正しい(状態、エージェント)決定のシーケンスであり、監督として直接使用することができる。
PlanBench、Natural Plan、そして古典的な計画ベンチマーク全体において、HALOは成功率のGPT-5-miniの基準値と一致または超過し、より強力なGemini-3-Flashの基準値の3ポイント以内に収まり、GPT-5-miniに対する1タスク当たり0.18ドルから0.004ドルまでのオーケストレーションコストを1桁以上削減し、約45$\times$、約15$\times$Gemini-3-Flashよりも安い。
関連論文リスト
- SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks [65.14594927081983]
SciOrchは、科学的な推論のためにフロンティアLSMを編成する軽量8Bモデルを訓練するフレームワークである。
SGI-ReasoningとScientificsの最初の試験にまたがる240回の試験セットでは、SciOrchの平均精度は56.66%に達した。
また、一般的なマルチエージェントメソッドのAPIコストの半分未満で、SGIとSFEの両方で最高の精度を実現する。
論文 参考訳(メタデータ) (2026-06-14T15:45:34Z) - 3SPO: State-Score-Supervised Policy Optimization for LLM Agents [25.01222941080024]
動的状態スコア監視による後段ポリシー最適化を行う新しいRLアルゴリズムである textbf State-Score-Supervised Policy Optimization (3SPO) を提案する。
ALFWorld と WebShop の実験では、Qwen2.5-1.5B/7B-Instruct で 3SPO は ALFWorld で$+22.6%、WebShop で$+15.6$ で GRPO を一貫して上回っている。
論文 参考訳(メタデータ) (2026-06-08T14:26:05Z) - Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。
ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。
エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文 参考訳(メタデータ) (2026-03-26T07:14:31Z) - Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation [1.2832858109291982]
大型言語モデル(LLM)は、古典的なシンボリックな手法と共に実行可能なプランナーとして機能する。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineを紹介する。
102国際計画コンペティション(IPC)Blocksworldインスタンスに対して,一様180秒の予算で4つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-03-06T09:16:49Z) - Hierarchical LLM-Based Multi-Agent Framework with Prompt Optimization for Multi-Robot Task Planning [0.9453554184019106]
マルチロボットタスクプランニングでは、自然言語命令を実行可能なアクションに分解する必要がある。
PDDLプランナーは厳格な保証を提供するが、曖昧な任務や長期の任務を扱うのに苦労する。
高速な最適化が可能な階層型マルチエージェントLSMベースのプランナを提案する。
論文 参考訳(メタデータ) (2026-02-25T08:08:26Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。