論文の概要: Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2606.09371v1
- Date: Mon, 08 Jun 2026 11:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.95042
- Title: Capability-Aligned Hierarchical Learning for Tool-Augmented LLMs
- Title(参考訳): ツール強化LLMの能力適応型階層学習
- Authors: Haotong Yang, Ting Long, Yi Chang,
- Abstract要約: ツール学習により、LCMは外部ツールを起動してタスクを達成できる。
高レベルのポリシーは、グローバルな計画とタスクを管理可能なサブタスクに分解する。
低レベルのポリシーは、これらのサブタスクを解決するためのツールの呼び出しに重点を置いている。
- 参考スコア(独自算出の注目度): 20.296164157293497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool learning enables LLMs to invoke external tools to accomplish tasks. Prior studies have demonstrated the effectiveness of a hierarchical structure: a high-level policy handles global planning and decomposes tasks into manageable sub-tasks, and a low-level policy focuses on invoking tools to solve these sub-tasks. However, these works typically optimize the high-level and low-level policies separately, leading to planner-executor misalignment and limiting LLM performance on tool-use tasks. In this paper, we propose a method called Capability-Aligned Hierarchical Learning (CAHL), which leverages RLVR to jointly optimize both policies, enabling better alignment between the high-level planner and the low-level executor. Experiments on constrained tool-use benchmarks (API-Bank and BFCL) and an open-ended environment (Bamboogle) demonstrate the effectiveness of CAHL.
- Abstract(参考訳): ツール学習により、LCMは外部ツールを起動してタスクを達成できる。
先行研究は階層構造の有効性を実証している: ハイレベルポリシーはグローバルな計画処理を行い、タスクを管理可能なサブタスクに分解し、低レベルポリシーはこれらのサブタスクを解決するためのツールの呼び出しに焦点を当てている。
しかしながら、これらの作業は通常、高レベルのポリシーと低レベルのポリシーを別々に最適化し、プランナーと実行者のミスアライメントと、ツール使用タスクにおけるLLMパフォーマンスの制限につながる。
本稿では、RLVRを利用して両ポリシーを協調的に最適化し、高レベルプランナと低レベルエグゼキュータとの整合性を向上する機能付き階層学習(CAHL)手法を提案する。
制約付きツール使用ベンチマーク(API-BankとBFCL)とオープンエンド環境(Bamboogle)の実験はCAHLの有効性を実証している。
関連論文リスト
- Deconstructing Spatial Complexity: Hierarchical Decomposition for LLM Spatial Reasoning [15.510513857489416]
本稿では,LLM空間推論における階層的タスク分解の新しい手法を提案する。
本手法は,ナビゲーション,計画,戦略ゲームなどの空間的タスクにおけるLLM性能を大幅に向上させる。
この研究は、現実世界のアプリケーションにおけるLLMの道を開いた。
論文 参考訳(メタデータ) (2026-05-27T08:26:57Z) - HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。
サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T15:49:56Z) - Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。
本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。
我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文 参考訳(メタデータ) (2024-12-29T03:34:53Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。