論文の概要: HIPIF: Hierarchical Planning and Information Folding for Long-Horizon LLM Agent Learning
- arxiv url: http://arxiv.org/abs/2606.10507v1
- Date: Tue, 09 Jun 2026 07:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.369566
- Title: HIPIF: Hierarchical Planning and Information Folding for Long-Horizon LLM Agent Learning
- Title(参考訳): HIPIF:LLMエージェント学習のための階層的計画と情報フォールディング
- Authors: Juncheng Diao, Zhicong Lu, Peiguang Li, Yongwei Zhou, Changyuan Tian, Qingbin Li, Rongxiang Weng, Jingang Wang, Xunliang Cai,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクにまたがる自律エージェントとして強力な能力を示している。
長期LLMエージェント学習のための階層的計画と情報フォールディング(HIPIF)を提案する。
HIPIFはエージェントをエンドツーエンドにトレーニングし、明示的なサブゴールの周りに長い水平実行を組織すると同時に、完了したサブゴール履歴を折り畳み、長いコンテキスト干渉を減らす。
- 参考スコア(独自算出の注目度): 51.95194664412812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have demonstrated strong capabilities as autonomous agents across a wide range of tasks, their performance often degrades in multi-turn long-horizon agentic tasks. Existing methods have made progress through fine-grained credit assignment to alleviate long-horizon sparse rewards and hierarchical reinforcement learning to decompose tasks and reduce long-term dependency. However, these methods still do not directly address long-context interference, in which continuously growing histories weaken the agent's ability to track the global task state and impair subsequent reasoning and decision-making. Inspired by the way humans handle complex tasks through subgoal decomposition and completed progress summarization, we propose Hierarchical Planning and Information Folding (HIPIF) for long-horizon LLM agent learning. HIPIF trains the agent end-to-end to organize long-horizon execution around explicit subgoals while folding completed subgoal histories to reduce long-context interference. Furthermore, to stabilize subgoal-based planning and execution, HIPIF combines hierarchical reflection and subgoal-oriented process rewards to guide subgoal generation, transition, and execution, without relying on costly auxiliary models or task-specific expert trajectories. Extensive experiments on three publicly available agentic benchmarks demonstrate the validity of our method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにまたがる自律エージェントとして強力な能力を示してきたが、その性能は、多ターンロングホライゾンエージェントタスクにおいて劣化することが多い。
既存の手法では、細粒度の信用割当により、長期の疎開報酬を軽減し、タスクを分解し、長期依存を減らす階層的強化学習が進められている。
しかしながら、これらの手法は、連続的に成長する歴史が、エージェントのグローバルなタスク状態の追跡能力を弱め、その後の推論や意思決定を損なうという、長いコンテキストの干渉に直接対処するものではない。
本研究では, 階層型計画情報形成(HIPIF)を長期LLMエージェント学習に適用する手法を提案する。
HIPIFはエージェントをエンドツーエンドにトレーニングし、明示的なサブゴールの周りに長い水平実行を組織すると同時に、完了したサブゴール履歴を折り畳み、長いコンテキスト干渉を減らす。
さらに、階層的なリフレクションとサブゴール指向のプロセス報酬を組み合わせることで、サブゴール生成、遷移、実行を、コストのかかる補助モデルやタスク固有の専門家の軌跡に頼ることなく、安定化させる。
3つの公開エージェントベンチマークによる大規模な実験により,本手法の有効性が示された。
関連論文リスト
- When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution [17.020655152761346]
LongActは、長期住宅業務における計画レベルの自律性を評価するために設計されたベンチマークである。
HoloMindは、DAGベースの長距離階層型プランナーを備えたVLM駆動のエージェントである。
論文 参考訳(メタデータ) (2026-05-14T07:47:53Z) - Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion [62.91968752955649]
本稿では,学習データよりも長い軌道計画を行うための,拡張可能な長期計画支援エージェントの課題に対処する。
より短いものを縫い合わせることで、より長い軌跡を反復的に生成する拡張法を提案する。
HM-ディフューザーは階層構造を用いてこれらの拡張軌道を訓練し、複数の時間スケールにわたるタスクを効率的に処理する。
論文 参考訳(メタデータ) (2025-03-25T22:52:46Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。