論文の概要: Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments
- arxiv url: http://arxiv.org/abs/2606.06960v1
- Date: Fri, 05 Jun 2026 06:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.599306
- Title: Tree-of-Experience: A Structured Experience-Management Solution for Self-Evolving Agents under Low-Repetition and Implicit-Reward Environments
- Title(参考訳): ツリー・オブ・エクスペリエンス:低繰り返し・インシシット・リワード環境下での自己進化型エージェントのための構造化されたエクスペリエンス・マネジメント・ソリューション
- Authors: Zihao Deng, Yining Zhu, Leiming Wang, Jingfei Lu, Junbo Wang, Chuncheng Ran, Yu Yang, Dixuan Yang, Jikun Shen,
- Abstract要約: 暗黙の報酬を伴う低繰り返しタスク、過去の経験を再利用するのが難しく、フィードバックが遅れ、うるさい、そして結果レベル。
本研究では,エージェント体験の整理,検索,検証,更新を行う構造化経験管理手法であるTree-of-Experience(ToE)を提案する。
- 参考スコア(独自算出の注目度): 7.400600301289333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience-based self-evolution is crucial for LLM agents, but existing benchmarks often assume explicit goals, stable task patterns, and clear feedback. We study a more challenging setting: low-repetition tasks with implicit rewards, where past experience is difficult to reuse and feedback is delayed, noisy, and outcome-level. We introduce \textsc{FinEvolveBench}, a temporally controlled benchmark for financial sentiment prediction that links daily news-driven predictions to future excess returns. We further propose Tree-of-Experience (ToE), a structured experience-management method that organizes, retrieves, validates, and updates agent experience. Experiments show that general-purpose experience mechanisms do not consistently outperform no-experience baselines, while ToE achieves stronger overall performance. These results highlight the importance of structured experience management for self-evolving agents in implicit-reward environments.
- Abstract(参考訳): LLMエージェントにはエクスペリエンスベースの自己進化が不可欠だが、既存のベンチマークでは明確な目標、安定したタスクパターン、明確なフィードバックが想定される。
暗黙の報酬を伴う低繰り返しタスク、過去の経験を再利用するのが難しく、フィードバックが遅れ、うるさい、そして結果レベル。
我々は、日々のニュース駆動予測と将来の過剰リターンを関連付ける、時間的に制御された金融感情予測のベンチマークである「textsc{FinEvolveBench}」を紹介した。
さらに,エージェントエクスペリエンスの整理,検索,検証,更新を行う構造化エクスペリエンス管理手法であるTree-of-Experience (ToE)を提案する。
実験によると、汎用的な体験メカニズムは経験のないベースラインを一貫して上回り、ToEは全体的なパフォーマンスを向上する。
これらの結果は、暗黙の逆転環境における自己進化型エージェントの構造化経験管理の重要性を強調した。
関連論文リスト
- Rethinking Experience Utilization in Self-Evolving Language Model Agents [51.10420305280499]
自己進化剤は過去の相互作用から経験を蓄積し再利用することで改善する。
本稿では,自己進化型エージェントの重要設計次元としての利用経験について考察する。
論文 参考訳(メタデータ) (2026-05-08T02:48:49Z) - Internalizing Agency from Reflective Experience [20.650609947690196]
LEAFEは、リカバリエージェンシーをリフレクティブエクスペリエンスから内部化するフレームワークである。
ベースモデルよりも一貫してPass@1を改善し、結果駆動ベースラインよりも高いPass@kを実現している。
論文 参考訳(メタデータ) (2026-03-17T17:50:47Z) - Large Language Model Agents Are Not Always Faithful Self-Evolvers [84.08646612111092]
自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。
本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
論文 参考訳(メタデータ) (2026-01-30T01:05:15Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - ExGRPO: Learning to Reason from Experience [82.83309610498446]
検証可能な報酬(RLVR)からの強化学習は、大規模言語モデルの推論能力を改善するための新たなパラダイムである。
標準的なオンライントレーニングは、1回の更新後にロールアウトエクスペリエンスを捨て、計算の非効率性と不安定性につながる。
本稿では,まず,経験価値の効果的な指標であるロールアウトの正しさとエントロピーを考察する。
論文 参考訳(メタデータ) (2025-10-02T17:31:30Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。