論文の概要: OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.17628v1
- Date: Tue, 16 Jun 2026 07:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.335141
- Title: OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation
- Title(参考訳): OPD-Evolver---------------------------------------------------------------------------
- Authors: Guibin Zhang, Xun Xu, Yanwei Yue, Zikun Su, Wangchunshu Zhou, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: メモリは、自己進化エージェントの標準的な基盤になっているが、その経験を維持することは、それを通して進化する方法を学ぶことと同じではない。
OPD-Evolver(英語版)は、政策上の自己蒸留を通じて、そのようなエージェントを進化させる緩やかな共進化フレームワークである。
- 参考スコア(独自算出の注目度): 71.57258488733974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memory has become a standard substrate for self-evolving agents, yet retaining experience is not the same as learning how to evolve through it. Existing memory agents can store trajectories, retrieve reflections, or accumulate skills, but often lack the holistic competence to select useful experience, act on it, write reusable knowledge, and maintain a growing repository. We introduce OPD-Evolver, a slow-fast co-evolution framework that cultivates such an agent evolver through on-policy self-distillation. In the fast loop, OPD-Evolver interacts with a four-level memory hierarchy to read, use, write, and maintain experience for rapid test-time evolution. In the slow loop, outcome-calibrated memory attribution and privileged hindsight distill these four abilities into the deployable policy. Across multi-domain benchmarks, OPD-Evolver surpasses memory systems such as ReasoningBank by up to 11.5%, and training-based methods such as Skill0 by ~5.8%. Further analysis shows that OPD-Evolver internalizes high-value experience and memory management, enabling OPD-Evolver-9B to challenge giant counterparts such as Qwen3.5-397B-A17B and Step-3.5-Flash, pointing beyond memory-augmented agents toward genuinely qualified agent evolvers.
- Abstract(参考訳): メモリは、自己進化エージェントの標準的な基盤になっているが、その経験を維持することは、それを通して進化する方法を学ぶことと同じではない。
既存のメモリエージェントは、トラジェクトリを格納したり、リフレクションを検索したり、スキルを蓄積したりできるが、有用なエクスペリエンスを選択し、実行し、再利用可能な知識を書き、成長するリポジトリを維持するための全体的な能力に欠けることが多い。
OPD-Evolver(英語版)は、政策上の自己蒸留を通じて、そのようなエージェントを進化させる緩やかな共進化フレームワークである。
高速ループでは、PD-Evolverは4段階のメモリ階層と相互作用し、高速なテスト時間進化のための読み取り、使用、書き込み、および保守を行う。
遅いループでは、結果校正されたメモリ属性と特権付き後見がこれらの4つの能力をデプロイ可能なポリシーに蒸留する。
マルチドメインベンチマーク全体で、PD-EvolverはReasoningBankのようなメモリシステムを最大11.5%、Skill0のようなトレーニングベースのメソッドを約5.8%上回っている。
さらに分析したところ、OPD-Evolverは高価値体験とメモリ管理を内部化し、PD-Evolver-9BはQwen3.5-397B-A17BやStep-3.5-Flashといった巨大エージェントと競合し、メモリ拡張されたエージェントを真に修飾されたエージェントの進化に向けて指している。
関連論文リスト
- Dynamic Mixture of Latent Memories for Self-Evolving Agents [57.20419419302731]
MoLEMは、動的混合(MoE)に基づく潜在メモリフレームワークの生成混合物である。
我々は、数学、科学、コードドメインにまたがる連続的な学習シーケンスに基づいて、このフレームワークを訓練する。
連続学習を完了した後、Vanilla事前学習ベースラインよりも平均精度を10.40%向上させる。
論文 参考訳(メタデータ) (2026-05-21T03:35:10Z) - EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents [80.59925936278162]
本稿では,自己進化型メモリアーキテクチャであるEvolveMemについて述べる。
このクローズループの自己進化はAutoResearchプロセスを実現している。システムは自力で独自のアーキテクチャ上で反復的な研究サイクルを実行し、手動構成のチューニングを置き換える。
論文 参考訳(メタデータ) (2026-05-13T17:12:44Z) - Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration [34.98544095454037]
エージェントに固有のメタ進化能力を持つように訓練し、自然に目に見えない環境について学習する。
推論時、エージェントは外部からの報酬や人間の指示を必要としない。
このネイティブ進化へのシフトは、WebVoyagerとWebWalkerの20%のパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2026-04-20T11:54:20Z) - Mem$^2$Evolve: Towards Self-Evolving Agents via Co-Evolutionary Capability Expansion and Experience Distillation [42.09919382465098]
大規模言語モデルによるエージェントは、経験を蓄積したり、動的に新しい資産を創り出すことで自己進化することができる。
既存のフレームワークは通常、これらの2つの進化過程を分離して扱う。
本稿では,共進化的能力拡張と経験蒸留という新しいパラダイムを導入する。
論文 参考訳(メタデータ) (2026-04-13T02:44:54Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - MemEvolve: Meta-Evolution of Agent Memory Systems [66.09735157017558]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。
MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。
EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (2025-12-21T14:26:14Z) - FLEX: Continuous Agent Evolution via Forward Learning from Experience [54.796367711967754]
大規模言語モデル(LLM)によって駆動される自律エージェントは、推論と問題解決に革命をもたらしたが、訓練後も静的のままである。
我々は,LLMエージェントが蓄積された経験を通して継続的に進化することを可能にする勾配のない学習パラダイムであるFLEX(Forward Learning with Experience)を紹介する。
論文 参考訳(メタデータ) (2025-11-09T16:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。