論文の概要: EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2606.13681v2
- Date: Wed, 17 Jun 2026 04:10:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.104251
- Title: EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments
- Title(参考訳): EvoArena: 動的環境におけるロバストLLMエージェントの追跡メモリ進化
- Authors: Jundong Xu, Qingchuan Li, Jiaying Wu, Yihuai Lan, Shuyue Stella Li, Huichi Zhou, Bowen Jiang, Lei Wang, Jun Wang, Anh Tuan Luu, Caiming Xiong, Hae Won Park, Bryan Hooi, Zhiyuan Hu,
- Abstract要約: EvoArenaは、端末、ソフトウェア、ソーシャルドメイン間でのプログレッシブアップデートのシーケンスとして環境変化をモデル化するベンチマークスイートである。
EvoMemは、メモリの進化を構造化された更新履歴として記録するパッチベースのメモリパラダイムである。
- 参考スコア(独自算出の注目度): 100.23277774720928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents have achieved strong performance on a wide range of benchmarks, yet most evaluations assume static environments. In contrast, real-world deployment is inherently dynamic, requiring agents to continually align their knowledge, skills, and behavior with changing environments and updated task conditions. To address this gap, we introduce EvoArena, a benchmark suite that models environment changes as sequences of progressive updates across terminal, software, and social domains. We further propose EvoMem, a patch-based memory paradigm that records memory evolution as structured update histories, enabling agents to reason about environmental evolution through changes in their memory. Experiments show that current agents struggle on EvoArena, achieving an average accuracy of 39.6% across evolving terminal, software, and social-preference domains. EvoMem consistently improves performance, yielding an average gain of 1.5% on EvoArena and also improving standard benchmarks such as GAIA and LoCoMo by 6.1% and 4.8%. Beyond individual tasks, EvoMem further improves chain-level accuracy by 3.7% on EvoArena, where success requires completing a consecutive sequence of related evolutionary subtasks. Mechanistic analysis shows that EvoMem improves evidence capture in the memory, indicating better preservation of complete evolving environment states. Our results highlight the importance of modeling evolution in both evaluation and memory for reliable agent deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、幅広いベンチマークで高いパフォーマンスを達成しているが、ほとんどの評価では静的環境を想定している。
対照的に、現実世界のデプロイメントは本質的に動的であり、エージェントは自身の知識、スキル、振る舞いを環境の変化やタスク条件の更新と継続的に整合させる必要がある。
このギャップに対処するために、EvoArenaというベンチマークスイートを紹介します。これは、環境変化を端末、ソフトウェア、社会ドメイン間でのプログレッシブな更新シーケンスとしてモデル化するベンチマークスイートです。
さらに,メモリの更新履歴としてメモリの進化を記録するパッチベースのメモリパラダイムであるEvoMemを提案する。
実験によると、現在のエージェントはEvoArenaで苦労しており、進化する端末、ソフトウェア、社会基準ドメインの平均精度は39.6%である。
EvoMemは一貫してパフォーマンスを改善し、EvoArenaでは平均1.5%向上し、GAIAやLoCoMoなどの標準ベンチマークも6.1%向上した。
個々のタスクを超えて、EvoMemはさらにチェーンレベルの精度を3.7%向上させ、成功には関連する進化的なサブタスクの連続的なシーケンスを完了する必要がある。
メカニスティック分析により、EvoMemはメモリ内のエビデンスキャプチャを改善し、完全に進化する環境状態の保存性を向上することが示された。
本結果は,信頼性のあるエージェント配置のための評価とメモリの両方において,モデリングの進化の重要性を強調した。
関連論文リスト
- Harnessing Agentic Evolution [32.567492765277855]
エージェント進化は、プログラム、イテレーション、科学的ソリューションを改善するための強力なパラダイムであり、候補を反復的に生成し、評価し、フィードバックを使って将来の探索を導く。
既存の手法は通常、モジュラーだが剛性のある固定手設計の手順や、フィードバックを柔軟に統合する汎用エージェントとしてインスタンス化される。
AEvoはメタエージェントがこの状態を観察し、次の候補を直接提案することでではなく、将来の進化を制御するプロシージャやエージェントコンテキストを編集することによって機能する。
論文 参考訳(メタデータ) (2026-05-13T17:45:16Z) - EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents [80.59925936278162]
本稿では,自己進化型メモリアーキテクチャであるEvolveMemについて述べる。
このクローズループの自己進化はAutoResearchプロセスを実現している。システムは自力で独自のアーキテクチャ上で反復的な研究サイクルを実行し、手動構成のチューニングを置き換える。
論文 参考訳(メタデータ) (2026-05-13T17:12:44Z) - AVO: Agentic Variation Operators for Autonomous Evolutionary Search [38.64857334672555]
エージェント変分演算子(エージェント変分演算子、AVO)は、古典的な進化探索の固定突然変異、クロスオーバー、手動設計を置き換える進化変分演算子である。
我々は、NVIDIA Blackwell (B200) 上でAIにおいて最も積極的に最適化されたカーネルターゲットのうち、注目されている AVO を評価する。
AVOは、変化を、現在の系統、ドメイン固有の知識ベース、実行フィードバックを参照できるセルフ指向のエージェントループとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-25T16:55:04Z) - The World Won't Stay Still: Programmable Evolution for Agent Benchmarks [44.36372545284675]
LLMベースのエージェントは、環境とのインタラクション、データクエリ、マルチターンプロセスでのツールの呼び出しによって、ユーザの要求を満たす。
既存のベンチマークのほとんどは、固定されたスキーマとツールセットを持つ静的環境を前提としており、現実世界の進化的な性質を無視し、エージェントの環境変化に対する堅牢性を前提としている。
本稿では,環境進化をプログラム可能なグラフベースのフレームワークProEvolveを提案する。
論文 参考訳(メタデータ) (2026-03-06T04:56:18Z) - Evolutionary Generation of Multi-Agent Systems [49.47969796873096]
大規模言語モデル (LLM) ベースのマルチエージェントシステム (MAS) は複雑な推論、計画、ツール拡張タスクを強く約束する。
EvoMASは構造化構成生成としてMAS生成を定式化する。
EvoMASは、人間の設計したMASと以前の自動MAS生成方法の両方でタスク性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-06T09:01:35Z) - Position: Agentic Evolution is the Path to Evolving LLMs [56.733933092220845]
この制限に対処するには、新たなスケーリング軸進化が必要です。
既存の展開時適応手法では、障害を診断し、持続的な改善を生み出すために必要な戦略的機関が欠如している。
論文 参考訳(メタデータ) (2026-01-30T22:15:58Z) - EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience [44.734653745434834]
本稿では,ネイティブコンピュータ利用エージェントモデルであるEvoCUAを紹介する。
静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己持続的な進化サイクルに統合する。
EvoCUAは以前の最高のオープンソースモデルであるOpenCUA-72Bを大きく上回っている。
論文 参考訳(メタデータ) (2026-01-22T11:36:43Z) - MemEvolve: Meta-Evolution of Agent Memory Systems [66.09735157017558]
自己進化型メモリシステムは、大型言語モデル(LLM)ベースのエージェントの進化パラダイムを前例のない形で再構築している。
MemeEvolveは、エージェントの経験的知識とメモリアーキテクチャを共同で進化させるメタ進化フレームワークである。
EvolveLabは、12の代表的なメモリシステムをモジュール設計空間に蒸留する、統一された自己進化型メモリである。
論文 参考訳(メタデータ) (2025-12-21T14:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。