論文の概要: SEAGym: An Evaluation Environment for Self-Evolving LLM Agents
- arxiv url: http://arxiv.org/abs/2606.17546v1
- Date: Tue, 16 Jun 2026 05:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.295227
- Title: SEAGym: An Evaluation Environment for Self-Evolving LLM Agents
- Title(参考訳): SEAGym:自己進化型LLMエージェントの評価環境
- Authors: Congjie Zheng, Chuanyi Xue, Bin Liang, Jun Yang, Changshui Zhang,
- Abstract要約: SEAGymは、トレーニング、検証、テスト、リプレイ、コストレコードにわたるエージェントの更新を測定するための評価環境である。
これはHarbor互換のベンチマークを、列車のバッチ、凍結された更新バリデーション、ホールドアウトIDとOOD転送ビュー、診断の再生、保存されたスナップショットとメトリックレコードを備えた動的自己進化タスクソースに変換する。
- 参考スコア(独自算出の注目度): 30.362414820430402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving LLM-based agents improve mainly by changing their agent harness: the structured execution layer around a base model, including prompts, memory, tools, middleware, runtime state, and the model-tool interaction loop. Existing evaluations often reduce this process to isolated task scores or a single sequential curve, obscuring whether an update produces reusable improvement, overfits recent tasks, increases cost, or harms older behavior. We introduce SEAGym, an evaluation environment for measuring agent harness updates across training, validation, test, replay, and cost records. SEAGym turns Harbor-compatible benchmarks into dynamic self-evolution task sources with train batches, frozen update-validation, held-out ID and OOD transfer views, replay diagnostics, and saved snapshot and metric records. Instantiating SEAGym on Terminal-Bench 2.0 and HLE, we compare ACE, TF-GRPO, and AHE under a shared epoch/batch protocol. The results show that these evaluation views provide complementary signals about the evolution process: frequent updates may fail to improve held-out performance, useful intermediate snapshots may collapse later, and source diversity and model backend can affect harness reliability.
- Abstract(参考訳): プロンプト、メモリ、ツール、ミドルウェア、ランタイム状態、モデルとツールの相互作用ループを含む、ベースモデルを中心とした構造化された実行層。
既存の評価は、このプロセスを独立したタスクスコアや単一のシーケンシャルカーブに還元することが多く、更新が再利用可能な改善を生み出すか、最近のタスクに過度に適合するか、コストを上昇するか、古い振る舞いを傷つけるかを無視する。
SEAGymは、トレーニング、検証、テスト、リプレイ、コストレコードにまたがってエージェントの更新を計測する評価環境である。
SEAGymは、Harbor互換のベンチマークを、列車のバッチ、凍結された更新バリデーション、ホールドアウトIDとOOD転送ビュー、診断の再生、スナップショットとメトリックレコードによる動的自己進化タスクソースに変換する。
Terminal-Bench 2.0 と HLE に SEAGym を組み込むと、ACE、TF-GRPO、AHE を共有エポック/バッチプロトコルで比較する。
頻繁な更新は保留性能の改善に失敗する可能性があり、有用な中間スナップショットは後で崩壊する可能性があり、ソースの多様性とモデルバックエンドは信頼性に影響を与える可能性がある。
関連論文リスト
- GRACE-DS: a Guarded Reward-guided Agent Correction Environment in Data Science [39.146761527401424]
GRACE-DSは、LSMを用いたオートMLエージェントの事前デプロイ評価のための、データサイエンスにおけるリワード誘導エージェント補正環境である。
エージェントをリアルなワークフローステージに公開し、計画やデータインスペクションから機能エンジニアリング、モデル開発、バリデーション、コード修正まで、最終提出まで。
これらの結果から、GRACE-DSはLLMベースのAutoMLエージェントが実運用環境下で機械学習を実行する能力を評価するための堅牢なプラットフォームとして確立された。
論文 参考訳(メタデータ) (2026-06-14T19:58:06Z) - Self-evolving LLM agents with in-distribution Optimization [60.05867547965365]
大規模言語モデル(LLM)は最近、複雑な環境で対話的なエージェントのための強力なコントローラとして登場した。
本稿では,自動プロセス・リワードラベリングとポリシー学習を統一するLDMエージェントの自己進化フレームワークであるQ-Evolveを提案する。
我々は,AlfWorld,WebShop,ScienceWorldの手法を評価し,Q-Evolveがサンプル効率,堅牢性,全体的なタスク性能において高いベースラインを達成していることを示す。
論文 参考訳(メタデータ) (2026-06-05T15:09:52Z) - StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents [67.03593791535786]
強化学習(Reinforcement Learning, RL)は、長期のデジタル環境においてGUIエージェントを改善するための有望なアプローチである。
この問題を軽減するため、最近の研究はプロセス・リワード・モデル(PRM)を導入している。
PRMは、グローバルマイルストーン検証やローカルステップレベルの評価を通じて、よりきめ細かいトレーニングフィードバックを提供する。
本稿では,GUIエージェントのためのエンティティ・スタンフロープロセス報酬モデルであるStainFlowを提案する。
論文 参考訳(メタデータ) (2026-06-05T08:17:28Z) - SEAL: Synergistic Co-Evolution of Agents and Learning Environments [11.720414165425256]
大きな言語モデル(LLM)エージェントは、インタラクションによってますます改善されている。
ほとんどの自己進化的手法は、政策または学習環境を独立に適応させる。
対話型ツール利用エージェントのためのクローズドループ共進化フレームワークSEALを提案する。
論文 参考訳(メタデータ) (2026-05-23T06:41:31Z) - PACE: Two-Timescale Self-Evolution for Small Language Model Agents [7.324586777176562]
本研究では,凍結型小言語モデル (SLM) が資源制約下で有効な自己進化エージェントとして機能するかどうかを考察する。
PACE(Prompt And Control Logic Evolution)は,低リスクのプロンプト改善と高リスクの制御論理更新を協調する2段階のフレームワークである。
論文 参考訳(メタデータ) (2026-05-21T20:42:06Z) - AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation [71.49152943451328]
我々は,AJ-Benchベンチマークを導入し,ドメイン検索,データシステム,グラフィカルユーザインタフェースの3つの領域にまたがるエージェント・アズ・ア・Judgeを評価する。
実験ではLLM-as-a-Judgeベースラインよりも一貫したパフォーマンス向上を示し、エージェントベースの検証においてかなりオープンな課題を明らかにした。
論文 参考訳(メタデータ) (2026-04-20T13:23:38Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - MARBLE: Multi-Agent Reasoning for Bioinformatics Learning and Evolution [1.6489796571958972]
バイオインフォマティクスモデルのための実行安定型自律モデル改良フレームワークMARBLEを紹介する。
MARBLEは、複数の改良サイクルにわたる強力なベースラインよりも持続的なパフォーマンス改善を実現している。
フレームワークレベルの分析は、構造化された議論、バランスのとれたエビデンスの選択、そしてパフォーマンスに基づくメモリが、安定的で繰り返し可能なモデルの進化に不可欠であることを示している。
論文 参考訳(メタデータ) (2026-01-20T17:10:47Z) - AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文 参考訳(メタデータ) (2026-01-08T05:49:01Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。