論文の概要: Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning
- arxiv url: http://arxiv.org/abs/2606.24428v1
- Date: Tue, 23 Jun 2026 11:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.911066
- Title: Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning
- Title(参考訳): 自己確認のトラップから逃れる:エージェント体験学習のための厳密に検証されたパラダイム
- Authors: Shiding Zhu, Yudi Qi, Yajie Wang, Jiaze Li, Chao Song, Yaorui Shi, Yibo Miao, Hanqi Gao, Kai Zhang,
- Abstract要約: 体験駆動の自己進化は、大規模言語モデル(LLM)エージェントがオープンワールドインタラクションを通じて改善する上で重要である。
既存の経験学習手法は主に単一エージェントループに依存しており、同じエージェントがタスクを実行し、結果を要約し、メモリの内容を決定する。
本研究では,信頼度の高い体験学習のためのエクササイズ・ディスティル・検証フレームワークであるEDVを提案する。
- 参考スコア(独自算出の注目度): 20.96920050192708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experience-driven self-evolution is critical for large language model (LLM) agents to improve through open-world interaction. However, existing experience learning methods mostly rely on single-agent loops, where the same agent executes tasks, summarizes outcomes, and determines memory content. This setup makes agents vulnerable to the Self-Confirmation Trap: wrong-but-self-consistent trajectories are misidentified as successful experience, leading to cumulative errors during retrieval and reuse. To address this issue, we propose EDV, an Execute-Distill-Verify framework for reliable experience learning. In the Execute stage, multiple heterogeneous agents explore the same task space in parallel to generate diverse candidate trajectories. In the Distill stage, a dedicated third-party agent comparatively analyzes these trajectories to produce candidate experiences, reducing executor-centric summarization bias. In the Verify stage, the execution group validates candidates via a consensus mechanism, and only approved experiences are written into shared or private memory. By decoupling the three stages, EDV transforms experience learning from isolated self-reflection into collaborative construction, filtering erroneous and noisy content before memory insertion. We evaluate EDV on three challenging long-horizon benchmarks: tau2-bench, Mind2Web and MMTB. Results show EDV consistently outperforms strong baselines, validating that reliable experience construction is essential for robust agent self-evolution. Our code is available at https://github.com/shidingz/EDV.
- Abstract(参考訳): 体験駆動の自己進化は、大規模言語モデル(LLM)エージェントがオープンワールドインタラクションを通じて改善する上で重要である。
しかし、既存の経験学習手法は主に単一エージェントループに依存しており、同じエージェントがタスクを実行し、結果を要約し、メモリ内容を決定する。
この設定により、エージェントは自己確認トラップに脆弱になる: 間違ったが一貫性のあるトラジェクトリは、成功した経験として誤識別され、検索と再利用の間に累積的なエラーが発生する。
この問題に対処するため,我々は,信頼度の高い体験学習のためのエクユート・ディスティル・バリデーション・フレームワークであるEDVを提案する。
Executeの段階では、複数の異種エージェントが並列に同じタスク空間を探索し、多様な候補軌道を生成する。
Distillの段階では、専用の第三者エージェントがこれらの軌跡を相対的に分析して候補体験を生成し、実行者中心の要約バイアスを減少させる。
Verifyの段階では、実行グループはコンセンサスメカニズムを通じて候補を検証し、承認されたエクスペリエンスのみが共有メモリまたはプライベートメモリに書き込まれる。
3つのステージを分離することにより、EDVは孤立した自己反射から協調的な構成へと学習を変換し、メモリ挿入の前に誤った、ノイズの多いコンテンツをフィルタリングする。
EDV は tau2-bench, Mind2Web, MMTB の3つの長軸ベンチマークで評価した。
その結果、EDVは強いベースラインを一貫して上回り、信頼性の高い体験構築が堅牢なエージェントの自己進化に不可欠であることを証明した。
私たちのコードはhttps://github.com/shidingz/EDV.comで公開されています。
関連論文リスト
- Rethinking Continual Experience Internalization for Self-Evolving LLM Agents [36.80404778289742]
原則レベルのエクスペリエンスは、インスタンスレベルのエクスペリエンスよりも耐久性が高いことが分かりました。
ステップワイドインジェクションは、中間的決定状態と経験を整合させることで、グローバルインジェクションを著しく上回る。
高品質な教師軌道上のオフ・ポリティカル・コンテクスト蒸留は、オン・ポリティカル・コンテクスト蒸留よりもかなり安定した訓練信号を提供する。
論文 参考訳(メタデータ) (2026-06-03T10:30:09Z) - DELTAMEM: Incremental Experience Memory for LLM Agents via Residual Trees [15.040112664020503]
既存の知識の漸進的な変化として,新たに獲得した経験がしばしばあると仮定して,残余体験を導入する。
経験記憶を2つの独立した残留木に整理するフレームワークであるDeltaMemを提案する。
多様なインタラクティブ環境における実験は、DeltaMemが既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-06-02T03:13:50Z) - EvoIR-Agent: Self-Evolving Image Restoration Agentic System via Experience-Driven Learning [39.60899845728349]
マルチモーダル大言語モデル(MLLM)による画像復元は,分解結合シナリオの有効性を示す。
トレーニングベースのメソッドは、固有の経験をパラメータに組み込んで、高い推論効率を実現するが、新しいツールや分解との互換性に欠ける。
EvoIR-Agentは、まず、トレーニング不要の画像復元エージェントの経験成分を体系的に定式化する。
論文 参考訳(メタデータ) (2026-05-21T09:14:25Z) - Rethinking Experience Utilization in Self-Evolving Language Model Agents [51.10420305280499]
自己進化剤は過去の相互作用から経験を蓄積し再利用することで改善する。
本稿では,自己進化型エージェントの重要設計次元としての利用経験について考察する。
論文 参考訳(メタデータ) (2026-05-08T02:48:49Z) - Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation [8.148658798211313]
閉ループ内における2トラックの知識蒸留と微粒な実行診断を密結合した非パラメトリック自己進化フレームワークを提案する。
このメソッドは、エクスペリエンスアンコリング、エクスペリエンス蒸留、ナレッジ駆動クローズドループという3つのフェーズに従っている。
Minecraft MCUの長距離スイートの実験では、静的検索に対する一貫した軌道が示されている。
論文 参考訳(メタデータ) (2026-03-13T16:23:34Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Large Language Model Agents Are Not Always Faithful Self-Evolvers [84.08646612111092]
自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。
本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
論文 参考訳(メタデータ) (2026-01-30T01:05:15Z) - Propose, Solve, Verify: Self-Play Through Formal Verification [75.44204610186587]
形式的検証が信頼性の高い正当性信号を提供する検証コード生成設定における自己再生について検討する。
本稿では,PSV(Propose, Solve, Verify)という,難易度の高い合成問題を生成可能なプロジェクタと,専門家の反復によって訓練された解決器を作成するための,形式的検証信号を用いた簡単なセルフプレイフレームワークを紹介する。
そこで本研究では,生成した質問数とトレーニングの繰り返し数によるパフォーマンスの尺度を示し,形式的検証と難易度を考慮した提案を,自己再生を成功させる上で不可欠な要素として同定する。
論文 参考訳(メタデータ) (2025-12-20T00:56:35Z) - A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation [59.88864205383671]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、ソースデータにアクセスすることなく、ターゲットドメインにソース学習モデルを適用するという現実的な課題に対処する。
既存のSFUDA手法は、ソースモデルの予測のみを利用するか、大きなマルチモーダルモデルを微調整する。
本稿では、補完的な洞察と対象データの潜在構造を利用するためのエキスパート協調学習(EXCL)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。