論文の概要: From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory
- arxiv url: http://arxiv.org/abs/2606.08656v1
- Date: Sun, 07 Jun 2026 14:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.319599
- Title: From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory
- Title(参考訳): プレイヤーからマスターへ:記憶による強化学習を通してLLMエージェントのテスト時間学習を促進する
- Authors: Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、テスト時のエクスペリエンス改善が重要となる長時間実行環境にますますデプロイされる。
本稿では,メモリ更新処理を明示的にトレーニングし,逐次的相互作用による凍結LDMの性能向上を図るプラグインメモリコンパレータであるMemoPilotを提案する。
マルチラウンドRock-Paper-Scissors(RPS)とLimit Texas Hold'em(LHE)の2つのテストベッド上でMemoPilotを評価する。
- 参考スコア(独自算出の注目度): 27.810603317768997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents are increasingly deployed in long-running settings where improving through experience at test time becomes important. A common approach is to update an explicit memory after each interaction to guide future decisions. However, most existing methods rely on hand-designed prompting rules, making it difficult to align memory updates with downstream objectives over multi-step horizons consistently. We propose MemoPilot, a plug-in memory copilot that explicitly trains the memory update process to improve a frozen LLM's performance across sequential interactions. We formulate memory updating as a multi-turn decision problem and optimize it end-to-end with multi-turn GRPO. Our training recipe introduces (i) a turn-wise reward signal and (ii) a context-independent, turn-level advantage estimation across rollouts, enabling finer-grained credit assignment and more stable training in multi-turn settings. We evaluate MemoPilot on two testbeds: multi-round Rock-Paper-Scissors (RPS) and Limit Texas Hold'em (LHE). Across both environments, MemoPilot substantially improves test-time learning of a frozen player over strong baselines, ranking first in Elo ratings on both games (1762 on LHE and 1590 on RPS) and outperforming all baseline memory methods and proprietary models, including DeepSeek-V3.2.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、テスト時のエクスペリエンス改善が重要になる長期的設定において、ますますデプロイされる。
一般的なアプローチは、各インタラクションの後に明示的なメモリを更新して、将来の決定を導くことである。
しかし、既存のほとんどのメソッドは手書きのプロンプトルールに依存しており、複数ステップの水平線上でメモリ更新と下流の目的との整合が困難である。
本稿では,メモリ更新処理を明示的にトレーニングし,逐次的相互作用による凍結LDMの性能向上を図るプラグインメモリコンパレータであるMemoPilotを提案する。
我々は、メモリ更新をマルチターン決定問題として定式化し、マルチターンGRPOでエンドツーエンドに最適化する。
私たちのトレーニングレシピを紹介します
(i)ターンワイド報酬信号
(ii)ロールアウト毎にコンテキストに依存しないターンレベルの優位性推定を行い、よりきめ細かいクレジット割り当てとマルチターン設定でのより安定したトレーニングを可能にする。
マルチラウンドRock-Paper-Scissors (RPS) とLimit Texas Hold'em (LHE) の2つのテストベッド上でMemoPilotを評価した。
両方の環境において、MemoPilotは、強力なベースラインよりも凍結したプレイヤーの試験時間学習を大幅に改善し、両方のゲームでEloレーティングで1位(1762年)、RPSで1590年)、DeepSeek-V3.2を含む全てのベースラインメモリメソッドとプロプライエタリモデルを上回っている。
関連論文リスト
- Rosetta Memory: Adaptive Memory for Cross-LLM Agents [16.39618390394249]
メモリは、経験蓄積、長期計画、継続的な自己改善を通じて、ステートレス LLM を永続的で進化したエージェントに変換するための鍵となるコンポーネントである。
実際には、ユーザーは、コーディングにClaudeを使い、タスク間の書き込みにGPTを使用する、あるいはコスト効率のトレードオフのために単一のタスク内で異なるバックボーンに異なるステップをルーティングするなど、LLMを頻繁に切り替える。
上流メモリを効果的に適用し、下流のLSMを活性化させることは、重要な問題でありながら未発見の課題である。
具体的には、上述のアップストリーム・ダウンストリームメモリ適応問題に対して、書き込み側と読み側の両方からアプローチし、2つのプロファイル条件を設計する。
論文 参考訳(メタデータ) (2026-06-05T13:50:59Z) - Memory-R2: Fair Credit Assignment for Long-Horizon Memory-Augmented LLM Agents [27.2861945963127]
メモリ拡張LDMエージェントは、有限コンテキストウィンドウを超えて拡張されるインタラクションを可能にする。
マルチセッション環境における強化学習によるエージェントの育成は困難である。
メモリ拡張LDMエージェントのトレーニングフレームワークであるMemory-R2を紹介する。
論文 参考訳(メタデータ) (2026-05-20T22:02:00Z) - Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory [53.8372503928207]
大規模言語モデル(LLM)エージェントは、一貫したパーソナライゼーションのために長期のユーザメモリを必要とする。
既存のメモリシステムは、主に静的で手作りの更新ルールに依存している。
MemCoEは認知にインスパイアされた2段階最適化フレームワークで、どのようにメモリを整理し、どの情報を更新すべきかを学ぶ。
論文 参考訳(メタデータ) (2026-05-01T14:45:20Z) - TAMTRL: Teacher-Aligned Reward Reshaping for Multi-Turn Reinforcement Learning in Long-Context Compression [24.10525956976745]
マルチTurn Reinforcement Learning(TAMTRL)のための教師対応リワード整形法を提案する。
TAMTRLは、関連する文書を教師の信号として利用し、それらをモデル入力の各ターンに整列させ、正規化確率による報酬を自己監督的に割り当てる。
7つの長文ベンチマークで異なるスケールの複数のモデルを用いた実験は、TAMTRLが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-23T07:42:04Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。