論文の概要: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents
- arxiv url: http://arxiv.org/abs/2606.10616v3
- Date: Tue, 16 Jun 2026 14:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.515677
- Title: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents
- Title(参考訳): 記憶すべきことを学ぶ:長期言語エージェントの制約付き最適化による可観測性安全なメモリ保持
- Authors: Qingcan Kang, Liu Mingyang, Shixiong Kai, Kaichao Liang, Tao Zhong, Mingxuan Yuan,
- Abstract要約: 本稿では,bfOSL-MRを開発した。
OSL-MRは予算対応のMixed-Scoreとエビデンス学習者とを組み合わせ、後に記憶がエビデンスとなる。
LoCoMoとLongMemEvalでは、OSL-MRは一貫して強力な模倣学習ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 16.193335398478386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon language agents accumulate observations, reasoning traces, and retrieved facts that exceed their context windows, making memory retention -- what to keep, discard, or later recover under a fixed budget -- central to sustained performance. Most systems score memories with local rules such as recency or relevance, ignoring the delayed costs of retention: future retrieval failures, recomputation, and stale-information use. We formulate retention as a constrained, partially observable stochastic optimization problem in which current decisions shape information demands revealed only later, and prove its single-step version NP-hard. Since exact optimization is intractable and future demands unknown, we develop \textbf{OSL-MR} (Observability-Safe Learning for Memory Retention), a learning-augmented approximation for deployable memory control. Its core principle is observability separation: deployed decisions use only online-observable signals, while supervision from evidence realized after an interaction is used solely for offline learning. OSL-MR pairs a budget-aware Mixed-Score heuristic (a cold-start policy and inductive prior) with an evidence learner predicting which memories later serve as evidence. As the cumulative objective is non-decomposable and combinatorial, the learner is trained on evidence-membership signals rather than reward, a tractable, deployable target. On LoCoMo and LongMemEval, OSL-MR consistently outperforms strong heuristic and imitation-learning baselines, especially under tight budgets, and is robust across cost settings. On exactly-solvable instances, retention is genuinely multi-step: a perfect single-step optimizer is far from optimal, whereas OSL-MR stays near the dynamic-programming optimum. These results establish constrained stochastic optimization and optimization-guided learning as a scalable foundation for memory in long-horizon agents.
- Abstract(参考訳): 長期の言語エージェントは、観測、トレースの推論、コンテキストウィンドウを超える事実の検索を蓄積し、メモリ保持 -- 固定された予算の下で保持、破棄、あるいは後に回復 -- を持続的なパフォーマンスの中心にします。
ほとんどのシステムは、リレーレンシーや関連性といったローカルなルールでメモリをスコアし、保持の遅延コストを無視します。
保持を制約付き部分的に観測可能な確率的最適化問題として定式化し、現在の決定が後になって情報要求を形作っていることを証明し、その単一ステップ版NPハードを証明した。
正確な最適化は難易度が高く,将来的な要求が不明確であるため,我々は,メモリ制御をデプロイするための学習強化近似であるtextbf{OSL-MR} (Observability-Safe Learning for Memory Retention) を開発した。
デプロイされた決定は、オンラインで観測可能な信号のみを使用するのに対して、インタラクションがオフライン学習にのみ使用されることで実現された証拠からの監視は、可観測性分離(observability separation)である。
OSL-MRは、予算対応のMixed-Scoreヒューリスティック(コールドスタートポリシーとインダクティブ先行)と、後にどの記憶がエビデンスとなるかを予測するエビデンス学習者とを組み合わせている。
累積的目的は分解不能で組合せ的であるため、学習者は報酬よりもエビデンス・メンバシップの信号に基づいて訓練される。
LoCoMoとLongMemEvalでは、OSL-MRは、特に厳しい予算の下で、強いヒューリスティックと模倣学習ベースラインを一貫して上回り、コスト設定で堅牢である。
完全なシングルステップオプティマイザは最適には程遠いが、OSL-MRは動的プログラミングの最適化に近い。
これらの結果は、長期エージェントにおけるメモリのスケーラブルな基盤として、制約付き確率最適化と最適化誘導学習を確立する。
関連論文リスト
- REAL: A Reasoning-Enhanced Graph Framework for Long-Term Memory Management of LLMs [17.526686616588794]
大きな言語モデル(LLM)は、長い時間をかけてユーザーと対話することがますます期待されている。
LLMは過去のすべてのインタラクションを保持することができず、履歴情報の保存、更新、検索には長期記憶管理が不可欠である。
REALは長期会話記憶を時間的かつ信頼性に配慮したプロパティグラフとして構成する。
論文 参考訳(メタデータ) (2026-06-09T10:53:10Z) - Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents [13.846550145896314]
メモリ拡張LDMエージェントは、相互作用軌跡をコンパクトメモリに要約することにより、複雑な長距離タスクに対処する。
既存のアプローチでは、結果に基づく強化学習を使用してこれらのメモリポリシーをトレーニングし、中間メモリ品質が低下する場所のローカライズに失敗する。
メモリ最適化は、単なる軌道レベルの成功ではなく、中間要約によって引き起こされる信念の明確さに焦点をあてるべきである。
論文 参考訳(メタデータ) (2026-05-28T16:17:19Z) - Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.46738022193615]
長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。
メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。
本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:16:52Z) - Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。
A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。
A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文 参考訳(メタデータ) (2026-03-04T19:32:02Z) - AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Escaping Stability-Plasticity Dilemma in Online Continual Learning for Motion Forecasting via Synergetic Memory Rehearsal [19.181540661354312]
DNNに基づく動き予測のための相乗的メモリリハーサル(SyReM)を提案する。
SyReMは学習知識を表現するために、コンパクトなメモリバッファを保持する。
メモリバッファの平均損失を制限する不等式制約を採用している。
SyReMは過去のシナリオにおける破滅的な忘れを著しく軽減し、新しいシナリオの予測精度を向上する。
論文 参考訳(メタデータ) (2025-08-27T05:04:33Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。