論文の概要: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents
- arxiv url: http://arxiv.org/abs/2606.10616v4
- Date: Thu, 18 Jun 2026 02:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.401369
- Title: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents
- Title(参考訳): 記憶すべきことを学ぶ:長期言語エージェントの制約付き最適化による可観測性安全なメモリ保持
- Authors: Qingcan Kang, Liu Mingyang, Shixiong Kai, Kaichao Liang, Tao Zhong, Mingxuan Yuan,
- Abstract要約: ロングホライゾンの言語エージェントは、観測、トレースの推論、および検索された事実のウィンドウを蓄積する。
既存のシステムは、保持を局所的に扱い、可観測性制約の下での長期的な影響をモデル化しない。
我々は,オンライン・オブザーバブル機能とオフライン・アベイラビリティ・インスペクションの厳格な分離を強制する学習強化フレームワークOSL-MRを提案する。
- 参考スコア(独自算出の注目度): 16.193335398478386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon language agents accumulate observations, reasoning traces, and retrieved facts exceeding context windows, making memory retention a fundamental resource-allocation problem. Existing systems treat retention as local and do not model long-term consequences under observability constraints. To fill this gap, we formulate memory retention as a constrained stochastic optimization with budget feasibility, evidence utility, and delayed costs including miss, reacquisition, and stale penalties. We show this multi-step problem is NP-hard, making exact solution intractable. Moreover, deployment decisions must be made under partial observability. To address these challenges, we propose OSL-MR (Observability-Safe Learning for Memory Retention), a learning-augmented framework that enforces a strict separation between online-observable features and offline-available supervision. OSL-MR combines an evidence learner trained from realized evidence with a Mixed-Score heuristic that serves as a deployable online-safe baseline and an inductive prior. The policy learns query-conditioned evidence from interaction data and remains deployable under the same constraints. Experiments on LoCoMo and LongMemEval show OSL-MR outperforms recency-based, Generative Agents-style, and other heuristic baselines, especially under tight budgets. The Mixed-Score prior improves precision and recall, and sensitivity analysis shows robustness across cost settings. On small solvable instances, single-step optimization is insufficient to anticipate future demand shifts, while OSL-MR stays significantly closer to the dynamic-programming optimum, confirming the necessity of the sequential formulation and reinforcing our learning-guided approximation. These results establish constrained stochastic optimization and optimization-guided learning as a principled foundation for memory management in long-horizon agents.
- Abstract(参考訳): ロングホライゾン言語エージェントは、観測、トレースの推論、コンテキストウィンドウを超える事実の検索を蓄積し、メモリ保持を基本的なリソース割り当て問題にする。
既存のシステムは、保持を局所的に扱い、可観測性制約の下での長期的な影響をモデル化しない。
このギャップを埋めるために、我々は、予算実現性、エビデンスユーティリティ、ミス、再取得、古いペナルティを含む遅延コストによる制約付き確率的最適化としてメモリ保持を定式化する。
この多段階問題はNPハードであり、正確な解が難解であることを示す。
さらに、デプロイメントの決定は部分的な可観測性の下で行う必要がある。
これらの課題に対処するため,我々は,オンライン可観測機能とオフライン利用監視の厳格な分離を強制する学習強化フレームワークであるOSL-MR(Observability-Safe Learning for Memory Retention)を提案する。
OSL-MRは、実際の証拠から訓練されたエビデンスと、デプロイ可能なオンラインセーフベースラインとインダクティブ前のインダクティブとして機能するMixed-Scoreヒューリスティックを組み合わせる。
このポリシーは、インタラクションデータからクエリ条件のエビデンスを学び、同じ制約の下でデプロイ可能である。
LoCoMoとLongMemEvalの実験では、OSL-MRは、特に厳格な予算の下で、電流ベース、生成エージェントスタイル、その他のヒューリスティックベースラインよりも優れていた。
Mixed-Scoreは、精度とリコールを改善し、感度分析はコスト設定間で堅牢性を示す。
一方、OSL-MRは動的プログラミングの最適化にかなり近づき、逐次的な定式化の必要性を確認し、学習誘導近似を補強する。
これらの結果から,長期エージェントにおけるメモリ管理の基礎として,制約付き確率的最適化と最適化誘導学習が確立された。
関連論文リスト
- REAL: A Reasoning-Enhanced Graph Framework for Long-Term Memory Management of LLMs [17.526686616588794]
大きな言語モデル(LLM)は、長い時間をかけてユーザーと対話することがますます期待されている。
LLMは過去のすべてのインタラクションを保持することができず、履歴情報の保存、更新、検索には長期記憶管理が不可欠である。
REALは長期会話記憶を時間的かつ信頼性に配慮したプロパティグラフとして構成する。
論文 参考訳(メタデータ) (2026-06-09T10:53:10Z) - Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents [13.846550145896314]
メモリ拡張LDMエージェントは、相互作用軌跡をコンパクトメモリに要約することにより、複雑な長距離タスクに対処する。
既存のアプローチでは、結果に基づく強化学習を使用してこれらのメモリポリシーをトレーニングし、中間メモリ品質が低下する場所のローカライズに失敗する。
メモリ最適化は、単なる軌道レベルの成功ではなく、中間要約によって引き起こされる信念の明確さに焦点をあてるべきである。
論文 参考訳(メタデータ) (2026-05-28T16:17:19Z) - Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.46738022193615]
長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。
メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。
本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:16:52Z) - Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。
A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。
A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文 参考訳(メタデータ) (2026-03-04T19:32:02Z) - AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Escaping Stability-Plasticity Dilemma in Online Continual Learning for Motion Forecasting via Synergetic Memory Rehearsal [19.181540661354312]
DNNに基づく動き予測のための相乗的メモリリハーサル(SyReM)を提案する。
SyReMは学習知識を表現するために、コンパクトなメモリバッファを保持する。
メモリバッファの平均損失を制限する不等式制約を採用している。
SyReMは過去のシナリオにおける破滅的な忘れを著しく軽減し、新しいシナリオの予測精度を向上する。
論文 参考訳(メタデータ) (2025-08-27T05:04:33Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。