Fugu-MT 論文翻訳(概要): Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

論文の概要: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents

arxiv url: http://arxiv.org/abs/2606.10616v2
Date: Thu, 11 Jun 2026 09:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 13:39:59.582338
Title: Learning What to Remember: Observability-Safe Memory Retention via Constrained Optimization for Long-Horizon Language Agents
Title（参考訳）: 記憶すべきことを学ぶ:長期言語エージェントの制約付き最適化による可観測性安全なメモリ保持
Authors: Qingcan Kang, Liu Mingyang, Shixiong Kai, Kaichao Liang, Tao Zhong, Mingxuan Yuan,
Abstract要約: オンライン・オブザーバブル機能とオフライン・アベイラビリティ・インスペクションの厳格な分離を強制する新しいフレームワークを開発する。結果として得られたポリシーは、同じ可観測性の下でデプロイ可能なまま、相互作用データから直接クエリ条件付きエビデンス値を学ぶ。 LOCOMO と LongMemEval の実験では、OSL-MR は、一貫性に基づく手法よりも一貫して優れていることが示されている。
参考スコア（独自算出の注目度）: 16.193335398478386
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-horizon language agents accumulate observations, reasoning traces, and retrieved facts that exceed their finite context windows, making memory retention a fundamental resource-allocation problem. Existing memory systems improve management through heuristic scoring, retrieval optimization, or learned compression, but largely treat retention as a local decision problem and do not explicitly model its long-term consequences under realistic observability constraints. To fill this gap, we formulate memory retention as a constrained stochastic optimization problem with explicit budget feasibility, evidence utility, and delayed costs including miss penalties, reacquisition delays, and stale-information risk. We then propose OSL-MR (Observability-Safe Learning for Memory Retention), a novel framework that enforces a strict separation between online-observable features and offline-available supervision (OAS). OSL-MR combines an evidence learner trained from realized evidence supervision with a Mixed-Score heuristic that serves both as a deployable online-safe baseline and as a structured inductive prior for learning. The resulting policy learns query-conditioned evidence value directly from interaction data while remaining deployable under the same observability constraints. Experiments on LOCOMO and LongMemEval show that OSL-MR consistently outperforms recency-based methods, Generative Agents-style scoring, and other heuristic baselines, particularly under tight memory budgets. The Mixed-Score prior further improves precision while preserving recall, and sensitivity analysis demonstrates robustness across a wide range of cost configurations.
Abstract（参考訳）: ロングホライゾン言語エージェントは、観測、トレースの推論、有限コンテキストウインドウを超える事実の検索を蓄積し、メモリ保持を基本的なリソース割り当て問題にする。既存のメモリシステムは、ヒューリスティックスコアリング、検索最適化、学習された圧縮を通じて管理を改善するが、保持を局所的な決定問題として扱い、現実的な可観測性制約の下での長期的な結果を明示的にモデル化しない。このギャップを埋めるために、我々は、メモリ保持を明示的な予算実現可能性、エビデンスユーティリティ、ミスペナルティ、再取得遅延、ストール情報リスクを含む遅延コストで制約付き確率的最適化問題として定式化する。次に、オンライン可観測機能とオフライン利用監視(OAS)の厳格な分離を強制する新しいフレームワークであるOSL-MRを提案する。 OSL-MRは、実効的なエビデンス監視から訓練されたエビデンスと、デプロイ可能なオンラインセーフベースラインと、学習のための構造化インダクティブとして機能するMixed-Scoreヒューリスティックを組み合わせる。結果として得られたポリシーは、同じ可観測性制約の下でデプロイ可能なまま、相互作用データから直接クエリ条件付きエビデンス値を学ぶ。 LOCOMOとLongMemEvalの実験では、OSL-MRは、特にメモリ予算の厳しい条件下で、リガンドベースの方法、ジェネラティブエージェントスタイルのスコアリング、その他のヒューリスティックベースラインを一貫して上回っている。 Mixed-Scoreはリコールを保存しながら精度をさらに向上し、感度分析は幅広いコスト構成で堅牢性を示す。

関連論文リスト

REAL: A Reasoning-Enhanced Graph Framework for Long-Term Memory Management of LLMs [17.526686616588794]
大きな言語モデル(LLM)は、長い時間をかけてユーザーと対話することがますます期待されている。 LLMは過去のすべてのインタラクションを保持することができず、履歴情報の保存、更新、検索には長期記憶管理が不可欠である。 REALは長期会話記憶を時間的かつ信頼性に配慮したプロパティグラフとして構成する。
論文参考訳（メタデータ） (2026-06-09T10:53:10Z)
Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents [13.846550145896314]
メモリ拡張LDMエージェントは、相互作用軌跡をコンパクトメモリに要約することにより、複雑な長距離タスクに対処する。既存のアプローチでは、結果に基づく強化学習を使用してこれらのメモリポリシーをトレーニングし、中間メモリ品質が低下する場所のローカライズに失敗する。メモリ最適化は、単なる軌道レベルの成功ではなく、中間要約によって引き起こされる信念の明確さに焦点をあてるべきである。
論文参考訳（メタデータ） (2026-05-28T16:17:19Z)
Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。 NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文参考訳（メタデータ） (2026-05-21T16:45:31Z)
Governing Evolving Memory in LLM Agents: Risks, Mechanisms, and the Stability and Safety Governed Memory (SSGM) Framework [18.46738022193615]
長期記憶は、自律型大規模言語モデル(LLM)エージェントの基礎コンポーネントとして登場した。メモリガバナンス、セマンティックドリフト、プライバシ脆弱性に関する重要な懸念が浮上しました。本稿では,概念的ガバナンスアーキテクチャであるSSGM(Stable and Safety-Governed Memory)フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-12T10:16:52Z)
Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。 A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。 A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文参考訳（メタデータ） (2026-03-04T19:32:02Z)
AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文参考訳（メタデータ） (2026-03-02T15:15:11Z)
Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文参考訳（メタデータ） (2026-01-31T10:02:43Z)
Escaping Stability-Plasticity Dilemma in Online Continual Learning for Motion Forecasting via Synergetic Memory Rehearsal [19.181540661354312]
DNNに基づく動き予測のための相乗的メモリリハーサル(SyReM)を提案する。 SyReMは学習知識を表現するために、コンパクトなメモリバッファを保持する。メモリバッファの平均損失を制限する不等式制約を採用している。 SyReMは過去のシナリオにおける破滅的な忘れを著しく軽減し、新しいシナリオの予測精度を向上する。
論文参考訳（メタデータ） (2025-08-27T05:04:33Z)
MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。 MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文参考訳（メタデータ） (2025-07-04T17:21:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。