論文の概要: Learning What to Remember: A Cognitively Grounded Multi-Factor Value Model for Agentic Memory
- arxiv url: http://arxiv.org/abs/2606.12945v1
- Date: Thu, 11 Jun 2026 06:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.613679
- Title: Learning What to Remember: A Cognitively Grounded Multi-Factor Value Model for Agentic Memory
- Title(参考訳): 思い出すべきことを学ぶ:エージェント記憶のための認知的基盤を持つ多要素値モデル
- Authors: Zhibao Chen, Qian Cheng,
- Abstract要約: LLMエージェントは、どのコンテキストウィンドウよりもはるかに大きなインタラクション履歴を蓄積する。
生産システムは意味的類似性や傾向に答える。
本研究では、7つの解釈可能な因子に対する多要素記憶関数 V(m)=sum_i w_i f_i(m) を提案する。
- 参考スコア(独自算出の注目度): 1.2127875744950842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-running LLM agents accumulate interaction histories far larger than any context window, forcing a standing decision: what to encode deeply, what to forget, and what to retrieve under a fixed memory budget. Production systems answer with semantic similarity or recency -- both mis-specified for the forgetting decision, which is made at consolidation time before the future query is known. We propose a multi-factor memory value function V(m)=\sum_i w_i f_i(m) over seven interpretable factors (emotional intensity, goal relevance, value alignment, self/user relevance, task utility, reliability, and usage history) drawn from cognitive psychology, whose weights are learned from a downstream objective by a gradient-free optimiser, and whose single scalar uniformly controls encoding depth, forget risk, and retrieval rank. We make a methodological point: on LongMemEval, scoring goal relevance against the held-out evaluation question saturates gold-evidence retention at \approx 0.98 -- this measures retrieval, not forgetting. In the realistic blind regime, a learned multi-factor value retains 0.770 \pm 0.011 of gold evidence across 479 usable cases, versus 0.657 for uniform weights, 0.518 for the best single factor, and 0.368 for recency; every paired gap's 95% bootstrap CI is above zero, and a neural network over the same factors ties the linear model. The learned weights are interpretable -- reliability, emotional intensity, and self/user relevance dominate, while query-time goal similarity is correctly down-weighted for the forgetting decision. A controlled synthetic task with planted confounds confirms the learner recovers a separating weighting (1.00 retention) where uniform weighting fails (0.62). The substrate is open-source; all experiments run on a single CPU with no API calls.
- Abstract(参考訳): 長期にわたるLDMエージェントは、どのコンテキストウィンドウよりもはるかに大きなインタラクション履歴を蓄積し、何を深くエンコードするか、何を忘れるか、固定メモリ予算の下で何を取得するかという、定常的な決定を強制する。
プロダクションシステムは、セマンティックな類似性や傾向に答える -- どちらも、将来のクエリが知られる前に統合された時間に行われる、忘れる決定について誤って指定されている。
認知心理学から抽出された7つの解釈可能な因子(感情強度、目標関連性、価値アライメント、自己/ユーザ関連性、タスク有用性、信頼性、利用履歴)に対して、勾配のないオプティマイザにより下流目標からウェイトを学習し、深さ、リスク、検索ランクを均一に制御する多要素記憶値関数V(m)=\sum_i w_i f_i(m)を提案する。
我々は,LongMemEvalにおいて,ホールドアウト評価問題に対するゴール関連性を評価することで,<approx 0.98における金の証拠保持を飽和させる。
現実的な盲目状態では、学習された多要素値は、479のユースケースで0.770 \pm 0.011の金のエビデンスを保持するが、均一な重量では0.657、最良な単因子では0.518、緊急時には0.368であり、全てのペアギャップの95%ブートストラップCIはゼロ以上であり、同じ因子上のニューラルネットワークは線形モデルと結びついている。
学習した重みは解釈可能である -- 信頼性、感情的強度、自己/ユーザ関連性が支配的であり、クエリタイムの目標類似性は、忘れる決定に対して正しく重み付けされている。
被植付条件による制御された合成タスクにより、学習者は、均一な重み付けが失敗する分離重み付け(1.00保持)を回復する(0.62)。
すべての実験は、APIコールなしで単一のCPU上で実行される。
関連論文リスト
- LLMs Show No Signs Of Individuated Metacognition [0.023227405857540805]
20大言語モデルから二項信頼判断を分解する。
信頼性が異なる2つのモデルも性能が異なるかどうかを問う。
いずれの検査領域においても,有意な弁別メタ認知の証拠は見つからない。
論文 参考訳(メタデータ) (2026-05-22T23:54:33Z) - MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval [37.54115468116941]
本報告では,Qwen3-Reranker を用いた多段 LLM 知識蒸留によるリグレードモデルファミリ MemReranker (0.6B/4B) について紹介する。
メモリ検索ベンチマークでは、MemReranker-0.6BはBGE-Rerankerを大きく上回り、オープンソースの4B/8BモデルとGPT-4o-miniをキーメトリクスでマッチングする。
MemReranker-4B はさらに 0.737 MAP を達成し、Gemini-3-Flash と同等のメトリクスを持つ一方で、推論遅延を10-20%の大型モデルで維持している。
論文 参考訳(メタデータ) (2026-05-07T12:33:57Z) - When to Forget: A Memory Governance Primitive [0.0]
Memory Worthはメモリ当たりの2カウンタ信号で、メモリが成功と失敗を共起する頻度を追跡する。
MW は条件付き成功確率 p+(m) = Pr[y_t = +1 | m in M_t] にほぼ確実に収束することを示す。
これは今でもメモリ管理にとって有用な操作信号であり、制御された合成環境で実証的に検証する。
論文 参考訳(メタデータ) (2026-04-13T19:54:14Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。