論文の概要: MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
- arxiv url: http://arxiv.org/abs/2606.17328v1
- Date: Mon, 15 Jun 2026 22:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.157807
- Title: MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
- Title(参考訳): MemTrace: 長期記憶における最終的な正確さの欠如を調査
- Authors: Xianxuan Long, Zhikai Chen, Shenglai Zeng, Shouren Wang, Kai Guo, Jiliang Tang,
- Abstract要約: 測定単位が知識点であるベンチマークであるMemTraceを紹介する。
MemTraceは3つの制御された次元に沿って各事実を探索する。
同様にプールされた精度は、異なる失敗を隠すことに気付きます。
- 参考スコア(独自算出の注目度): 39.696350769003104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents increasingly maintain long-term memory of user facts across sessions. Yet such memory is usually evaluated by aggregating accuracy over question rows or episodes. Because this approach scores question rows independently, even when several questions probe the same fact, it cannot show how that fact behaves as conditions change. We introduce MemTrace, a benchmark whose unit of measurement is the knowledge point: a single typed fact about the user, rather than an individual question. MemTrace probes each fact along three controlled dimensions: memory age, defined by how many sessions ago the fact appeared in the history; question type, covering current state, earlier state, and trajectory of change; and evidence condition, covering present, missing, and contradicted-by-false-premise settings. Evaluating 13 memory-system configurations across four paradigms, we find that similar pooled accuracy hides different failures: recovering a fact's current and earlier states does not imply tracking how it changed, and safe abstention does not imply correcting a false premise. The dominant bottleneck is evidence use, not retrieval: when systems fail, the evidence was retrievable 10 times more often than it was missing. These results suggest that improving long-term memory requires better use of reachable evidence, not simply more storage or retrieval.
- Abstract(参考訳): LLMエージェントはセッション間のユーザ事実の長期記憶をますます維持する。
しかし、そのような記憶は通常、質問列やエピソードの精度を集計することで評価される。
このアプローチは質問列を独立にスコアするので、複数の質問が同じ事実を探索しても、条件が変わるにつれてその事実がどのように振る舞うかを示すことはできない。
我々は,測定単位が知識点であるベンチマークであるMemTraceを紹介した。
MemTraceは、それぞれの事実を3つのコントロールされた次元に沿って調査する: 記憶年齢(メモリ年齢)、歴史に何セッション前に現れたか、質問タイプ、現在の状態、初期の状態、変化の軌跡など。
4つのパラダイムにわたる13のメモリシステム構成を評価すると、同じプールされた精度が異なる障害を隠蔽していることが分かる。
システムが失敗したとき、その証拠は失くした回数の10倍の頻度で回収できた。
これらの結果から, 長期記憶の改善には, 単に記憶量や検索量を増やすのではなく, 到達可能なエビデンスをより有効に活用する必要があることが示唆された。
関連論文リスト
- REAL: A Reasoning-Enhanced Graph Framework for Long-Term Memory Management of LLMs [17.526686616588794]
大きな言語モデル(LLM)は、長い時間をかけてユーザーと対話することがますます期待されている。
LLMは過去のすべてのインタラクションを保持することができず、履歴情報の保存、更新、検索には長期記憶管理が不可欠である。
REALは長期会話記憶を時間的かつ信頼性に配慮したプロパティグラフとして構成する。
論文 参考訳(メタデータ) (2026-06-09T10:53:10Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory [80.97855900579512]
既存の評価では、エージェントが後続の推論に必要な視覚的証拠を保存するかどうかを検査することはめったにない。
メモリ性能を2次元から評価するフレームワークであるMemEyeを紹介する。
本フレームワークでは,8つのライフシナリオタスクにまたがる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2026-05-14T17:37:52Z) - STALE: Can LLM Agents Know When Their Memories Are No Longer Valid? [5.361950931863979]
大規模言語モデル(LLM)エージェントは、コヒーレントで長期的なパーソナライズされたメモリを維持することがますます期待されている。
現在のベンチマークは、主に静的な事実検索を計測し、新しい証拠が現れたときに保存された信念を更新する能力を見下ろしている。
専門家が検証した400の競合シナリオのベンチマークであるSTALEを紹介します。
CUPMemは,構造化状態統合と伝搬認識探索による書き込み時間リビジョンを強化するプロトタイプである。
論文 参考訳(メタデータ) (2026-05-07T16:31:15Z) - Belief Memory: Agent Memory Under Partial Observability [56.41506249481312]
本稿では,メモリパラダイムを観測毎に1つの結論にシフトし,その確率で複数の結論を導出するBeliefMemを提案する。
BeliefMemは決定論的パラダイムが破棄されるという不確実性を保ち、エージェントが高い信頼を持って行動することを可能にする。
LoCoMoとALFWorldベンチマークの実証的な評価は、限られたデータであっても、BeliefMemが最高の平均パフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2026-05-07T02:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。