論文の概要: TRUSTMEM: Learning Trustworthy Memory Consolidation for LLM Agents with Long-Term Memory
- arxiv url: http://arxiv.org/abs/2606.25161v1
- Date: Tue, 23 Jun 2026 20:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.141567
- Title: TRUSTMEM: Learning Trustworthy Memory Consolidation for LLM Agents with Long-Term Memory
- Title(参考訳): TRUSTMEM:長期記憶を有するLLMエージェントのための信頼できるメモリ統合学習
- Authors: Tianyu Yang, Sudipta Paul, Vijay Srinivasan, Vivek Kulkarni, Srinivas Chappidi,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、拡張されたインタラクションをサポートし、有限コンテキストウィンドウを超えてパーソナライズされたアシストをサポートするために、長期記憶に依存している。
既存のメモリエージェントは、生成された書き込み、修正、削除によって外部メモリを積極的に更新する。
これらの更新は、重要な情報を省略したり、既存の記憶を破損させたり、幻覚コンテンツを導入したりする可能性がある。
本稿では,メモリ統合の信頼性向上を目的としたフレームワークであるTrustMemを提案する。
- 参考スコア(独自算出の注目度): 11.528637007309937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents rely on long-term memory to support extended interactions and personalized assistance beyond finite context windows. Existing memory agents actively update external memory through generated write, revise, and delete operations, but these updates may omit important information, corrupt existing memory, or introduce unsupported hallucinated content. Once stored, such errors become persistent system-state failures that can affect future reasoning and generation. In this paper, we propose TrustMem, a framework designed to improve the trustworthiness of memory consolidation. TrustMem relies on a Memory Transition Verifier to evaluate the transition process of memory updates in terms of coverage, preservation, and faithfulness. It further constructs preference pairs among candidate updates under the same memory state, enabling preference-guided reinforcement learning to directly optimize memory updating behaviors. Extensive experiments demonstrate that TrustMem improves both memory utility and reliability: it achieves state-of-the-art results across MemoryAgentBench, HaluMem, and the Mem-alpha validation set, improves HaluMem memory extraction by 12.14 F1 points, and reduces transition-level omission, corruption, and hallucination by 40.1\%, 79.1\%, and 50.0\%, respectively, compared with the strongest baseline for each error type.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、拡張されたインタラクションをサポートし、有限コンテキストウィンドウを超えてパーソナライズされたアシストをサポートするために、長期記憶に依存している。
既存のメモリエージェントは、生成した書き込み、修正、削除操作を通じて外部メモリを積極的に更新するが、これらの更新は重要な情報、既存のメモリを破損させたり、幻覚コンテンツを導入したりする可能性がある。
一度格納されると、そのようなエラーは、将来の推論と生成に影響を与える可能性のある、永続的なシステム状態の障害になる。
本稿では,メモリ統合の信頼性向上を目的としたフレームワークであるTrustMemを提案する。
TrustMemはメモリトランジション検証を使用して、カバレッジ、保存、忠実度の観点からメモリ更新の遷移プロセスを評価する。
さらに、同じメモリ状態下での候補更新間の選好ペアを構築し、優先誘導強化学習により、メモリ更新動作を直接最適化する。
TrustMemはMemoryAgentBench、HaluMem、Mem-alphaバリデーションセットをまたいだ最先端の結果を達成し、HaluMemのメモリ抽出を12.14 F1ポイント改善し、各エラータイプの最上位ベースラインと比較して、トランジションレベルの欠落、腐敗、幻覚を40.1\%、79.1\%、および50.0\%削減する。
関連論文リスト
- MEMPROBE: Probing Long-Term Agent Memory via Hidden User-State Recovery [58.64329475683699]
我々は、長期記憶は監査可能な相互作用後のアーティファクトとして評価されるべきであると主張している。
我々は、メモリを備えたエージェントがシミュレーションユーザを支援するベンチマークであるMEMPROBEで、このビューをインスタンス化する。
私たちは、成功したアシストと回復可能なメモリが、異なる機能として振る舞うことに気付きました。
論文 参考訳(メタデータ) (2026-06-23T13:52:46Z) - HiMPO: Hindsight-Informed Memory Policy Optimization for Less-Entangled Credit in Long-Horizon Agents [10.128343847630552]
HiMPO (Hindsight-Informed Memory Policy Optimization) は、メモリ書き込みアクションに少なからぬクレジットを割り当てるためのフレームワークである。
また,HMPOは,ツールによるエラーによる非難の漏洩を低減し,メモリ更新の帰属性を改善する。
論文 参考訳(メタデータ) (2026-06-15T06:49:18Z) - Beyond Similarity: Trustworthy Memory Search for Personal AI Agents [25.265839311088516]
個人AIエージェントにおける信頼境界としてのメモリ探索について検討する。
MemGateは、信頼性の高いメモリ検索のための軽量でデプロイ可能なメモリプラグインである。
論文 参考訳(メタデータ) (2026-06-04T11:54:29Z) - WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction [72.1620416874118]
マルチモーダルな言語モデルは、長距離エージェントとしてますます多くデプロイされている。
既存のベンチマークは、静的対話上のリコールを測定し、メモリを1つのタスクの精度に分解し、キャプションに対する視覚的な観察を減らす。
マルチモーダルエージェントメモリを,観測可能な4段階ライフサイクルを持つアクションワールドインタラクションループとして定式化する。
論文 参考訳(メタデータ) (2026-05-28T04:27:20Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Is One Score Enough? Rethinking the Evaluation of Sequentially Evolving LLM Memory [50.857546269660276]
本稿では,大規模言語モデル(LLM)メモリを逐次進化させる診断評価フレームワークであるSeqMem-Evalを紹介する。
最終的なパフォーマンスのみに焦点を当てるのではなく、SeqMem-Evalは、シーケンシャル推論において、メモリ状態がどのように進化し、一般化し、エクスペリエンスを集約し、有用な情報を保持するかを評価する。
論文 参考訳(メタデータ) (2026-05-14T20:15:22Z) - MemCompiler: Compile, Don't Inject -- State-Conditioned Memory for Embodied Agents [29.872311031034368]
本稿では,メモリ利用をステートコンディション・メモリ・コンパイルとして再構成するMemCompilerを提案する。
Across Alf World、EmbodiedBench、ScienceWorldでは、MemCompilerは無メモリよりも一貫して改善されている。
論文 参考訳(メタデータ) (2026-05-08T11:07:04Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。