論文の概要: HiMPO: Hindsight-Informed Memory Policy Optimization for Less-Entangled Credit in Long-Horizon Agents
- arxiv url: http://arxiv.org/abs/2606.16285v1
- Date: Mon, 15 Jun 2026 06:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.123441
- Title: HiMPO: Hindsight-Informed Memory Policy Optimization for Less-Entangled Credit in Long-Horizon Agents
- Title(参考訳): HiMPO:ロングホライゾンエージェントにおける低エンタングルクレジットのためのハイビジョンインフォームドメモリポリシー最適化
- Authors: Jiangze Yan, Yi Shen, Wenjing Zhang, Jieyun Huang, Zhaoxiang Liu, Ning Wang, Kai Wang, Shiguo Lian,
- Abstract要約: HiMPO (Hindsight-Informed Memory Policy Optimization) は、メモリ書き込みアクションに少なからぬクレジットを割り当てるためのフレームワークである。
また,HMPOは,ツールによるエラーによる非難の漏洩を低減し,メモリ更新の帰属性を改善する。
- 参考スコア(独自算出の注目度): 10.128343847630552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon agents rely on memory mechanisms to compress interaction history, but optimizing memory writing faces a distinct credit assignment challenge: a memory update may be rewarded or penalized due to downstream tool failures, noisy observations, or reasoning errors rather than its own contribution. This causally entangled credit can lead agents to discard useful evidence or preserve irrelevant information. We propose HiMPO, a Hindsight-Informed Memory Policy Optimization framework for assigning less-entangled credit to memory-writing actions in long-horizon agents. HiMPO first estimates the local utility of a memory update by comparing the task-relevant information recoverable from the previous and updated memories under the same pre-write state. It then uses hindsight relevance as a bounded retrospective filter that attenuates memory credit when local utility is not supported by the target outcome. The resulting memory-specific advantage is applied only to memory tokens, while trajectory-level rewards optimize the rest of the agent behavior. Across judge-based open-domain tasks and objective compressive-memory QA, HiMPO improves over strong memory-based and RL-based baselines while preserving compressed-context efficiency. Controlled interventions further show that HiMPO reduces blame leakage from tool-induced errors and improves attribution fidelity of memory updates.
- Abstract(参考訳): ロングホライゾンエージェントは、インタラクション履歴を圧縮するためのメモリメカニズムに依存するが、メモリ書き込みの最適化は、異なるクレジット割り当ての課題に直面している。
この因果的絡み合った信用は、エージェントが有用な証拠を捨てたり、無関係な情報を保存したりする可能性がある。
長期エージェントにおけるメモリ書き込み動作に対して,より絡み合いの少ないクレジットを割り当てるためのハイビジョンインフォームドメモリポリシー最適化フレームワークであるHiMPOを提案する。
HiMPOはまず、前回および更新後のメモリから復元可能なタスク関連情報を、同じプリライト状態下で比較することにより、メモリ更新のローカルユーティリティを推定する。
次に、リフレッシュされたリフレクションフィルタとして後見関連性を使用し、ローカルユーティリティが対象の結果にサポートされない場合にメモリクレジットを減衰する。
結果として生じるメモリ固有の利点はメモリトークンにのみ適用されるが、トラジェクトリレベルの報酬はエージェントの動作の残りの部分を最適化する。
裁判官ベースのオープンドメインタスクと客観的圧縮メモリQA全体にわたって、HiMPOは圧縮コンテキスト効率を保ちながら、強いメモリベースとRLベースのベースラインを改善する。
制御された介入により、HiMPOはツールによるエラーからの非難の漏れを低減し、メモリ更新の帰属性を改善する。
関連論文リスト
- Scaling Short-Term Memory of Visuomotor Policies for Long-Horizon Tasks [69.19366746169906]
本稿では,短期記憶を利用するビジュモータポリシーのためのトランスフォーマーベースのアーキテクチャであるPRISMを提案する。
海賊フィルタは情報を取得し、関連する詳細を抑え、性能を向上する。
階層アーキテクチャは、ローカル情報をコンパクトなトークンに圧縮し、計算とメモリフットプリントを改善する。
論文 参考訳(メタデータ) (2026-06-15T03:49:23Z) - REAL: A Reasoning-Enhanced Graph Framework for Long-Term Memory Management of LLMs [17.526686616588794]
大きな言語モデル(LLM)は、長い時間をかけてユーザーと対話することがますます期待されている。
LLMは過去のすべてのインタラクションを保持することができず、履歴情報の保存、更新、検索には長期記憶管理が不可欠である。
REALは長期会話記憶を時間的かつ信頼性に配慮したプロパティグラフとして構成する。
論文 参考訳(メタデータ) (2026-06-09T10:53:10Z) - AdMem: Advanced Memory for Task-solving Agents [13.611633561917513]
大規模言語モデル(LLM)はツール使用エージェントとしての約束を示すが、知識の記憶、整理、再利用を必要とする長期的タスクには制限がある。
本稿では,短期記憶と長期記憶を組み合わせた2段階設計において,セマンティック,エピソード,手続き記憶を統合した統合的・自動記憶フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-05T00:11:57Z) - Beyond Similarity: Trustworthy Memory Search for Personal AI Agents [25.265839311088516]
個人AIエージェントにおける信頼境界としてのメモリ探索について検討する。
MemGateは、信頼性の高いメモリ検索のための軽量でデプロイ可能なメモリプラグインである。
論文 参考訳(メタデータ) (2026-06-04T11:54:29Z) - Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents [51.30250860677378]
本稿では,連想記憶グラフとアクティブな再構成機構を組み合わせたフレームワークであるMRAgentを提案する。
Cue-Tag-Contentグラフ上で実行することで,メモリアクセスに直接推論を統合する。
LoCoMoベンチマークとLongMemEvalベンチマークの実験は、強いベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-06-04T11:29:46Z) - MemGuard: Preventing Memory Contamination in Long-Term Memory-Augmented Large Language Models [56.31411457917676]
本稿では,メモリ構築と検索において,機能的メモリ境界を保存するタイプアウェアメモリフレームワークであるMemGuardを紹介する。
幻覚と長期会話のベンチマーク全体で、MemGuardはメモリの信頼性を最大28.27%向上し、メモリトークンは以前の方法より5.8倍少ない。
論文 参考訳(メタデータ) (2026-05-27T06:04:19Z) - Causal Intervention-Based Memory Selection for Long-Horizon LLM Agents [0.33842793760651557]
制御された介入の下で,候補記憶がモデル応答に与える影響を推定する因果記憶選択手法を提案する。
以上の結果から,CMIは,信頼性の高い長期記憶には関連性のみではなく,因果的有用性に基づくコンテキスト選択が必要であることが示唆された。
論文 参考訳(メタデータ) (2026-05-17T20:21:55Z) - From Recall to Forgetting: Benchmarking Long-Term Memory for Personalized Agents [38.52713500119118]
Memoraは、数週間から数ヶ月のユーザ会話にまたがる長期メモリベンチマークです。
ベンチマークでは、記憶、推論、レコメンデーションの3つのメモリグラウンドタスクを評価している。
FAMA(Forgetting-Aware Memory Accuracy)は、古いメモリや無効メモリへの依存を罰するメトリクスである。
論文 参考訳(メタデータ) (2026-04-21T21:31:01Z) - MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [52.29303869050117]
メモリ拡張LDMエージェントは、長期の相互作用をサポートするために外部メモリバンクを保持する。
MemMAはプラグアンドプレイのマルチエージェントフレームワークで、前方と後方の両方の経路に沿ってメモリサイクルを調整する。
論文 参考訳(メタデータ) (2026-03-19T10:15:59Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。