論文の概要: Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models
- arxiv url: http://arxiv.org/abs/2606.10949v1
- Date: Tue, 09 Jun 2026 14:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.567044
- Title: Recalling Too Well: Sycophancy Evaluation and Mitigation in Memory-Augmented Models
- Title(参考訳): あまりにうまくリコールする: 記憶強化モデルにおける語彙評価と緩和
- Authors: Shelly Bensal, Axel Magnuson, Aparna Balagopalan, Daniel M. Bikel,
- Abstract要約: 本稿では,サイコフィナンシーを体系的に増幅することにより,永続メモリシステムによるモデル精度の低下を実証する。
我々はこの効果を初めて体系的に評価し、MISTを導入した。
本稿では,現実のリコール時にメモリシステムにマッチまたは超過しながら,覚醒度を大幅に低下させる2つの軽量緩和策を提案する。
- 参考スコア(独自算出の注目度): 2.3899114972369744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent memory systems promise to make LLMs more helpful by storing user beliefs over time. We show they also make models less correct by systematically amplifying sycophancy, wherein models prioritize agreement with users over accuracy. We conduct the first systematic evaluation of this effect, introducing MIST: a benchmark of synthetically generated multi-turn conversations where users express plausible misconceptions in scientific, medical, and moral reasoning domains. Testing across three state-of-the-art memory systems and five model families reveals that memory amplifies sycophantic behavior across all conditions, with up to 25x higher sycophancy rates than in-context baselines. Error analyses suggest memory extraction as the primary culprit: lossy compression into discrete snippets encodes user misconceptions while discarding corrective context. Based on these results, we propose two lightweight mitigations that substantially reduce sycophancy while matching or exceeding memory systems at factual recall.
- Abstract(参考訳): 永続メモリシステムは、LLMを時間の経過とともにユーザの信念を保存することによって、より有用なものにすることを約束する。
また、モデルが正確性よりもユーザとの合意を優先し、シコファンシーを体系的に増幅することで、モデルがより正確になることを示す。
MISTは, 科学的, 医学的, 道徳的理由づけ領域において, ユーザが理解しうる誤解を表現するための, 合成されたマルチターン会話のベンチマークである。
3つの最先端メモリシステムと5つのモデルファミリーでテストしたところ、メモリはすべての条件でサイコファンティックな振る舞いを増幅し、インコンテキストベースラインよりも最大25倍高いサイコファンシー率を示す。
誤り解析は、メモリ抽出を主要な原因として提案する: 離散スニペットへのロスィ圧縮は、修正コンテキストを破棄しながらユーザの誤解を符号化する。
これらの結果に基づいて,実リコール時のメモリシステムの整合性や超過性を著しく低減する2つの軽量緩和策を提案する。
関連論文リスト
- The Trap of Trajectory: Towards Understanding and Mitigating Spurious Correlations in Agentic Memory [7.707732051915869]
エージェントメモリシステムの診断では、メモリはクリーンな入力の推論を改善するが、それらが存在するときのスプリアスパターンへの依存を増幅する。
本稿では,CAMELを提案する。CAMELは,書き込み時間と検索時間の両方で,多様なメモリアーキテクチャ間で動作可能な,プラグアンドプレイキャリブレーション方式である。
全体として、CAMELはより信頼性の高いエージェントメモリデプロイメントに対して、原則的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2026-05-10T05:04:13Z) - MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval [37.54115468116941]
本報告では,Qwen3-Reranker を用いた多段 LLM 知識蒸留によるリグレードモデルファミリ MemReranker (0.6B/4B) について紹介する。
メモリ検索ベンチマークでは、MemReranker-0.6BはBGE-Rerankerを大きく上回り、オープンソースの4B/8BモデルとGPT-4o-miniをキーメトリクスでマッチングする。
MemReranker-4B はさらに 0.737 MAP を達成し、Gemini-3-Flash と同等のメトリクスを持つ一方で、推論遅延を10-20%の大型モデルで維持している。
論文 参考訳(メタデータ) (2026-05-07T12:33:57Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - MemRec: Collaborative Memory-Augmented Agentic Recommender System [57.548438733740504]
我々はメモリ管理から推論をアーキテクチャ的に分離するフレームワークであるMemRecを提案する。
MemRecは動的コラボレーティブメモリグラフを管理する専用のLM_Memを導入した。
4つのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-13T18:51:16Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - Adversarially Diversified Rehearsal Memory (ADRM): Mitigating Memory Overfitting Challenge in Continual Learning [0.0]
継続的な学習は、それまでの知識を忘れずに、静止しないデータ分布を学習することに焦点を当てる。
リハーサルベースのアプローチは、破滅的な忘れに対処するために一般的に使用される。
本稿では、メモリ過度に適合する課題に対処するために、Adversarially Diversified Rehearsal Memoryを導入する。
論文 参考訳(メタデータ) (2024-05-20T06:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。