論文の概要: SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems
- arxiv url: http://arxiv.org/abs/2606.12703v1
- Date: Wed, 10 Jun 2026 21:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.475817
- Title: SMSR: Certified Defence Against Runtime Memory Poisoning in Persistent LLM Agent Systems
- Title(参考訳): SMSR: Persistent LLM Agent Systems における実行時メモリ中毒に対する認証防御
- Authors: Tarun Sharma,
- Abstract要約: Retrieval-augmented Generation (RAG)エージェントは、ユーザセッションにまたがって蓄積される永続メモリでますます動作します。
通常のチャンネルを通してのみ対話する相手は、一度取り出した後、エージェントの応答を将来のユーザのために制御する、巧妙な記憶を注入することができる。
このマルチセッションメモリ・ポジショニング(Multi-Session Memory Poisoning, MMP)と呼び、既存の防衛認証がそれに反対していないことを示す。
本報告では,Smoothed Retrievalを用いたSigned Memory(SMSR)について述べる。
- 参考スコア(独自算出の注目度): 3.0458514384586404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) agents increasingly run with persistent memory that accumulates across user sessions. This creates a new attack surface: an adversary interacting only through normal channels can inject crafted memories that, once retrieved, steer the agent's responses for future users, without touching model weights or code. We call this Multi-Session Memory Poisoning (MSMP) and show that no existing defence certifies against it; static-corpus defences (RobustRAG, ReliabilityRAG) assume a fixed knowledge base, and heuristic filters are bypassed by fluent enterprise-style text. We present Signed Memory with Smoothed Retrieval (SMSR), the first defence with a certified robustness bound for this setting. Component 1 adds HMAC-SHA256 provenance at write time, blocking unsigned injection. Component 2 applies randomised memory ablation with verdict-based majority voting at query time, bounding the influence of authenticated adversaries. We prove that no provenance-free retrieval-time filter can certify against adaptive injection, derive a hypergeometric certificate for Component 2, and formalise the Consistent Minority Effect, whereby a consistent adversarial answer wins string-based voting as a numerical minority while verdict-based voting removes it. Across 15 enterprise scenarios (3,150 repeated trials), Component 1 cuts attack success from 93-100% to 0% for all unsigned variants. For an authenticated adversary with a single injection, Component 2 holds success to 8.0% (95% CI [5.8, 10.9], n=450), below the certified worst case. In an end-to-end query-only attack where the agent itself writes the poison rather than it being pre-seeded, SMSR reduces success from 65.3% to 5.3% (n=150, non-overlapping CIs) on a live agent stack. Clean-query utility is 90% (Component 1) and 85% (combined).
- Abstract(参考訳): Retrieval-augmented Generation (RAG)エージェントは、ユーザセッションにまたがって蓄積される永続メモリでますます動作します。
通常のチャネルを通してのみ対話する敵は、一度取り出した後、モデルウェイトやコードに触れることなく、エージェントの応答を将来のユーザのために操作する、人工記憶を注入することができる。
静的コーパスディフェンス(RobustRAG, ReliabilityRAG)は, 固定知識ベースを前提とし, ヒューリスティックフィルタは, エンタプライズスタイルのテキストによってバイパスされる。
本報告では,Smoothed Retrievalを用いたSigned Memory(SMSR)について述べる。
Component 1は書き込み時にHMAC-SHA256の証明を追加し、符号なしインジェクションをブロックする。
コンポーネント2は、検証ベースの多数決によるランダム化されたメモリアブレーションをクエリ時に適用し、認証された敵の影響を限定する。
本研究は, 適応注入に対して前向きな検索時間フィルタが適用できないこと, 成分2のハイパー幾何学的証明を導出すること, 整合性マイノリティ効果を定式化すること, 検証に基づく投票が除去される一方で, 文字列ベースの投票が数値的マイノリティとして勝利すること, を証明した。
15のエンタープライズシナリオ(3,150回の反復トライアル)にわたって、Component 1は、未署名のすべての亜種に対して、攻撃の成功を93-100%から0%に削減する。
単一のインジェクションで認証された相手に対して、Component 2は、認定された最悪のケースより8.0%(95% CI [5.8, 10.9], n=450)の成功を収めている。
エージェント自体がプレシードではなく毒物を書き込むエンドツーエンドのクエリオンリー攻撃では、SMSRは、ライブエージェントスタック上の65.3%から5.3%(n=150、非重複CI)に成功を減少させる。
クリーン・クエリ・ユーティリティは90%(コンポーネント1)と85%(組み合わせ)である。
関連論文リスト
- MemVenom: Triggered Poisoning of Multimodal Memories in Web Agents [74.64265314956441]
そこで我々は,グラフ構造化外部メモリにテキスト画像のコーディネートを施したブラックボックス攻撃フレームワークを提案する。
MemVenomは、GPT-5ファミリーのWebエージェントで最大99.15%に達する、良質なパフォーマンスに最小限の影響を伴って、強力なエンドツーエンド攻撃を成功させる。
論文 参考訳(メタデータ) (2026-06-09T11:53:25Z) - SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning [1.0998907972211756]
SilentRetrievalは2段階のデータ中毒攻撃で、RAGシステムを敵対的な文書でハイジャックする。
SilentRetrievalは84.6%/81.3% HR@10、57.5%/54.8% ASR-LLM on Natural QuestionsとMS MARCOを達成している。
論文 参考訳(メタデータ) (2026-05-27T07:30:30Z) - The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems [1.0262304700896199]
EmphSemantic Norm Drift (SND) をエージェント不正行為の第3の経路として定式化する。
SNDでは、ポリシーフォーマットの文書が通常のアップロードを通じて共有ベクターストアに入り、その後、信頼されたシステムコンテキストとして再現れる。
偽合成検査は87.5%の精度と偽陽性のゼロの因果関係を識別する。
論文 参考訳(メタデータ) (2026-05-12T20:21:47Z) - AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use [2.9991161518367875]
AgentTrustは実行前にエージェントツールコールをインターセプトし、構造化されたバリデーションを返す。
6つのリスクカテゴリにまたがる300-scenarioベンチマークと、630が独立して構築された現実世界の敵シナリオです。
パッチされたルールセットで評価された630秒のベンチマークでは、AgentTrustは96.7%の精度を達成している。
論文 参考訳(メタデータ) (2026-05-06T11:38:16Z) - Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents [0.0]
コーディングエージェントは、以前の経験、トレースの修復、リポジトリローカルな運用知識を再利用するために、ますます外部メモリに依存している。
本稿では、純トップk検索問題ではなく、選択的かつリスクに敏感な制御問題として、イシューメモリの使用を再検討する。
リスクに敏感なコンテキスト帯域メモリコントローラであるRSCB-MCを導入し,メモリ使用の有無を判断し,トップレゾリューションを注入し,複数の候補を要約し,高精度または高速リコール検索,停止,あるいはフィードバックを求める。
論文 参考訳(メタデータ) (2026-04-30T00:32:53Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。