論文の概要: Safe to Check, Unsafe to Use: Relinking at the Compression Boundary of LLM Agents
- arxiv url: http://arxiv.org/abs/2606.21732v1
- Date: Fri, 19 Jun 2026 20:43:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:41:19.670255
- Title: Safe to Check, Unsafe to Use: Relinking at the Compression Boundary of LLM Agents
- Title(参考訳): LLMエージェントの圧縮境界におけるリリンク
- Authors: Zesen Liu, Zihan Zhang, Dongdong She,
- Abstract要約: リリンクは圧縮バウンダリの脆弱性であり、圧縮機は混乱した副産物として振る舞う。
リリンクは要約そのものから生じることを示す。
Relinkは、悪意のあるペイロードを良質なフラグメントに分割する、DSLベースの自動化ツールです。
- 参考スコア(独自算出の注目度): 18.36029302356202
- License:
- Abstract: Summarization-based prompt compression is increasingly used by LLM agents to shorten long, distributed contexts, but it shifts the security boundary: filters inspect the pre-compression prompt while the backend acts on a newly generated compressed context. We identify relinking, a compression-boundary vulnerability where the compressor behaves as a confused deputy, summarizing distributed, locally benign fragments into a complete malicious instruction. Unlike prompt injection, relinking need not place an explicitly malicious payload in the source context. We show that relinking arises from summarization itself: attention makes separated fragments jointly available, pre-training makes compatible fragments plausible to connect, and post-training favors compact backend-actionable summaries. We formalize the attacker-induced form as adversarial relinking and present Relink, an automated DSL-based tool that splits malicious payloads into benign fragments while keeping the complete payload absent before compression. Across four long-context agent benchmarks, Relink achieves 86.9% Relink Rate and Backend Action Rate versus 17.0% for clean-split controls. Existing defenses fail to reliably capture adversarial relinking; our KBRA defense reduces residual Backend Action Rate to 0.0%.
- Abstract(参考訳): 要約ベースのプロンプト圧縮は、LLMエージェントによって長く分散したコンテキストを短くするためにますます使用されるが、セキュリティ境界を変更する:フィルタはプレ圧縮プロンプトを検査し、バックエンドは新たに生成された圧縮コンテキストに作用する。
リリンク(relinking)は、圧縮機が混乱した副産物として振る舞う圧縮バウンダリ脆弱性であり、分散した局所的な良性フラグメントを完全な悪意のある命令に要約する。
プロンプトインジェクションとは異なり、リリンクはソースコンテキストに明示的に悪意のあるペイロードを配置する必要はない。
注意は、分離されたフラグメントを一緒に利用でき、事前学習は、接続可能な互換性のあるフラグメントを作成でき、後学習は、コンパクトなバックエンド操作可能なサマリーを好む。
攻撃者が引き起こしたフォームを敵のリリンクとして形式化し、悪意のあるペイロードを良質なフラグメントに分割する自動DSLベースのツールであるRelinkを、圧縮前に完全なペイロードを欠いているままにします。
4つのロングコンテキストエージェントベンチマークで、Relinkは86.9%のリリンクレートとバックエンドアクションレートを達成したが、クリーンスプリットコントロールは17.0%だった。
既存の防御は、敵のリリンクを確実に捕捉することができず、KBRA防衛は残留バックエンドアクション率を0.0%まで下げる。
関連論文リスト
- Agent-Assisted Side-Channel Attacks on Non-Prefix KV Cache in RAG [17.045113249152234]
非KVキャッシュ融合をターゲットとした、最初のエンドツーエンドのサイドチャネルアタックを導入する。
SpliceLeakは、システマティックな2フェーズのプライバシ侵害を実行する。
SpliceDefenseは、非許容スループットオーバーヘッドでサイドチャネル信号(Delta TTFT 0)を効果的にフラットにする。
論文 参考訳(メタデータ) (2026-06-20T02:28:28Z) - GRKV: Global Regression for Training-Free KV Cache Compression in Long-Context LLMs [97.36238579001544]
コンテキスト長が拡張された大規模言語モデル(LLM)は、キー値(KV)キャッシュに依存して、以前のトークンに対する注意をサポートする。
KVキャッシュを維持することは、KVキャッシュ圧縮メソッドを動機付け、かなりのメモリオーバーヘッドを引き起こす。
GRKVは,圧縮キャッシュとフルキャッシュのアテンション出力の差を直接最小化する,トレーニング不要なKV-cacheマージ手法である。
論文 参考訳(メタデータ) (2026-05-29T10:16:30Z) - Slipstream: Trajectory-Grounded Compaction Validation for Long-Horizon Agents [8.880437352929315]
Slipstream(スリップストリーム)は、判断器を用いてエージェントの継続的な推論に対して候補の要約を検証する、軌道上の圧縮システムである。
タスクの精度を最大8.8ポイント改善し、エンドツーエンドのレイテンシを最大39.7%削減する。
論文 参考訳(メタデータ) (2026-05-09T00:47:43Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections [57.64370755825839]
セルフ進化エージェントはセッション間で内部状態を更新する。
我々はこのリスクを調査し、Zombie Agentと呼ばれる永続的な攻撃を形式化する。
我々は,攻撃者が制御するWebコンテンツを通じて間接的露光のみを使用するブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-17T15:28:24Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [48.904743679691414]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。