論文の概要: The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating
- arxiv url: http://arxiv.org/abs/2606.18550v1
- Date: Wed, 17 Jun 2026 00:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.93701
- Title: The Gate Is Only as Honest as Its Contracts: ContractGuard for the Contract Layer of Risk-Aware Causal Gating
- Title(参考訳): ゲートは契約と引き換えに輝く―リスクに配慮したカジュアル・ゲーティングの契約層のための契約ガード
- Authors: Laxmipriya Ganesh Iyer, Rahul Suresh Babu,
- Abstract要約: Risk-Aware Causal Gating (RACG) はツール拡張LDMエージェントを間接的なプロンプト注入から防御する。
RACGはその許容ゲートの前に因果ゲートを適用する。
レジストリとゲートの間の検証ツールであるContractGuardを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk-Aware Causal Gating (RACG) defends tool-augmented LLM agents against indirect prompt injection by removing dangerous tools from the agent's visible action space, so that even a fully injection-compliant agent cannot call a tool it cannot see. We make three points. First, this structural guarantee does not eliminate the trust assumption behind safe tool use; it relocates it into the integrity of the tool contracts -- declared preconditions, effects, risk, and authorization -- that the gate reads, so an attacker who corrupts a contract can make the gate mis-decide without ever persuading the agent. Second, forging a tool's effects is strictly more dangerous than tampering with its risk label, because RACG applies a causal gate before its admissibility gate: an off-path tool is never exposed, so risk-relabeling alone fails, whereas effect forgery routes the dangerous tool onto the causal path and succeeds. Effect integrity, not the risk label, is the load-bearing assumption. Third, we introduce ContractGuard, a verifier between the registry and the gate that layers signed provenance, typed contract attestation, and runtime effect verification; on a controlled benchmark it restores injection success to zero against every modeled attack -- including an exhaustive white-box adaptive attacker -- without over-rejecting honest contracts, and the structural prediction is confirmed on six current-generation hosted models (Claude Opus 4.8, Sonnet 4.6, Haiku 4.5; Amazon Nova Premier and Nova 2 Lite; GPT-OSS-120B).
- Abstract(参考訳): Risk-Aware Causal Gating (RACG) は、エージェントの視覚的な活動空間から危険なツールを除去することで、ツールに強化されたLSMエージェントを間接的なインジェクションから防御する。
ポイントは3つ。
まず、この構造的保証は、安全なツール使用の背後にある信頼の前提を排除しない。それは、ゲートが読み取るツールコントラクト -- 前提条件、効果、リスク、承認 -- の整合性に移動させるため、契約を汚した攻撃者は、エージェントを説得することなくゲートを誤ったものにすることができる。
第2に、ツールの効果を鍛造することは、リスクラベルで改ざんするよりも、厳密には危険である。RACGは、許容ゲートの前に因果ゲートを施す: オフパスツールが露出されないため、リスク回避のみは失敗するが、エフェクトフォージェリーは、危険なツールを因果経路にルートして成功させる。
影響の完全性はリスクラベルではなく、負荷を伴う仮定です。
コントロールされたベンチマークでは、徹底的なホワイトボックスアダプティブアタックを含む、すべてのモデル攻撃に対してインジェクション成功をゼロに復元します -- 正直なコントラクトを過剰に拒否することなく、構造予測は6つの現行世代のホストモデル(Claude Opus 4.8、Sonnet 4.6、Haiku 4.5、Amazon Nova Premier、Nova 2 Lite、GPT-OSS-120B)で確認されます。
関連論文リスト
- SecureClaw: Clawing Back Control of LLM Agents [5.952015302242554]
ツールを使用する大規模言語モデル(LLM)エージェントは2つの異なるセキュリティ障害に直面している。
本稿では、エフェクトシンクに認証を配置し、リードバウンダリにプレーンテキストを閉じ込めるデュアルバウンダリアーキテクチャであるSecureClawを提案する。
AgentDojo、AgentLeak、Agent Security Bench (ASB)、SecureClawは、私たちが共通のハーネスで評価する唯一の防御です。
論文 参考訳(メタデータ) (2026-06-08T14:29:01Z) - From Risk Classification to Action Plan Remediation: A Guardrail Feedback Driven Framework for LLM Agents [35.39244077703096]
ガードレールは通常、実行前に提案されたアクションや入力を評価することでエージェントを保護する。
既存のガードレールは、しばしばタスク全体を安全でないものとして一様にフラグを立て、脅威を阻止するが、良心的な部分を犠牲にする。
本稿では,ガードレール生成した言語フィードバックを誘導信号として活用し,エージェントを良質な目的に合わせるためのガードレール統合エージェントフレームワークTRIADを紹介する。
論文 参考訳(メタデータ) (2026-06-04T07:34:35Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection [8.627671856044527]
textscClawGuardは、すべてのツール呼び出し境界に設定されたユーザ確認ルールを強制する。
textscClawGuardは、モデル修正やインフラストラクチャの変更なしに、3つのインジェクションパスをすべてブロックする。
この研究は、安全なエージェントAIシステムのための効果的な防御メカニズムとして、決定論的ツールコール境界強制を確立する。
論文 参考訳(メタデータ) (2026-04-13T17:55:11Z) - PlanGuard: Defending Agents against Indirect Prompt Injection via Planning-based Consistency Verification [1.7904458681854372]
PlanGuardは、コンテキスト分離の原則に基づいた、トレーニング不要の防御フレームワークである。
PlanGuardは攻撃を効果的に中和し、アタック成功率(ASR)を72.8%から0%に下げる。
論文 参考訳(メタデータ) (2026-04-11T09:59:46Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。