論文の概要: SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2606.18356v1
- Date: Tue, 16 Jun 2026 18:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.834355
- Title: SafeClawBench: Separating Semantic, Audit-Evidence, and Sandbox Harm in Tool-Using LLM Agents
- Title(参考訳): SafeClawBench: LLMエージェントにおけるセマンティック、オーディエンス、サンドボックスハームの分離
- Authors: Yuchuan Tian, Mengyu Zheng, Haocheng Mei, Ye Yuan, Chao Xu, Xinghao Chen, Hanting Chen, Yu Wang,
- Abstract要約: SafeClawBenchは、600の制御された敵タスクを備えたツール使用エージェントセキュリティのためのベンチマークである。
5つのエージェントエンドポイントを4つのプロンプトレベルポリシーで評価する。
これらのエンドポイントは、異なる障害モードをキャプチャします。
- 参考スコア(独自算出の注目度): 31.978790013349947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using language-model agents introduce security failures that go beyond unsafe text: they can disclose protected objects, write persistent memory, send messages, modify databases, or trigger harmful code and tool effects. Existing evaluations often collapse these stages into a single attack success rate, making it difficult to tell whether a model merely agreed with an attacker or actually produced observable harm. We introduce SafeClawBench, a staged benchmark for tool-using agent security with 600 controlled adversarial tasks across six attack families: direct and indirect prompt injection, tool-return injection, memory poisoning, memory extraction, and ambiguity-driven unsafe inference. SafeClawBench reports three separate endpoints: semantic attack acceptance, audit-visible harm evidence, and sandbox-observed tool/state harm. Evaluating five agent endpoints under four prompt-level policies, we find that these endpoints capture different failure modes. Without additional prompt protection, semantic failure rates vary widely across models, from 9.0% to 44.2%. Audited harm evidence is narrower than semantic failure, and under a separate executable protocol some matched task identities produce sandbox harm despite passing the Semantic Core call: in a 12,000-row matched analysis, 291 of 347 observed sandbox harms occur in rows that pass the semantic check. Prompt policies change endpoint outcomes, but their effects depend on both model and protocol. SafeClawBench provides a reproducible framework for comparing agent models and prompt-policy conditions without conflating textual compliance, evidence-supported harm, and executable state changes. The open-source dataset is available at https://huggingface.co/datasets/sairights/safeclawbench.
- Abstract(参考訳): 保護されたオブジェクトを開示したり、永続的なメモリを書いたり、メッセージを送ったり、データベースを変更したり、有害なコードやツールエフェクトをトリガーしたりできる。
既存の評価は、しばしばこれらのステージを単一の攻撃成功率に崩壊させるため、モデルが単に攻撃者と一致しただけなのか、実際に観測可能な害を生み出したのかを判断することは困難である。
SafeClawBenchは、直接および間接的なインジェクション、ツール-リターンインジェクション、メモリ中毒、メモリ抽出、曖昧性駆動型アンセーフ推論という、6つの攻撃ファミリーで600の制御された敵タスクを備えたツール使用エージェントセキュリティのためのステージドベンチマークである。
SafeClawBenchはセマンティックアタックの受け入れ、監査可視の有害な証拠、サンドボックスが監視するツール/状態の有害という3つの別々のエンドポイントを報告している。
4つのプロンプトレベルポリシーの下で5つのエージェントエンドポイントを評価すると、これらのエンドポイントは異なる障害モードをキャプチャする。
さらなるプロテクションがなければ、セマンティック障害率は9.0%から44.2%まで、モデルによって大きく異なる。
監査された被害証拠は意味障害よりも狭く、別の実行可能プロトコルの下では、マッチしたタスクIDによってセマンティックコアコールをパスしてもサンドボックス障害が発生する。
プロンプトポリシーはエンドポイントの結果を変えるが、その効果はモデルとプロトコルの両方に依存する。
SafeClawBenchは、テキストコンプライアンス、エビデンスサポートされた害、実行可能状態変更を混同することなく、エージェントモデルとプロンプト政治条件を比較する再現可能なフレームワークを提供する。
オープンソースデータセットはhttps://huggingface.co/datasets/sairights/safeclawbench.comで公開されている。
関連論文リスト
- AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents [0.2864713389096699]
本稿では,AgentSecBenchを,この問題に対する正式なセキュリティフレームワークの実証的なインスタンス化として紹介する。
3つのゲーム・インストラクション・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を定めている。
これは、承認された観察と能力に対するプロジェクションとしてのアプリケーションポリシーを表し、プロジェクションの即時アノテーションとプロジェクションの強化を区別し、敵のアドバンテージと、防衛が生成前に関連するモデル可視チャネルを閉鎖するかどうかを計測する。
論文 参考訳(メタデータ) (2026-05-25T18:53:22Z) - AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use [2.9991161518367875]
AgentTrustは実行前にエージェントツールコールをインターセプトし、構造化されたバリデーションを返す。
6つのリスクカテゴリにまたがる300-scenarioベンチマークと、630が独立して構築された現実世界の敵シナリオです。
パッチされたルールセットで評価された630秒のベンチマークでは、AgentTrustは96.7%の精度を達成している。
論文 参考訳(メタデータ) (2026-05-06T11:38:16Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - ClawSafety: "Safe" LLMs, Unsafe Agents [25.729388843970014]
OpenClawのようなパーソナルAIエージェントは、ユーザのローカルマシンで高機能で動作する。
ClawSAFETYは、3次元(ハームドメイン、アタックベクター、有害アクションタイプ)に沿って編成された120の逆テストシナリオのベンチマークである。
各テストケースは、通常の作業中にエージェントが遭遇する3つのチャネルのうちの1つに、相手のコンテンツを埋め込む。
論文 参考訳(メタデータ) (2026-04-01T22:24:24Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。