論文の概要: The Distributed Detectability Band Against Marginal-Preserving Attacks
- arxiv url: http://arxiv.org/abs/2606.10456v1
- Date: Tue, 09 Jun 2026 06:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.343024
- Title: The Distributed Detectability Band Against Marginal-Preserving Attacks
- Title(参考訳): マルウェア保存攻撃に対する分散型検出バンド
- Authors: Zhang Qinqin, Gao Yuze,
- Abstract要約: AIコントロールは、個々のエージェントアクションをスコアし、誤った振る舞いを検出する。
本当の害は、多くの良心的なステップに分散することができ、各ステップ毎のアラームよりそれぞれ低い。
我々は、限界保存、相関符号化された分散サボタージュ攻撃を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI-control monitors score individual agent actions to detect misbehavior, but real harm can be distributed across many benign-looking steps, each individually below any per-step alarm. We construct a marginal-preserving, correlation-encoded distributed-sabotage attack using a Gaussian-copula AR(1) construction: the per-step monitor-score marginal is held exactly equal to benign, so mean, max, top-k tail, and threshold monitors (Monitor A) are defeated by construction, while harm is encoded in the temporal correlation structure. We sequence the paper around three reviewer-mandated gates. (1) Realizability gate: the stealthy attack achieves KS-distance to benign of 0.013 (effectively zero) at all tested harm levels up to 3.0, confirming that harm is fully decoupled from the per-step marginal and realizability is not harm-limited. (2) Monitor-A-vs-B reconciliation: we show formally that the attack, built against Monitor A's score marginal, remains marginal-preserving under a different-score Monitor B (the correlation/sequence family: CUSUM, SPRT, HMM-LR, runs test, autocorrelation, windowed logistic), and scope worst-case claims to score functions that admit a temporal signature. (3) Non-empty detectability band: Monitor A achieves AUC 0.52 (chance); Monitor B spans AUC 0.79-0.97 at the same 1% FPR target, and as harm is amortized over more steps Monitor A collapses to chance while Monitor B holds at AUC ~0.95. These results demonstrate a non-empty detectability band and characterize the sub-threshold sabotage frontier: distribution-shape monitors fail by construction; temporal-correlation monitors can detect but are not trivially optimal.
- Abstract(参考訳): AIコントロールは、個々のエージェントアクションをスコアし、誤動作を検出するが、実際の害は、各ステップ毎のアラームよりそれぞれ低い、多くの良心的なステップに分散できる。
ガウス・コピュラAR(1)構造を用いて, 境界保存, 相関符号化された分散サボタージュ攻撃を構築: ステップごとの監視スコア限界はベニグニと正確に等しく保持されるので, 平均, 最大, トップクテール, しきい値モニタ(モニタA)は, 時間的相関構造において害が符号化される一方で, 構成により破壊される。
我々は3つのレビュアーによるゲートの周りで論文を列挙する。
1)実現ゲート:ステルスシー攻撃は、最大3.0までの全ての試験された害レベルにおいて0.013(事実上ゼロ)の良さをKS距離で達成し、各段階の限界から危害が完全に切り離され、実現可能性に害が及ばないことを確認する。
2) Monitor-A-vs-Bの照合: モニターAのスコアの限界に対して構築された攻撃は、異なるスコアのモニターB(相関系列: CUSUM, SPRT, HMM-LR, テスト, 自動相関, ウィンドウ付きロジスティック)と、時間的シグネチャを許容するスコア関数に対するスコープ最悪のクレームの限界保存を公式に示す。
(3)非空検出バンド: Monitor A は AUC 0.52 (chance); Monitor B は同じ 1% FPR ターゲットで AUC 0.79-0.97 にまたがって AUC 0.79-0.97 を達成する。
これらの結果は、非空検出バンドを示し、サブスレッショルドサボタージュフロンティアを特徴付ける:分散形状モニターは、構成によってフェールし、時間相関モニタは検出できるが、自明に最適ではない。
関連論文リスト
- Monitoring Agentic Systems Before They're Reliable [0.7422381022274628]
運用に入るエージェントシステムは、通常、部分的に統合されたアセンブリとして機能し、構造上の欠陥はタスクレベルのエラーではなく、障害のランドスケープを支配します。
本稿では,エージェントシステム評価を3次元(品質,適合性,効率)に分割するモニタリング・トリアージ手法を提案する。
発見は、FMEAに適合した重度分類によってルートされ、調査を保証しているサブセットに人間の注意を集中させる。
論文 参考訳(メタデータ) (2026-06-01T17:01:53Z) - Label-Free Detection of Governance Evidence Degradation in Risk Decision Systems [0.0]
不正検出・信用スコアリングにおけるリスク決定システムは、構造ラベルが存在しない状態で運用される。
既存のフレームワークは、ドリフト検出とガバナンスエビデンス評価と運用対応を統合していません。
本稿では,ガバナンスドリフトツールキットのラベルフリーガバナンス監視拡張について述べる。
論文 参考訳(メタデータ) (2026-04-20T05:46:15Z) - DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - A Label-Free Heterophily-Guided Approach for Unsupervised Graph Fraud Detection [60.09453163562244]
本稿では,非教師付きGFDのための非教師付きグラフ不正検出手法(HUGE)を提案する。
推定モジュールでは、GFD の臨界グラフ特性をキャプチャする HALO と呼ばれる新しいラベルフリーなヘテロフィリー計量を設計する。
アライメントに基づく不正検出モジュールにおいて、ランキング損失と非対称アライメント損失を有する合同GNNアーキテクチャを開発する。
論文 参考訳(メタデータ) (2025-02-18T22:07:36Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。