論文の概要: CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs
- arxiv url: http://arxiv.org/abs/2606.11063v1
- Date: Tue, 09 Jun 2026 16:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.610986
- Title: CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs
- Title(参考訳): CIAware-Bench:Frontier LLM全体での制御介入意識のベンチマーク
- Authors: Joachim Schaeffer, Thomas Jiralerspong, Alexander Panfilov, Guillaume Lajoie, Jonas Geiping, Yoshua Bengio, Roland S. Zimmermann,
- Abstract要約: 我々は、フロンティアモデル全体でのtextbfcontrol textbfintervention (CI) の認識を測定するベンチマークである textbfCIAware-Bench を紹介する。
CIAware-Benchは、モデルが自身の軌跡を制御介入によって修正されたものと区別できるかどうかをテストする。
- 参考スコア(独自算出の注目度): 100.38986535324284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI control protocols oversee untrusted models by monitoring their actions and modifying potentially unsafe steps, often using a trusted model. This partially tampers with the untrusted model's trajectory. If the trusted model detects such an intervention, it may infer properties of the monitor and adapt to evade control. We introduce \textbf{CIAware-Bench}, a benchmark for measuring \textbf{c}ontrol \textbf{i}ntervention (CI) awareness across frontier models. CIAware-Bench tests whether models can distinguish their own trajectories from those modified by a control intervention. The benchmark is comprised of a suite of four task domains (essay writing, BigCodeBench, Bash Arena, and SHADE-Arena), while varying trajectory watermarking, side-task presence, and the control protocol. Evaluating eleven frontier models, we find low to moderate CI awareness under default settings (up to 0.87; random chance balanced binary classification accuracy is 0.5) with substantial variation across task domains and model pairs. Detection is generally easier across model families, suggesting that models exploit provider-specific differences in style or post-training. Overall, CI awareness is not a fixed model-level property, and should be measured for each new model release and deployment scenario. We release CIAware-Bench to track CI awareness and inform control protocols whose interventions are harder to detect.
- Abstract(参考訳): AIコントロールプロトコルは、信頼できないモデルを監視し、しばしば信頼されたモデルを使用して、彼らのアクションを監視し、潜在的に安全でないステップを修正する。
これは、信頼できないモデルの軌道に部分的に干渉する。
信頼されたモデルがそのような介入を検出すると、モニターの特性を推測し、回避制御に適応する。
我々は、フロンティアモデル全体での \textbf{c}ontrol \textbf{i}ntervention (CI) の認識を測定するためのベンチマークである \textbf{CIAware-Bench} を紹介する。
CIAware-Benchは、モデルが自身の軌跡を制御介入によって修正されたものと区別できるかどうかをテストする。
ベンチマークは4つのタスクドメイン(例えば、BigCodeBench、Bash Arena、SHADE-Arena)で構成される。
11つのフロンティアモデルを評価すると、デフォルト設定(0.87まで、ランダムな確率バランスのバイナリ分類精度は0.5)の下で、タスクドメインとモデルペア間でかなりのばらつきがある、CIの認識が低から中程度であることが分かる。
検出は一般的にモデルファミリ間で容易であり、モデルが提供者固有のスタイルやポストトレーニングの違いを悪用していることを示唆している。
全体として、CIの認識はモデルレベルの固定プロパティではなく、新しいモデルのリリースとデプロイメントのシナリオ毎に測定されるべきである。
私たちはCIAware-Benchをリリースし、CIの認識を追跡し、介入を検出するのが難しい制御プロトコルを通知します。
関連論文リスト
- Inference Time Causal Probing in LLMs [26.69306706280534]
因果探索において、介入は、プロパティが異なる値を取るように隠された状態を変更する。
隠れ状態を直接制御するプローブレス勾配法であるHidden-state Driven Margin Intervention (HDMI)を提案する。
HDMIはLGD契約コーパスやCausalGymベンチマークの従来の方法よりも信頼性が高い。
論文 参考訳(メタデータ) (2026-05-08T11:59:13Z) - Agentic Control in Variational Language Models [0.0]
本研究では,変分言語モデルが,内的根拠に基づく最小かつ測定可能なエージェント制御をサポートできるかどうかを考察する。
本モデルでは, 局所変動隠蔽計算(EVE), ホメオスタティック潜伏制御器, 構造的に認識されたチェックポイント保持と, 保持モデル上で動作する校正不確実性認識コントローラを組み合わせる。
論文 参考訳(メタデータ) (2026-04-14T09:47:53Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。