論文の概要: Bootstrapped Monitoring: Leveraging Transparent Reasoning to Oversee Stronger AI Agents
- arxiv url: http://arxiv.org/abs/2606.11998v1
- Date: Wed, 10 Jun 2026 12:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.4461
- Title: Bootstrapped Monitoring: Leveraging Transparent Reasoning to Oversee Stronger AI Agents
- Title(参考訳): ブートストラップによる監視:より強力なAIエージェントを見渡すために透明な推論を活用する
- Authors: Frank Xiao, Mary Phuong,
- Abstract要約: フロンティアモデルの性能が向上するにつれて、信頼できないモデルと信頼できないモデルの間の機能ギャップは、信頼できないモニターをレンダリングする可能性がある。
このプロトコルは、より強力で信頼性の低い非信頼モデルと透明なチェーン・オブ・シークレットの推論を、監視チェーンに挿入することで、この問題に対処する。
以上の結果から,自律型監視は,AI能力の進歩とともに,信頼されたモデルが制御において有用な寿命を延ばすことが示唆された。
- 参考スコア(独自算出の注目度): 1.5722704995548957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trusted monitoring is a cornerstone of AI control. However, as frontier models grow more capable, the increasing capabilities gap between trusted and untrusted models may render trusted models unreliable monitors. We introduce \emph{bootstrapped monitoring}, a protocol that addresses this by inserting a stronger, intermediate untrusted model with transparent chain-of-thought reasoning into the oversight chain. The untrusted monitor ($U_m$) evaluates the agent's actions, while a weaker trusted model ($T$) oversees $U_m$'s reasoning to detect collusion. We evaluate bootstrapped monitoring on multi-turn software engineering tasks (BashArena) across multiple agents and monitors. Bootstrapped monitoring substantially improves catch rates over trusted-only monitoring, even when the untrusted monitor actively colludes with the agent, provided we have access to its raw chain-of-thought. Our results suggest that bootstrapped monitoring can extend the useful lifetime of trusted models in control as AI capabilities advance.
- Abstract(参考訳): 信頼された監視は、AI制御の土台だ。
しかし、フロンティアモデルの性能が向上するにつれて、信頼できないモデルと信頼できないモデルの間の能力格差が増大し、信頼できないモデルが現れる可能性がある。
このプロトコルは、より強力で中間的な信頼できないモデルと透明なチェーン・オブ・シークレットの推論をオーバシック・チェーンに挿入することで、この問題に対処する。
非信頼のモニター(U_m$)はエージェントの動作を評価し、弱い信頼のモデル(T$)は共謀を検出するための$U_m$の推論を監督する。
マルチターンソフトウェアエンジニアリングタスク(BashArena)における,複数のエージェントおよびモニタ間でのブートストラップモニタリングを評価する。
信頼できないモニターがエージェントと積極的に衝突しても、ブートストラップモニタリングは信頼できないモニタリングよりもキャッチレートを大幅に改善する。
以上の結果から,自律型監視は,AI能力の進歩とともに,信頼されたモデルが制御において有用な寿命を延ばすことが示唆された。
関連論文リスト
- CIAware-Bench: Benchmarking Control Intervention Awareness Across Frontier LLMs [100.38986535324284]
我々は、フロンティアモデル全体でのtextbfcontrol textbfintervention (CI) の認識を測定するベンチマークである textbfCIAware-Bench を紹介する。
CIAware-Benchは、モデルが自身の軌跡を制御介入によって修正されたものと区別できるかどうかをテストする。
論文 参考訳(メタデータ) (2026-06-09T16:24:16Z) - Training on Documents About Monitoring Leads to CoT Obfuscation [4.971619873738039]
CoT(Chain-of- Thought)モニタリングは、モデル動作を検知する最も有望なツールの1つである。
本研究では,モニタ対応モデルが検出を回避できるかどうかを考察する。
論文 参考訳(メタデータ) (2026-05-14T17:59:01Z) - Noticing the Watcher: LLM Agents Can Infer CoT Monitoring from Blocking Feedback [48.40096834514452]
言語モデルエージェントの内部推論を監督する手法として,Chain-of-Thought(CoT)モニタリングを提案する。
我々は、推論エージェントが彼らのプライベートなCoTが監視下にあると自律的に推測できるかどうかを尋ねる。
フェデラーモデルでは、フィードバックをブロックすることで、このモニターの存在を純粋に推測することができる。
論文 参考訳(メタデータ) (2026-03-14T00:12:14Z) - Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks [12.356708678431183]
現在の防御は、エージェントのChain-of-Thought(CoT)とツール使用アクションを共同で評価し、ユーザの意図との整合性を保証する監視プロトコルに依存している。
これらの監視ベースの防御は、新しいエージェント・アズ・ア・プロキシ・ア・プロキシ・アタックによってバイパス可能であることを実証する。
以上の結果から,現在の監視型エージェント防御は,モデルスケールによらず根本的に脆弱であることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T21:38:38Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。