論文の概要: AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent
- arxiv url: http://arxiv.org/abs/2606.22673v1
- Date: Sun, 21 Jun 2026 21:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:41:25.742955
- Title: AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent
- Title(参考訳): AgentLens:マルチターン符号化エージェントのための機械的部分空間による解釈可能な安全ステアリング
- Authors: Weidi Luo, Qiming Zhang, Yihao Quan, Mingyu Jin, Jie Cai, Chaowei Xiao, Jingcheng Niu, Zhen Xiang,
- Abstract要約: 大規模言語モデル(LLM)に基づく符号化エージェントは、驚くべき自律性を示す。
既存の安全機構は主に外部ガードレールに依存している。
我々は,ランタイムの安全性検出と表現レベルの緩和を行う,ホワイトボックスの防御フレームワークであるAgentLensを提案する。
- 参考スコア(独自算出の注目度): 53.82005364479556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents based on large language models (LLMs) demonstrate remarkable autonomous capabilities, but they also introduce significant safety and misuse risks during multi-turn interactions with external environments. Existing safety mechanisms mainly rely on external guardrails, which have a limited ability to perform fine-grained behavioral control during execution. Meanwhile, recent mechanistic interpretability methods for LLM safety are mostly confined to single-turn or jailbreak-style QA settings, limiting their ability to capture the evolving risk dynamics of multi-turn agent execution. In this paper, we investigate the safety of multi-turn coding agents from an internal perspective. We propose AgentLens (Mechanistic Subspace Intervention and Steering), a white-box defense framework that performs runtime safety detection and representation-level mitigation for coding agents. Unlike conventional agent guardrails, AgentLens detect harmful execution states from step-level hidden representations and mitigate unsafe behavior by intervening in a 10-dimensional subspace within a single layer. To support this research, we introduce the Mechanistic Agent Safety (MAS) benchmark, comprising comprehensively annotated multi-turn execution trajectories across 194 tasks using LLaMA-3.1-8B, Qwen-2.5-7B, and Gemma-2-9B. Extensive experiments show that AgentLens achieves strong safety detection performance, provides preliminary evidence for lookahead risk anticipation, and substantially reduces harmful actions of the coding agent, establishing a foundation for applying mechanistic interpretability to dynamic LLM agent safety. The code is available at: https://github.com/EddyLuo1232/AgentLens
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく符号化エージェントは、目覚ましい自律性を示すが、外部環境とのマルチターンインタラクションにおいて、かなりの安全性と誤用リスクをもたらす。
既存の安全メカニズムは主に外部ガードレールに依存しており、実行中にきめ細かい動作制御を行う能力に制限がある。
一方、最近のLLM安全性の機械的解釈可能性法は、主にシングルターンまたはジェイルブレイクスタイルのQA設定に限られており、マルチターンエージェントの実行の進化するリスクダイナミクスをキャプチャする能力を制限する。
本稿では,マルチターン符号化エージェントの安全性を内部的観点から検討する。
本稿では,プログラムエージェントに対して,実行時の安全性検出と表現レベルの緩和を行うホワイトボックス防衛フレームワークであるAgentLens(Mechanistic Subspace Intervention and Steering)を提案する。
従来のエージェントガードレールとは異なり、AgentLensはステップレベルの隠れ表現から有害な実行状態を検出し、単一のレイヤ内の10次元のサブスペースにインターバルすることで、安全でない振る舞いを軽減する。
本研究を支援するために,LLaMA-3.1-8B,Qwen-2.5-7B,Gemma-2-9Bを用いて,194タスクにわたる多ターン実行軌跡を包括的にアノテートしたメカニカルエージェントセーフティ(MAS)ベンチマークを導入する。
広範囲にわたる実験により,AgentLensは強力な安全性検出性能を示し,ルックアヘッドのリスク予測の予備的証拠を提供し,コーディングエージェントの有害な作用を著しく低減し,動的LLMエージェントの安全性に機械的解釈性を適用する基盤を確立した。
コードは以下の通り。 https://github.com/EddyLuo1232/AgentLens
関連論文リスト
- OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - Unsafer in Many Turns: Benchmarking and Defending Multi-Turn Safety Risks in Tool-Using Agents [68.20752678837377]
本稿では,単一ターン有害なタスクを多ターン攻撃シーケンスに変換する基本的分類法を提案する。
この分類法を用いて,マルチターンツール使用エージェントの安全性を評価する最初のベンチマークであるMT-AgentRiskを構築した。
トレーニング不要で、ツールに依存しない、自己探索型防御ツールであるToolShieldを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:38:18Z) - AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。
高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。
これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文 参考訳(メタデータ) (2025-07-07T07:34:34Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文 参考訳(メタデータ) (2025-03-24T13:31:48Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。