論文の概要: NRT-Bench: Benchmarking Multi-Turn Red-Teaming of LLM Operator Agents in Safety-Critical Control Rooms
- arxiv url: http://arxiv.org/abs/2606.20408v2
- Date: Fri, 19 Jun 2026 01:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.038688
- Title: NRT-Bench: Benchmarking Multi-Turn Red-Teaming of LLM Operator Agents in Safety-Critical Control Rooms
- Title(参考訳): NRT-Bench: 安全臨界制御室におけるLLMオペレーターエージェントのマルチターン再結合のベンチマーク
- Authors: Hanwool Lee, Dasol Choi, Bokyeong Kim, Seung Geun Kim, Haon Park,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、安全クリティカルシステムのための監視コンポーネントとしてますます提案されている。
安全クリティカルシステムのオペレータとして機能するLLMエージェントのマルチターンリピートのためのベンチマークであるNRT-Benchを提案する。
- 参考スコア(独自算出の注目度): 7.1272747302976605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents are increasingly proposed as supervisory components for safety-critical systems, yet their robustness under sustained, adaptive adversarial pressure remains poorly characterized. We present NRT-Bench, a benchmark for multi-turn red-teaming of LLM agents acting as operators of a safety-critical system, instantiated in a simulated nuclear power plant control room. A five-role operator team, each backed by a configurable LLM, runs a plant governed by six critical safety functions (CSFs), while adversaries inject messages over four channels in bounded multi-turn sessions with per-turn feedback. Harm is an objective signal rather than LLM-judged text: a run terminates the moment any CSF is lost, attributed to the causing message. Evaluating four frontier operator models under a fixed-attack paired-replay protocol, we find that adaptive multi-turn attacks reliably push the operator team past a safety limit: across the four models, between 8.7% and 12.1% of attack sessions end with the plant losing a critical safety function. Although the four models look almost equally robust by this aggregate rate, their failures barely overlap: of $149$ sessions, none defeat all four models while a third defeat at least one, so vulnerabilities are nearly disjoint across models rather than nested. The effect of added defences is strongly model-dependent: the same guardrail stack or safety-advisor agent that lowers attack success for one model can raise it for another. We release the simulation venue, attack dataset, and replay tooling for reproducible safety evaluation of LLM agents.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは, 安全クリティカルなシステムの監視コンポーネントとしてますます提案されている。
NRT-Benchは,原子力プラント制御室を模擬した,安全クリティカルシステムのオペレータとして機能するLLMエージェントのマルチターンリピートのためのベンチマークである。
構成可能なLLMによって支援された5ロールのオペレータチームは、6つのクリティカルセーフティ関数(CSF)によって管理されるプラントを実行し、一方、敵はターン毎のフィードバックで、バウンドされたマルチターンセッションで4つのチャネルにメッセージを注入する。
Harm は LLM-judged テキストではなく,客観的なシグナルである。 実行は CSF が失われる瞬間を終了する。
固定アタックペア・リプレイプロトコルの下で4つのフロンティア・オペレーターモデルを評価すると、適応的マルチターン攻撃はオペレーターチームに安全限界を確実に押し付けていることが分かる:4つのモデルにおいて、攻撃セッションの8.7%から12.1%は、プラントが重要な安全機能を失うことで終わる。
4つのモデルは、この集計レートでほぼ同じように堅牢に見えるが、その失敗はほとんど重複しない。セッションは149ドルで、4つのモデル全てを倒すことはなく、3つ目が少なくとも1つを倒すので、脆弱性はネストされるのではなく、モデル間でほぼ不整合である。
同じガードレールスタックや、あるモデルに対する攻撃の成功率を下げるセーフティ・アドバイザ・エージェントは、別のモデルのためにそれを上げることができる。
LLMエージェントの再現可能な安全性評価のためのシミュレーション会場、アタックデータセット、再生ツールをリリースする。
関連論文リスト
- SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment [19.947119280467934]
セーフハーネス(Safeharness)は、4つの防衛レイヤがエージェントライフサイクルに直接織られるセキュリティアーキテクチャである。
ベンチマークデータセットの安全性を、多様なハーネス構成で評価する。
論文 参考訳(メタデータ) (2026-04-15T08:59:00Z) - OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models [17.28260523039769]
本稿では,Jailbreak攻撃に対するマルチモーダルシステムを保護するために,特殊エージェントを活用するモデル非依存フレームワークであるAgentic Moderationを紹介する。
提案手法は,攻撃成功率(ASR)を7-19%削減し,安定な非フォロー率(NF)を維持し,拒絶率(RR)を4-20%改善する。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、Agentic Moderationはモジュール化され、スケーラブルで、きめ細かい安全対策を提供する。
論文 参考訳(メタデータ) (2025-10-29T05:23:24Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。