論文の概要: REALM: A Unified Red-Teaming Benchmark for Physical-World VLMs
- arxiv url: http://arxiv.org/abs/2606.23892v1
- Date: Mon, 22 Jun 2026 19:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.645603
- Title: REALM: A Unified Red-Teaming Benchmark for Physical-World VLMs
- Title(参考訳): REALM:物理世界VLMのための統一されたレッドチームベンチマーク
- Authors: Yifei Zhao, Qian Lou, Mengxin Zheng,
- Abstract要約: 視覚言語モデル(VLM)は、安全クリティカルシステムにおけるインテリジェンスを具現化するための知覚推論バックボーンとして、ますます使われている。
VLMの脆弱性を調査するために多くのレッドチーム手法が開発されているが、その評価はデータセット、メトリクス、脅威モデルで断片化されている。
物理世界VLMのための最初の統一型赤チームベンチマークであるREALMを紹介した。
- 参考スコア(独自算出の注目度): 18.815997579213317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly used as perception-reasoning backbones for embodied intelligence in safety-critical physical systems, where perception or reasoning errors can lead to unsafe decisions or actions. Although many red-teaming methods have been developed to probe VLM vulnerabilities, their evaluation remains fragmented across datasets, metrics, and threat models, making direct comparison difficult and obscuring whether observed differences arise from stronger attacks, more vulnerable models, or incompatible evaluation settings. Existing chatbot-centric red-teaming benchmarks mainly standardize jailbreak and content-safety evaluation, but they do not systematically capture physically grounded functional failures or cover red-teaming methods that target physical-world VLMs. This raises the key challenge of comparing diverse attack methods under a unified protocol while targeting the same scenario-specific failures. We introduce REALM, to our knowledge the first unified red-teaming benchmark for physical-world VLMs. REALM integrates 12 red-teaming methods, 3 model-agnostic defenses, and 13 VLMs under a practical black-box threat model with shared datasets and metrics. To align adversarial objectives across attack families, REALM introduces an agentic target-generation pipeline that constructs shared, scenario-specific, and physically grounded attack objectives for each scene, enabling fair comparison of diverse red-teaming methods under aligned adversarial goals. Our evaluation shows that text and typographic injection attacks induce the most failures, multimodal co-optimization yields the strongest visual-perturbation transfer, single-pass attacks approach iterative methods at much lower cost, and model scale alone does not confer adversarial robustness. Code is available at https://github.com/UCF-ML-Research/REALM.
- Abstract(参考訳): 視覚言語モデル(VLM)は、安全クリティカルな物理システムにおいて、認識や推論エラーが安全でない決定や行動につながるような、知覚に影響を及ぼすバックボーンとして、ますます使われるようになっている。
VLMの脆弱性を調査するために多くのレッドチーム手法が開発されているが、その評価はデータセット、メトリクス、脅威モデルの間で断片化されており、観察された違いがより強力な攻撃、より脆弱なモデル、あるいは互換性のない評価設定から生じるかどうかを直接比較することは困難である。
既存のチャットボット中心のレッドチームベンチマークは、主にジェイルブレイクとコンテンツセーフティの評価を標準化しているが、物理的に基盤付けられた機能障害を体系的に捉えたり、物理世界のVLMをターゲットにしたレッドチーム方式をカバーしていない。
これにより、同一シナリオ固有の障害をターゲットとしながら、統一されたプロトコルの下で多様な攻撃方法を比較するという重要な課題が提起される。
物理世界VLMのための最初の統一型赤チームベンチマークであるREALMを紹介した。
REALMは12のレッドチーム方法、3つのモデルに依存しないディフェンス、13のVLMを共通のデータセットとメトリクスを持つ実用的なブラックボックス脅威モデルの下で統合する。
攻撃ファミリー間で敵の目標を整合させるため、REALMは、各シーンに対して共有、シナリオ固有、物理的に根拠付けられた攻撃目標を構成するエージェントターゲット生成パイプラインを導入し、アライメントされた敵の目標の下で多様な赤チームの方法の公正な比較を可能にする。
評価の結果,テキストとタイポグラフィーによるインジェクション攻撃は最も失敗を招き,マルチモーダル・コプティマイゼーションは最強の視覚的摂動伝達,シングルパス・アタックはより低コストで反復的手法にアプローチし,モデルスケールだけでは敵の頑健さを損なわないことがわかった。
コードはhttps://github.com/UCF-ML-Research/REALMで入手できる。
関連論文リスト
- Automated jailbreak attack targeting multiple defense strategies [11.710908982928594]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
しかし、敵の攻撃による攻撃を受けやすいため、その安全性は依然として重要な懸念事項である。
防衛指向の観点から設計した対戦型テストフレームワークUNIATTACKを提案する。
論文 参考訳(メタデータ) (2026-06-15T14:09:37Z) - GAMMAF: A Common Framework for Graph-Based Anomaly Monitoring Benchmarking in LLM Multi-Agent Systems [0.42970700836450487]
本稿では,オープンソースのベンチマークプラットフォームであるGammaf(LLM Multi-Agent System Framework用のグラフベースの異常モニタリング)を紹介する。
Gammafは、新しい防御機構ではなく、合成マルチエージェントインタラクションデータセットを生成するために設計された包括的な評価アーキテクチャである。
論文 参考訳(メタデータ) (2026-04-27T13:45:14Z) - Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。
敵同士が連携して、徐々に機密データを抽出するように仕向ける。
企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-07-21T13:38:12Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。