論文の概要: AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework
- arxiv url: http://arxiv.org/abs/2606.18532v1
- Date: Tue, 16 Jun 2026 22:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.927295
- Title: AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework
- Title(参考訳): AI Sandboxes: 脅威モデル、分類、測定フレームワーク
- Authors: Inderjeet Singh, Haitham Mahmoud, Andrés Murillo,
- Abstract要約: AIシステムは、隔離、シミュレーション、インスツルメンテーション、監督、エビデンスキャプチャを組み合わせた境界環境でますます評価されている。
本稿では、デジタルAIにおけるテスト、評価、検証、検証、実施、サイバー物理展開のための制御された環境として、AIサンドボックスの保証指向のアカウントを開発する。
- 参考スコア(独自算出の注目度): 1.0084724698669782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI systems are increasingly evaluated in bounded environments that combine isolation, simulation, instrumentation, supervision, and evidence capture. For physical AI, AIoT, and cyber-physical systems, this shift is not a matter of terminology: the system under test may sense, decide, actuate, communicate, and fail through physical processes, networked devices, and human operators. This article develops an assurance-oriented account of AI sandboxes as controlled environments for testing, evaluation, verification, and validation across digital AI, embodied autonomy, and cyber-physical deployments. We formalize the sandbox boundary and a weakest-link rule for composing per-dimension evidence into a bounded deployment claim; separate major sandbox archetypes; define a cyber-physical threat model that includes attacks on the assurance apparatus itself; and introduce a measurement framework spanning fidelity, controllability, observability, containment, reproducibility, and governance artifacts, instantiated on three worked case studies of real sandboxes. The resulting threat model, taxonomy, and measurement framework clarify what a sandbox can validly test, which risks it can contain, and what forms of evidence it can support for safety, security, and regulatory assurance.
- Abstract(参考訳): AIシステムは、隔離、シミュレーション、インスツルメンテーション、監督、エビデンスキャプチャを組み合わせた境界環境でますます評価されている。
物理的なAI、AIoT、そしてサイバー物理システムにとって、このシフトは用語の問題ではない。
本稿では、デジタルAIにおけるテスト、評価、検証、検証、実施、サイバー物理展開のための制御された環境として、AIサンドボックスの保証指向のアカウントを開発する。
我々は,サンドボックス境界を定式化し,各次元の証拠を有界展開のクレームに構成するための最も弱いリンクルールを定式化し,主要なサンドボックスのアーキタイプを分離し,保証装置自体への攻撃を含むサイバー物理脅威モデルを定義し,忠実性,制御性,可観測性,封じ込め,再現性,およびガバナンス成果物にまたがる計測フレームワークを導入し,実サンドボックスの3つの事例研究をインスタンス化した。
結果として生じる脅威モデル、分類学、および測定の枠組みは、サンドボックスが有効にテストできること、どのリスクを含むことができるか、そして安全、セキュリティ、規制の保証をサポートすることができる証拠の種類を明らかにする。
関連論文リスト
- Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - Threat-Oriented Digital Twinning for Security Evaluation of Autonomous Platforms [0.4083182125683813]
本稿では,学習可能な自律プラットフォームにおけるサイバーセキュリティ評価のための,脅威指向のディジタルツインニング手法を提案する。
このアプローチは、分離された感受性、自律性、および監督制御機能を備えた、代表的自律スタックのオープンソースでモジュール化されたツインとしてインスタンス化されている。
論文 参考訳(メタデータ) (2026-04-28T15:21:02Z) - Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms [61.29786895012393]
VLA(Vision-Language-Action)モデルがインボディードインテリジェンスのための統一された基盤として登場している。
この調査は、ビジョン・ランゲージ・アクションモデルにおける安全性の統一的で最新の概要を提供する。
論文 参考訳(メタデータ) (2026-04-26T15:58:19Z) - Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses [168.50301366360344]
Embodied AI (Embodied AI) は、知覚、認知、計画、相互作用を、安全クリティカルな環境で機能するエージェントに統合する。
デジタルAIシステムとは異なり、エンボディエージェントは不確実な検知、不完全な知識、動的な人間とロボットの相互作用の下で行動しなければならない。
この調査は、エンボディされたAIにおける安全性研究の包括的なレビューを提供し、完全なエンボディされたパイプラインにわたる攻撃と防御を調査している。
論文 参考訳(メタデータ) (2026-03-28T13:21:44Z) - Constructing Safety Cases for AI Systems: A Reusable Template Framework [10.44708664414503]
安全ケース、つまりシステムが確実に安全であるという構造化された議論は、AIシステムのガバナンスの中心になりつつある。
航空や原子力工学の伝統的な安全ケースのプラクティスは、明確に定義されたシステムの境界、安定したアーキテクチャ、既知の障害モードに依存している。
本研究では、AIシステムにおける安全ケースの構築方法と、古典的アプローチがこれらのダイナミクスを捉えることができない理由について検討する。
論文 参考訳(メタデータ) (2026-01-30T09:53:22Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Towards Safety and Security Testing of Cyberphysical Power Systems by Shape Validation [42.350737545269105]
サイバー物理パワーシステムの複雑さは 攻撃面を大きくし 悪質なアクターに悪用される
我々は,これらのリスクを,サイバーパワーシステムを記述する宣言的アプローチで満たし,セキュリティと安全性の制御を自動的に評価することを提案する。
論文 参考訳(メタデータ) (2025-06-14T12:07:44Z) - Reasoning Under Threat: Symbolic and Neural Techniques for Cybersecurity Verification [0.0]
本調査では,サイバーセキュリティにおける自動推論の役割について概観する。
我々は、SOTAツールとフレームワークを調べ、ニューラルシンボリック推論のためのAIとの統合を調査し、重要な研究ギャップを浮き彫りにする。
本稿は,安全なシステム開発を促進することを目的とした,先進的な研究の方向性の集合をまとめてまとめる。
論文 参考訳(メタデータ) (2025-03-27T11:41:53Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。