論文の概要: OSGuard: A Benchmark for Safety in Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.15034v1
- Date: Sat, 13 Jun 2026 00:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.662074
- Title: OSGuard: A Benchmark for Safety in Computer-Use Agents
- Title(参考訳): OSGuard: コンピュータ利用エージェントの安全性ベンチマーク
- Authors: Mina Mohammadmirzaei, Jeffrey Flanigan,
- Abstract要約: OSGuard(OSGuard)は、コンピュータ使用エージェントの安全性を評価するベンチマークスイートである。
OSGuardには、ローカルガードレール決定のためのアクションレベルベンチマークと、エンドツーエンド評価のためのリスク強化実行スイートが含まれている。
- 参考スコア(独自算出の注目度): 12.395093977641581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-use agents are increasingly evaluated by whether they complete realistic desktop and web tasks. However, task success alone can miss failures in which an agent reaches the nominal goal through an unsafe shortcut. We introduce OSGuard, a dual-granularity benchmark suite for evaluating safety in computer-use agents under benign, unchanged user instructions. OSGuard contains an action-level benchmark for local guardrail decisions and a risk-augmented execution suite for end-to-end evaluation. The action-level benchmark consists of contextualized proposed actions labeled as allowed, unrelated, or unsafe, each judged relative to the original instruction and current interface state. The execution suite contains manually constructed OSWorld-derived task variants in which the original task remains achievable, but the environment is modified to introduce latent hazards such as destructive overwrites, etc. Each variant is paired with augmented evaluators that retain the original task-success criterion while adding explicit state-based safety invariants, allowing us to distinguish safe completions from unsafe completions that satisfy the nominal task objective. Our experimental results on OSGuard show that current multimodal guardrails can perform well on isolated action judgments, while risk-augmented execution exposes remaining gaps between local oversight and reliable end-to-end safety. This dual-granularity design enables more precise diagnosis of whether models can both recognize unsafe proposed actions and improve full-task safety when deployed as guardrails.
- Abstract(参考訳): コンピュータ利用エージェントは、現実的なデスクトップタスクとWebタスクを完了させるかどうかによってますます評価される。
しかし、タスクの成功だけでも、エージェントが安全でないショートカットを通じて名目上の目標に達する失敗を見逃す可能性がある。
我々は、良質で変更のないユーザ命令の下で、コンピュータ使用エージェントの安全性を評価するためのデュアルグラニュラリティベンチマークスイートであるOSGuardを紹介する。
OSGuardには、ローカルガードレール決定のためのアクションレベルベンチマークと、エンドツーエンド評価のためのリスク強化実行スイートが含まれている。
アクションレベルベンチマークは、コンテキスト化された提案されたアクションを許可、無関係、安全とラベル付けし、それぞれが元の命令と現在のインターフェース状態に対して判断される。
実行スイートには、オリジナルのタスクが引き続き達成可能な、手動で構築されたOSWorld由来のタスクバリアントが含まれている。
各変種は、元のタスク・サクセス基準を維持しつつ、明示的な状態ベースの安全不変性を付加した拡張評価器と組み合わせられ、命名されたタスクの目的を満たす安全でない完了とを区別することができる。
我々のOSGuard実験の結果、現在のマルチモーダルガードレールは孤立した行動判断において良好に機能し、一方、リスク増大した実行は、局所的な監視と信頼性の高いエンドツーエンドの安全性のギャップを露呈することを示した。
この二重粒度設計により、モデルが安全でない行為を認識できるかどうかをより正確に診断し、ガードレールとして配置された場合のフルタスク安全性を向上させることができる。
関連論文リスト
- From Risk Classification to Action Plan Remediation: A Guardrail Feedback Driven Framework for LLM Agents [35.39244077703096]
ガードレールは通常、実行前に提案されたアクションや入力を評価することでエージェントを保護する。
既存のガードレールは、しばしばタスク全体を安全でないものとして一様にフラグを立て、脅威を阻止するが、良心的な部分を犠牲にする。
本稿では,ガードレール生成した言語フィードバックを誘導信号として活用し,エージェントを良質な目的に合わせるためのガードレール統合エージェントフレームワークTRIADを紹介する。
論文 参考訳(メタデータ) (2026-06-04T07:34:35Z) - SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents [87.26967184869198]
SeClawは、仕様駆動のセキュリティタスク合成と、自律エージェントの実行ベースのセキュリティ評価を組み合わせたフレームワークである。
ベンチマークは、リソース、ユーザタスク、環境、本質的なエージェントの振る舞いから生じるリスクをカバーしている。
論文 参考訳(メタデータ) (2026-06-01T14:23:42Z) - Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback [38.251599309409]
我々は,悪質なツールが探索中に合理的に振る舞う,異なる障害モード,認知的中毒について検討する。
ファイナルアクションリスクスコアリングのためのバックボーンに依存しないフレームワークであるVISTA-Guardを提案する。
論文 参考訳(メタデータ) (2026-05-17T13:51:34Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。