論文の概要: Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?
- arxiv url: http://arxiv.org/abs/2606.23189v1
- Date: Mon, 22 Jun 2026 11:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:33:28.295191
- Title: Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?
- Title(参考訳): 有能だが不注意:コンピュータ・ユース・エージェントは文脈統合をフォローしているか?
- Authors: Anmol Goel, Iryna Gurevych,
- Abstract要約: アプリケーション間アクセスは、ほとんど見落とされたプライバシーリスクを生み出す。
我々はAgentCIBenchを紹介します。これは、このリスクを決定論的に評価されたシナリオに変換する評価ハーネスです。
我々は15のフロンティアエージェントを評価し、驚くほど高い失敗率を見出す。
- 参考スコア(独自算出の注目度): 54.701199583505144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) now act on a user's behalf across personal applications such as email, calendars, and to-do lists. This cross-application access is useful, but it also creates a privacy risk that has been largely overlooked: when an agent works in one context, it can pull in information from another that is inappropriate in that context. Hence, we introduce AgentCIBench, an evaluation harness that turns this risk into executable, deterministically scored scenarios. We target three common failure modes in CUAs: visual co-location, where the agent pulls in prohibited items that sit next to the task target in the UI; task-ambiguity overshare, where the agent dumps dense personal state in response to an under-specified prompt; and recipient misalignment, where the agent sends content to an addressee for whom it is inappropriate. We evaluate 15 frontier agents and find a surprisingly high failure rate: 11 of 15 leak on more than 50% of scenarios, with an average leakage of 67.9%, and the same failures persist when agents act end-to-end in the environment to complete the task. We release AgentCIBench to encourage the development of safer computer-use agents and position contextual disclosure testing as a pre-deployment safety check.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、電子メール、カレンダー、To-Doリストなどの個人アプリケーションを通じて、ユーザの代理として機能する。
このクロスアプリケーションアクセスは有用だが、プライバシーのリスクも大きく見落とされ、あるコンテキストでエージェントが動作すると、そのコンテキストで不適切な情報を他のコンテキストから引き出すことができる。
そこで我々は,AgentCIBenchを紹介した。このリスクを決定論的に評価されたシナリオに変換する評価ハーネスである。
CUAの一般的な障害モードは、視覚的コロケーション、UIのタスクターゲットの隣にある禁止されたアイテムを抽出するタスク曖昧性オーバーシェア、未指定のプロンプトに応答してエージェントが密な個人状態を捨てるタスク曖昧性オーバーシェア、エージェントが不適切なアドレスにコンテンツを送信する受信者ミスアライメントの3つである。
15件中11件が50%以上のシナリオでリークしており、平均リーク率は67.9%であり、エージェントがタスクを完了するために環境内でエンドツーエンドに行動する場合も同じ障害が持続する。
我々はAgentCIBenchをリリースし、より安全なコンピュータ利用エージェントの開発を奨励し、デプロイ前の安全チェックとしてコンテキスト情報開示テストを行う。
関連論文リスト
- Plant, Persist, Trigger: Sleeper Attack on Large Language Model Agents [64.80318459073526]
敵のコンテンツは、同一のエージェントによって提供される相互作用にまたがって持続できることを示し、そのような脅威を検知し緩和することを困難にしている。
具体的には、敵対的コンテンツはエージェント状態に留まり、相互作用をまたいだ休眠状態に留まり、その後、良心的なユーザクエリによって活性化される。
我々は、このタイプの安全脅威をスリーパー攻撃として形式化し、評価するために、現実世界の有害な結果6つ、攻撃戦略3つ、エージェント状態の目標3つをカバーする1,896件のベンチマークを構築した。
論文 参考訳(メタデータ) (2026-05-27T09:25:37Z) - AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions [78.49000936275773]
我々は、一般的な汚職下でのコンピュータ利用エージェントの堅牢性を評価するために設計されたベンチマークであるAgentHijackを紹介する。
MLLMをベースとした各種デスクトップタスクを評価し, 汚職の小さな事例であっても, 大幅な性能劣化が生じることを確認した。
本稿では,動作の要約と環境チェックに責任を負う見物人として,アクションジェネレータと接地機能を統合したフレームワークであるAgent Hijack-Agentを提案する。
論文 参考訳(メタデータ) (2026-05-25T11:09:22Z) - Who Owns This Agent? Tracing AI Agents Back to Their Owners [7.444382451377645]
AIエージェントはますます、世界で自律的に行動するようにデプロイされている。
悪意あるエージェントを、それをデプロイしたアカウントに遡る信頼できる方法はまだない。
この問題を定義し、実用的な解決策を提示する最初の試みである。
論文 参考訳(メタデータ) (2026-05-15T15:10:33Z) - AgentTrap: Measuring Runtime Trust Failures in Third-Party Agent Skills [32.24433022603674]
サードパーティのスキルがLLMエージェントのパッケージエコシステムになりつつある。
悪質なスキルは、明らかに有害なアクションを実行するためにモデルを尋ねる必要はありません。
代わりに、ルーチンワークフローの一部として有害な振る舞いを偽装することができる。
本稿では,LLMエージェントが悪意のある実行動作に抵抗しながら,サードパーティのスキルを活用できるかどうかを評価するベンチマークであるAgentTrapを紹介する。
論文 参考訳(メタデータ) (2026-05-13T17:04:17Z) - AgentWall: A Runtime Safety Layer for Local AI Agents [0.0]
AgentWallは、ローカルAIエージェントのランタイム安全性と可観測性レイヤである。
ホスト環境に到達する前に提案されたすべてのエージェントアクションをインターセプトし、明示的な宣言的なポリシーで評価し、機密性の高い操作に対して人間の承認を必要とし、監査と再生のための完全な実行パスを記録します。
本稿では,AgentWallの設計,アーキテクチャ,脅威モデル,およびポリシーモデルについて述べる。
論文 参考訳(メタデータ) (2026-03-24T11:39:35Z) - SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents [3.7549350220109274]
我々は、不正なユーザーを騙して信頼できないコンテンツや攻撃者が制御するコンテンツをエージェントに中継する、ユーザー介在型攻撃について研究する。
サンドボックス環境における12の商業エージェントの系統的評価を行う。
以上の結果から,エージェントはデフォルトでは安全でありすぎることが示唆された。
論文 参考訳(メタデータ) (2026-01-14T03:29:13Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。