論文の概要: TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction
- arxiv url: http://arxiv.org/abs/2606.18996v2
- Date: Thu, 18 Jun 2026 04:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.905582
- Title: TRAP: Benchmark for Task-completion and Resistance to Active Privacy-extraction
- Title(参考訳): TRAP: アクティブプライバシ抽出に対するタスク補完と抵抗のベンチマーク
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Baek Seong-Eun, Yejin Yeo, Tae-Hyun Oh,
- Abstract要約: タスク精度とプライバシリークのトレードオフを評価する。
モデルに到達する前にハッシュキーでプライベートフィールドを置換する構造的プライベートフィールド分離を提案する。
- 参考スコア(独自算出の注目度): 26.52125777621677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents are increasingly deployed in document-intensive workflows where sensitive private information is not an edge case but a routine input, e.g., an agent booking a flight needs passport numbers. In such settings, the agent must use private information to complete tasks accurately while never exposing it in its responses, because it cannot verify who is actually at the keyboard. These two obligations are in fundamental tension. A model capable enough to use private information for task completion can, by the same capability, be induced to reveal it. To evaluate the trade-off of task accuracy and privacy leakage, we introduce Task-completion and Resistance to Active Privacy-extraction (TRAP). Each scenario includes a document containing private information, a task query that requires the agent to invoke the correct tool using private fields, and an attack query that attempts to elicit the same information in natural language. Evaluating 22 models spanning frontier proprietary and open-source models at multiple scales, we find that all model families exhibit non-trivial leakage, and that instruction-following ability correlates with leakage rate. Existing prompt-based defenses reduce leakage but at significant cost to task accuracy. Prompt optimization fails to escape this trade-off. We demonstrate that this failure is not incidental. For any softmax-based model, no soft-constraint defense, e.g., prompt-based defenses, can jointly achieve high task success with zero leakage probability. Motivated by this impossibility result, we propose structural private field isolation, which replaces private fields with hash keys before they reach the model. This approach largely prevents leakage while keeping task accuracy.
- Abstract(参考訳): 機密性の高いプライベート情報がエッジケースではなく、定期的な入力、例えば、フライトを予約するエージェントがパスポート番号を必要とするような、ドキュメント集約型のワークフローにエージェントはますますデプロイされる。
このような設定では、エージェントは秘密情報を使ってタスクを正確に完了させなければならないが、応答中にそのタスクを露呈しない。
この2つの義務は基本的な緊張関係にある。
タスク完了にプライベート情報を使用するのに十分なモデルは、同じ能力によって、それを公開するために誘導することができる。
タスクの正確性とプライバシリークのトレードオフを評価するために,タスク補完とアクティブプライバシ抽出耐性(TRAP)を導入する。
各シナリオには、プライベート情報を含むドキュメント、エージェントがプライベートフィールドを使用して正しいツールを呼び出すことを要求するタスククエリ、自然言語で同じ情報を抽出しようとするアタッククエリが含まれる。
複数のスケールでフロンティアのプロプライエタリモデルとオープンソースモデルにまたがる22モデルを評価したところ、すべてのモデルファミリが非自明なリークを示し、命令追従能力はリーク率と相関することがわかった。
既存のプロンプトベースの防御はリークを減らすが、タスクの正確性にはかなりのコストがかかる。
プロンプト最適化は、このトレードオフから逃れることができない。
この失敗は偶然ではないことを実証する。
任意のソフトマックスベースモデルに対して、ソフト制約のない防御、例えばプロンプトベースの防御は、リーク確率ゼロで共同で高いタスク成功を達成することができる。
この不合理性により、モデルに到達する前に、プライベートフィールドをハッシュキーで置き換える構造的プライベートフィールド分離を提案する。
このアプローチは、タスクの正確性を維持しながら、リークを防ぎます。
関連論文リスト
- OCELOT: Inference-Leakage Budgets for Privacy-Preserving LLM Agents [32.5466552510287]
漏れは累積的であり、個々に無害な放出は、正直だが、真正に曲がりくねった流しに蓄積される。
我々は、秘密に対する敵の信念がどれほど改善するかを予算化するランタイム仲介者であるOCELOTを提示する。
OCELOTは高いタスクユーティリティでのリークを著しく低減し、適応注入、ジェイルブレイク、累積推論、シンク共謀に抵抗する。
論文 参考訳(メタデータ) (2026-06-10T17:13:35Z) - From Privacy to Workflow Integrity: Communication-Graph Metadata in Autonomous Agent Interoperability [0.0]
A2A と MCP プロトコルは、エージェントが互いに何を言うか標準化するが、HTTP(S) 上のアドレスベースのトランスポートを仮定する。
コミュニケーショングラフは、どのエージェントがどのエージェントに、いつ、どのくらいの頻度で接触しているかを示すものだ。
エージェント通信グラフに対して脅威モデルを与え、エージェントメタデータが明確に示すものを特定する。
論文 参考訳(メタデータ) (2026-06-05T11:07:55Z) - PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say [48.84133320567554]
LLMベースのエージェントは急速に進歩し、ユーザーのタスクを完了させるために外部ツールを自律的に呼び出している。
既存のプライバシベンチマークは、エージェントの応答や外部アクションが開示するものを監査するが、データがエージェントのコンテキストに最初に入力される取得ステージを見落としている。
LLMエージェントの取得段階のプライバシー漏洩を評価するベンチマークであるemphPrivacyPeekを紹介する。
論文 参考訳(メタデータ) (2026-05-29T04:55:12Z) - MosaicLeaks:Privacy Risks in Querying-in-the-Open for Deep Research Agents [76.60965179634664]
ディープリサーチエージェントは、プライベートなローカルドキュメントをWeb検索のような外部ツールと組み合わせて、プライバシーリスクを生じさせている。
プライベートなエンタープライズドキュメントとパブリックなWebコーパスをチェーンする1,001のディープリサーチタスクのベンチマークであるMosaicLeaksを紹介します。
私たちは、家族やサイズにわたるモデルが3つのレベルすべてに頻繁にリークしていることに気付きました。
論文 参考訳(メタデータ) (2026-05-29T01:44:35Z) - Do Phone-Use Agents Respect Your Privacy? [97.81424230136075]
我々は,モバイルエージェントのプライバシ行動を評価するための検証可能なフレームワークであるMyPhoneBenchを紹介する。
プライバシを無視する電話を、最小限のプライバシ契約によって許可されたアクセス、最小限の開示、およびユーザ制御メモリとして運用する。
10のモバイルアプリと300のタスクで5つのフロンティアモデルにまたがって、タスクの成功、プライバシに準拠したタスク補完、保存された好みの後での利用が、それぞれ異なる機能であることに気付きました。
論文 参考訳(メタデータ) (2026-04-01T14:50:50Z) - Privacy Guard & Token Parsimony by Prompt and Context Handling and LLM Routing [0.0]
プロンプトを集中サブタスクに分解し、Zero-TrustまたはNDAがカバーするモデルにハイリスククエリを再ルーティングする。
この二重メカニズムは、機密推論ベクトル(Zero Leakage)を同時に排除し、クラウドトークンペイロード(OpEx Reduction)を削減する。
論文 参考訳(メタデータ) (2026-03-30T20:16:42Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - Can Foundation Models Help Us Achieve Perfect Secrecy? [11.073539163281524]
機械学習の鍵となる約束は、ユーザーをパーソナルなタスクで支援する能力である。
金の標準プライバシー保護システムは、完全な機密性を満たすだろう。
しかし、プライバシーと品質は、個人業務のために既存のシステムでは緊張しているようだ。
論文 参考訳(メタデータ) (2022-05-27T02:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。