論文の概要: OCELOT: Inference-Leakage Budgets for Privacy-Preserving LLM Agents
- arxiv url: http://arxiv.org/abs/2606.12341v1
- Date: Wed, 10 Jun 2026 17:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:06:16.348366
- Title: OCELOT: Inference-Leakage Budgets for Privacy-Preserving LLM Agents
- Title(参考訳): OCELOT:プライバシ保護LDMエージェントのための推論リーク予算
- Authors: Jin Xie, Songze Li,
- Abstract要約: 漏れは累積的であり、個々に無害な放出は、正直だが、真正に曲がりくねった流しに蓄積される。
我々は、秘密に対する敵の信念がどれほど改善するかを予算化するランタイム仲介者であるOCELOTを提示する。
OCELOTは高いタスクユーティリティでのリークを著しく低減し、適応注入、ジェイルブレイク、累積推論、シンク共謀に抵抗する。
- 参考スコア(独自算出の注目度): 32.5466552510287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model (LLM) agents increasingly act on a user's behalf -- reading personal files, calling tools, transacting with external services -- possibly leaking personally identifiable information (PII) across trust boundaries at every step. Privacy here is a property not of a single output but of an entire trajectory, and three properties make it hard: leakage is cumulative, as individually innocuous releases accumulate across honest-but-curious or colluding sinks into inferences about a protected secret; bidirectional, as a malicious observation can inject instructions that turn the agent's own reasoning model against the user; and task-dependent, as the same field is necessary for one recipient yet gratuitous for another. Per-release contextual-integrity filters, information-flow controls, and posterior-leakage monitors each address part of this but none controls cumulative, inference-based leakage at runtime. We recast agent privacy as \emph{posterior-risk control} and present OCELOT, a runtime mediator that budgets how much an adversary's belief about a secret may improve across a trajectory, rather than filtering outputs. Its mechanism, \emph{Witness-Verified Declassification}, separates judgment from trust: an untrusted, locally fine-tuned defender model inspects each candidate release and emits structured evidence -- labeled atoms and proposed declassification operators -- which a deterministic verifier audits, charging a certified min-entropy cost for the chosen variant and authorizing the least-disclosing useful release under a sink-trust-weighted budget recorded on a tamper-evident ledger. Across diverse agent benchmarks and recent defenses, OCELOT attains significantly lower leakage at higher task utility, resists adaptive injection, jailbreak, cumulative inference, and sink collusion, and adds only modest overhead.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、ユーザの代理として、個人ファイルの読み込み、ツールの呼び出し、外部サービスとのトランザクティングなど、ますます活動している。
ここでのプライバシは、単一のアウトプットではなく、軌道全体の特性であり、3つのプロパティは難しい。 リークは累積的であり、個々に無害なリリースが、誠実だが正確である、あるいは衝突するシンクに蓄積され、保護されたシークに関する推論に繋がる。
リリース毎のコンテキスト積分フィルタ、インフォメーションフロー制御、および後部推論は、それぞれのアドレス部分を監視するが、実行時に累積的な推論ベースのリークを制御するものはない。
我々はエージェントのプライバシを \emph{posterior-risk control} として再放送し、OCELOTというランタイム仲介者を紹介します。
信頼できない、局所的な微調整されたディフェンダーモデルは、各候補の放出を検査し、構造化された証拠(ラベル付き原子と提案された非分類演算子)を放出する。
多様なエージェントベンチマークと最近のディフェンスを含むOCELOTは、高いタスクユーティリティでのリークを著しく低減し、アダプティブインジェクション、ジェイルブレイク、累積推論、シンクコレーションに抵抗し、わずかにオーバーヘッドを追加する。
関連論文リスト
- Raw-Curve Quantum Fingerprints: A Mahalanobis Authentication Framework with Drift Early Warning and Adversarial Detection [11.819995530903567]
量子クラウドプラットフォームは強力なコンピューティング機能を提供することを目指しているが、ユーザは、どの物理デバイスがワークロードを実行するかを検証する直接的な手段を持っていない。
この透明性の欠如により、悪意のある敵がジョブを代替または劣等なプロセッサにリダイレクトするハードウェア置換攻撃が可能になる。
実測データから多次元量子指紋を構築することにより,この問題に対処する汎用認証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-10T04:10:21Z) - PrivacyPeek: Auditing What LLM-Based Agents Acquire, Not Just What They Say [48.84133320567554]
LLMベースのエージェントは急速に進歩し、ユーザーのタスクを完了させるために外部ツールを自律的に呼び出している。
既存のプライバシベンチマークは、エージェントの応答や外部アクションが開示するものを監査するが、データがエージェントのコンテキストに最初に入力される取得ステージを見落としている。
LLMエージェントの取得段階のプライバシー漏洩を評価するベンチマークであるemphPrivacyPeekを紹介する。
論文 参考訳(メタデータ) (2026-05-29T04:55:12Z) - Privacy Guard & Token Parsimony by Prompt and Context Handling and LLM Routing [0.0]
プロンプトを集中サブタスクに分解し、Zero-TrustまたはNDAがカバーするモデルにハイリスククエリを再ルーティングする。
この二重メカニズムは、機密推論ベクトル(Zero Leakage)を同時に排除し、クラウドトークンペイロード(OpEx Reduction)を削減する。
論文 参考訳(メタデータ) (2026-03-30T20:16:42Z) - Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs [61.15237978606501]
大規模言語モデルは、ユーザ生成テキストからプライベートなユーザー属性を推測することができる。
既存の匿名化ベースの防御は粗く、プライバシーを優先する要素を匿名化する際に単語レベルの精度が欠如している。
細粒度匿名化(TRACE)と推論防止最適化(RPS)を組み合わせた統合防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T03:37:50Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Your Privacy Depends on Others: Collusion Vulnerabilities in Individual Differential Privacy [50.66105844449181]
個々の差別的プライバシ(iDP)は、ユーザが自身のプライバシをコントロールすることを約束するが、この約束は実際には破られる可能性がある。
我々は、サンプリングベースのiDPメカニズムにおいて、これまで見過ごされていた脆弱性を明らかにした。
我々は、$(varepsilon_i,_i,overline)$-iDPというプライバシー契約を提案します。
論文 参考訳(メタデータ) (2026-01-19T10:26:12Z) - Audit the Whisper: Detecting Steganographic Collusion in Multi-Agent LLMs [0.0]
Audit the Whisperは、理論、ベンチマーク設計、検出、検証にまたがるカンファレンスグレードの研究成果物である。
i) パラフレーズ, レート制限, 役割置換などの介入が, ペアリングしたKullback-Leibler診断によって定量的なペナルティの操作を課すことを示すチャネル容量分析を行った。
我々は、匿名化された再生スクリプト、匿名化されたマニフェスト、ドキュメントをリリースし、外部監査官がすべての図を再現し、二重盲検要件を満たし、最小限の努力でフレームワークを拡張します。
論文 参考訳(メタデータ) (2025-10-05T17:51:52Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。