論文の概要: Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications
- arxiv url: http://arxiv.org/abs/2606.18673v1
- Date: Wed, 17 Jun 2026 04:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.000249
- Title: Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications
- Title(参考訳): 実世界のLLMアプリケーションにおけるプロンプト漏洩攻撃の理解と軽減
- Authors: Yong Yang, Chong Fu, Tong Zhang, Rui Zeng, Qingming Li, Tianyu Du, Zonghui Wang, Shouling Ji, Wenzhi Chen,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくアプリケーションにおいて,プロンプトリークのシステマティックスタディを提案する。
デプロイの80%以上は、現実的な逆クエリの下で、システムにリークする。
我々は、最適化可能なソフトプロンプトを用いてモデルの注意を喚起する実用的な防御であるARAを提案する。
- 参考スコア(独自算出の注目度): 57.33208520608409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based applications rely on system prompts to encode core logic and developer-defined constraints, making these prompts important intellectual property. However, system prompts are vulnerable to prompt leaking attacks. Although prior work has shown such attacks in controlled settings, their prevalence, causes, and defenses in real-world deployments remain unclear. This paper presents a systematic study of prompt leaking in real-world LLM-based applications. We measure 1,200 applications across six major commercial platforms and find that over 80% of deployments leak system prompts under realistic adversarial queries, sometimes exposing sensitive information such as third-party API keys. We also show that existing defenses often fail to prevent leakage without degrading usability. To explain these failures, we conduct an attention-level mechanistic analysis and identify attention drift, where query-key alignment bias and softmax amplification cause LLMs to progressively ignore defensive constraints. Guided by this insight, we propose AREA, a practical defense that re-anchors the model's attention using an optimizable soft prompt. Experiments and real-world case studies show that AREA matches the leakage resistance of state-of-the-art defenses while improving average usability by over 33% and reducing optimization overhead by nearly 3x. Our responsible disclosure led two affected vendors to classify these leaks as medium-severity vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのアプリケーションは、コアロジックと開発者が定義した制約をエンコードするシステムプロンプトに依存しており、これらのプロンプトは重要な知的特性をもたらす。
しかし、システムプロンプトは、急激な攻撃に対して脆弱である。
以前の研究では、コントロールされた設定でこのような攻撃が見られたが、実際のデプロイメントにおけるその頻度、原因、防御は、まだ不明である。
本稿では,実世界のLCMアプリケーションにおける高速漏洩の系統的研究について述べる。
6つの主要な商用プラットフォームで1200のアプリケーションを計測し、デプロイの80%以上は、現実的な敵クエリの下で、時にはサードパーティのAPIキーのような機密情報を漏らす。
また,既存の防御がユーザビリティを損なうことなく漏れを防げないことも示している。
これらの故障を説明するために、我々は注意レベル力学解析を行い、注意ドリフトを特定し、クエリキーアライメントバイアスとソフトマックス増幅によりLLMは防御的制約を徐々に無視する。
この知見に導かれて、最適化可能なソフトプロンプトを用いてモデルの注意を喚起する実用的な防御であるARAを提案する。
実験と実世界のケーススタディにより、AREAは最先端の防御のリーク抵抗と一致し、平均ユーザビリティを33%以上改善し、最適化オーバーヘッドを3倍近く削減した。
当社の責任のある開示により、影響を受けた2つのベンダーは、これらのリークを中程度の脆弱性として分類しました。
関連論文リスト
- Analysis of LLMs Against Prompt Injection and Jailbreak Attacks [7.685814179879813]
この研究は、大規模な手動でキュレートされたデータセットを使用して、プロンプトインジェクションとジェイルブレイクの脆弱性を評価する。
内部安全機構によって引き起こされる、拒絶応答や完全な無声応答を含むモデル間での行動変化を観察する。
論文 参考訳(メタデータ) (2026-02-24T12:32:11Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Zero-Shot Embedding Drift Detection: A Lightweight Defense Against Prompt Injections in LLMs [2.2448294058653455]
敵は電子メールやユーザー生成コンテンツなどの間接的な入力チャネルを利用してアライメント保護を回避する。
本稿では,Zero-Shot Embedding Drift Detection (ZEDD)を提案する。
ZEDDは、モデル内部へのアクセス、アタックタイプの事前知識、タスク固有の再トレーニングを必要とせずに動作する。
論文 参考訳(メタデータ) (2026-01-18T11:33:35Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。