Fugu-MT 論文翻訳(概要): Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries

論文の概要: Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries

arxiv url: http://arxiv.org/abs/2606.09005v1
Date: Mon, 08 Jun 2026 04:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.692136
Title: Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries
Title（参考訳）: 文書認証制御信号の偽装:RAGの安全性境界に対する低コスト間接的攻撃
Authors: Jianguo Zhu,
Abstract要約: Document-Authored Control-Signal Impersonation (DACSI) は間接的なプロンプトインジェクション内での非イペラティブなメタデータのようなペイロードサブクラスである。我々は,DACSIを6つのモデル設定,プロンプト圧レベル,インジェクションベースライン,信号,RAGを用いたパイプライン,システム制御プローブ,ソースオーソリティ属性プローブ,合成カナリアフォーマットで評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-augmented generation (RAG) systems often serialize user queries, retrieved documents, metadata, system labels, and task instructions into one natural-language prompt. We study a source-authority boundary failure in this design: attacker-authored retrieved text can impersonate metadata, provenance, authority, or disclosure-policy signals that appear control-relevant to the model. We call this pattern Document-Authored Control-Signal Impersonation (DACSI). DACSI is a non-imperative, metadata-like payload subclass within indirect prompt injection. Its central lesson is simple: document-authored labels are data, not policy. Command-style injection asks the model to ignore, override, or violate policy; DACSI asks whether untrusted document text can be misattributed as an authorized control signal when RAG prompt rendering collapses trusted and untrusted text into the same natural-language channel. We evaluate DACSI across six model settings, prompt-pressure levels, injection baselines, signal taxonomies, RAG-mediated pipelines, system-control probes, a source-authority attribution probe, and synthetic canary formats. We interpret the evidence by model regime rather than as six equal replications: DeepSeek V4 Pro and Qwen3.5-397B provide the cleanest positive lift, DeepSeek V4 Flash is a high-susceptibility setting, GPT-5.5 and Gemini 3.1 Pro Low are strong-boundary probes with selected residual risks, and GLM-4.7 is a saturated leakage boundary case. Across these regimes, DACSI warrants separate evaluation because it uses a command-free metadata/provenance/policy surface, follows a RAG-specific source-authority path, and responds to source/channel separation. The source-authority probe is behavioral attribution evidence, not proof of an internal mechanism.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) システムは、ユーザクエリ、検索されたドキュメント、メタデータ、システムラベル、タスク命令を1つの自然言語プロンプトにシリアライズする。我々は、この設計において、ソース・オーソリティ境界の障害について研究する:攻撃者が承認した検索されたテキストは、そのモデルに制御関連があるように見えるメタデータ、証明、権威、開示ポリシーの信号を偽装することができる。このパターンをDocument-Authored Control-Signal Impersonation (DACSI)と呼ぶ。 DACSIは間接的なプロンプトインジェクション内の非イペラティブなメタデータのようなペイロードサブクラスである。ドキュメントによるラベルは、ポリシーではなくデータである。コマンドスタイルのインジェクションは、モデルを無視、オーバーライド、または違反するように要求する;DACSIは、信頼できない文書のテキストが、RAGのプロンプトが信頼できないテキストと信頼できないテキストを同じ自然言語チャネルに崩壊させたときに、認証された制御信号として誤配布されるかどうかを尋ねる。我々は,DACSIを6つのモデル設定,即時圧レベル,インジェクションベースライン,信号分類,RAGを用いたパイプライン,システム制御プローブ,ソースオーソリティ属性プローブ,合成カナリアフォーマットで評価した。 DeepSeek V4 Pro と Qwen3.5-397B は最もクリーンな正のリフトを提供し、DeepSeek V4 Flash は高い感受性の設定であり、GPT-5.5 と Gemini 3.1 Pro Low は選択された残留リスクを持つ強い境界プローブであり、GLM-4.7 は飽和リーク境界ケースである。 DACSIは、コマンドフリーのメタデータ/プロファイナンス/ポリシーサーフェスを使用し、RAG固有のソース-オーソリティパスに従い、ソース/チャネル分離に応答するため、それぞれの評価を保証している。ソース・オーソリティ・プローブは行動帰属の証拠であり、内部メカニズムの証拠ではない。

関連論文リスト

VATS: Exploiting Implicit Authority in Error-Path Injection via Systematic Mutation [0.3222802562733787]
VATS (Vulnerability Analysis of Tool Streams) は、7つの構造的および言語的次元にわたる逆ペイロードを進化させる突然変異駆動型フレームワークである。 Gemini 3.1 Pro, GPT-5.5, GLM-5.1, Qwen3-Coderの4つのフロンティアモデルに対して, エラーパスインジェクションが標準間接インジェクションの成功率を3倍にすることを示す。
論文参考訳（メタデータ） (2026-06-06T06:07:52Z)
From Attack Simulation to SIEM Rule: Deterministic Detection-as-Code Synthesis with Probe-Level Traceability [51.56484100374058]
セキュリティチームは、自身のシステムに対する攻撃をシミュレートして、監視が真の侵入者を捕まえるかどうかをチェックする。人間はそのギャップを手でブリッジし、それぞれの発見を読み、対応するシグマルールを書きます。ロックされたコーパスからプローブが引き出されると,この変換が部分的に自動化されることを示す。
論文参考訳（メタデータ） (2026-06-03T14:26:25Z)
VectorSmuggle: Steganographic Exfiltration in Embedding Stores and a Cryptographic Provenance Defense [0.0]
現代の検索拡張生成システム(RAG)は、センシティブなコンテンツを高次元の埋め込みに変換し、それらをベクトルデータベースに格納し、結果の数値的アーティファクトを不透明なものとして扱う。これはステガノグラフィー・エクスプロイト・アタックのクラスを開放することを示している。入力パイプラインへの書き込みアクセスを持つアタッカーは、埋め込み内にペイロードデータを隠蔽することができる。
論文参考訳（メタデータ） (2026-05-13T16:44:20Z)
The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems [1.0262304700896199]
EmphSemantic Norm Drift (SND) をエージェント不正行為の第3の経路として定式化する。 SNDでは、ポリシーフォーマットの文書が通常のアップロードを通じて共有ベクターストアに入り、その後、信頼されたシステムコンテキストとして再現れる。偽合成検査は87.5%の精度と偽陽性のゼロの因果関係を識別する。
論文参考訳（メタデータ） (2026-05-12T20:21:47Z)
From High-Level Types to Low-Level Monitors: Synthesizing Verified Runtime Checkers for MAVLink [2.4755749916288714]
Platumは、最小限のDSLで両方の障害に対処するフレームワークです。 DATUMと比較して,総モニタ遅延とメモリオーバーヘッドの4倍の低減効果を示した。
論文参考訳（メタデータ） (2026-04-04T22:45:02Z)
Attesting LLM Pipelines: Enforcing Verifiable Training and Release Claims [2.0403981727850233]
現代の大規模言語モデル(LLM)システムは、事前トレーニングされた重み付け、微調整アダプタ、データセット、依存関係パッケージ、コンテナイメージといったサードパーティの成果物から組み立てられている。このスピードには、妥協された依存関係、悪意のあるハブアーティファクト、安全でないデフォールト化、偽造された前兆、バックドアモデルなど、サプライチェーンのリスクが伴う。本稿では,信頼された環境にアーティファクトが認められる前に,クレームエビデンスを検証し,安全なローディングと静的スキャンポリシーを適用し,セキュアなシリアル配置制約を適用した,証明対応のプロモーションゲートを提案する。
論文参考訳（メタデータ） (2026-03-30T20:37:48Z)
DiffuGR: Generative Document Retrieval with Diffusion Language Models [80.78126312115087]
本稿ではDiffuGRと呼ばれる拡散言語モデルを用いた生成文書検索を提案する。推論のために、DiffuGRはDocIDトークンを並列に生成し、制御可能な多数のデノナイジングステップを通じてそれを洗練しようと試みている。従来の左から右への自動回帰デコーディングとは対照的に、DiffuGRはより信頼性の高いDocIDトークンを生成するための新しいメカニズムを提供する。
論文参考訳（メタデータ） (2025-11-11T12:00:09Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。