論文の概要: Hiding in Plain Floats: Steganographic Carriers for Indirect Prompt and Content Injection
- arxiv url: http://arxiv.org/abs/2606.08403v1
- Date: Sun, 07 Jun 2026 01:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.085404
- Title: Hiding in Plain Floats: Steganographic Carriers for Indirect Prompt and Content Injection
- Title(参考訳): 平地におけるホディング:間接プロンプト・コンテントインジェクションのためのステガノグラフィーキャリア
- Authors: Mudit Sinha, Sanika Chavan,
- Abstract要約: テキスト中心のインジェクション防御は、検査されたテキストビューの1つに悪意のある信号が見えると仮定する。
再現可能なLLM01スタイルの間接的プロンプト/入射障害モードについて検討した。
平らな英語で捕獲されたペイロードは、構造されたフロートパラメータとして輸送され、断片化されたテレメトリとしてのみ再構成されるとき、同じ検出器を通り過ぎます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-centered prompt-injection defenses assume that the malicious signal is visible in one of the inspected text views. We study a reproducible LLM01-style indirect prompt/content-injection failure mode where that assumption breaks: a payload caught in plain English slips past the same detector when it is transported as structured float parameters and reconstructed only as fragmented telemetry. Across 14,400 attacked real-model trials on three commercial LLM APIs from different providers, the IFS-derived float-array carrier preserves 94.3% leakage ASR under the strongest dual-layer text-classifier defense evaluated in the main matrix: a Prompt Guard 2 + TF-IDF ensemble; the same carrier-level pattern also replicates with a fine-tuned roberta-base detector. We emphasize leakage ASR because downstream systems may act on quoted or reproduced markers even when the model refuses, but Strong ASR is the stricter metric for structurally compliant attack success. A 2 x 2 ablation shows that data-layer storage and reconstruction-layer fragmentation defeat different text views and that both are needed to evade both. A simple xxd detector and semantic validation block the current T3 instance, so the contribution is not an undetectable exploit but a measured failure boundary for text-only inspection in structured-input pipelines that expose reconstructed auxiliary channels to an LLM.
- Abstract(参考訳): テキスト中心のインジェクション防御は、検査されたテキストビューの1つに悪意のある信号が見えると仮定する。
そこで本研究では,LLM01方式の間接的プロンプト/コンテントインジェクション障害モードについて検討し,その仮定が破れることを仮定した: 構造的フロートパラメータとして搬送されたとき, 平滑な英語で捕捉されたペイロードが同一検出器を通り過ぎ, 断片的テレメトリとしてのみ再構成される。
14,400回にわたって、ISF由来のフロートアレイキャリアは、メインマトリックスで評価された最強の2層テキスト分類器(Prompt Guard 2 + TF-IDF アンサンブル)の下で、94.3%の漏洩ASRを保存し、同じキャリアレベルのパターンは、細調整されたロベルタベース検出器で複製する。
我々は、下流システムは、モデルが拒否しても、引用または再生されたマーカーに作用するが、Strong ASRは、構造に従順な攻撃成功のためのより厳密な指標である。
2 x 2のアブレーションは、データ層ストレージと再構成層フラグメンテーションが異なるテキストビューを破り、両方を避ける必要があることを示している。
単純なxxd検出器とセマンティックバリデーションは、現在のT3インスタンスをブロックするので、コントリビューションは検出不可能なエクスプロイトではなく、再構築された補助チャネルをLLMに公開する構造化インプットパイプラインにおいて、テキストのみの検査のための測定された障害境界である。
関連論文リスト
- From Attack Simulation to SIEM Rule: Deterministic Detection-as-Code Synthesis with Probe-Level Traceability [51.56484100374058]
セキュリティチームは、自身のシステムに対する攻撃をシミュレートして、監視が真の侵入者を捕まえるかどうかをチェックする。
人間はそのギャップを手でブリッジし、それぞれの発見を読み、対応するシグマルールを書きます。
ロックされたコーパスからプローブが引き出されると,この変換が部分的に自動化されることを示す。
論文 参考訳(メタデータ) (2026-06-03T14:26:25Z) - A Protocol-Language Model for Network Intrusion (Without Deep Packet Inspection) [0.0]
PLM-NIDSは3つの主張を連続的に証明する。
IP/TCP/UDPヘッダのみを読み込むため、本質的に暗号化に依存しない。
論文 参考訳(メタデータ) (2026-05-29T07:03:11Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - When Benchmarks Lie: Evaluating Malicious Prompt Classifiers Under True Distribution Shift [0.0]
有害なリクエスト、ジェイルブレイク、間接的なプロンプトインジェクション、抽出攻撃にまたがる18のデータセットのベンチマークを用いて、包括的な分析を行う。
我々は,真のアウト・オブ・ディストリビューションの一般化を評価するために,LODO(Leave-One-Dataset-Out)評価を提案する。
論文 参考訳(メタデータ) (2026-02-15T14:21:43Z) - PADBen: A Comprehensive Benchmark for Evaluating AI Text Detectors Against Paraphrase Attacks [2.540711742769252]
そこで本研究では,AIGT識別のために設計された検出システムに対して,繰り返しパラメタしたテキストが回避される理由について検討する。
パラフレーズ攻撃シナリオに対する検出ロバスト性を系統的に評価した最初のベンチマークであるPADBenを紹介する。
論文 参考訳(メタデータ) (2025-11-01T05:59:46Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。