論文の概要: Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs
- arxiv url: http://arxiv.org/abs/2606.09411v1
- Date: Mon, 08 Jun 2026 12:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.983357
- Title: Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs
- Title(参考訳): LLMの盗聴を検知する技術(動画あり)
- Authors: Charles Westphal, Timothy Douglas, Keivan Navaie, Tiago Pimentel, Fernando E. Rosas,
- Abstract要約: 大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
近年の研究では、内部の活性化から秘密を回収する線形プローブによる検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
- 参考スコア(独自算出の注目度): 52.149036302760386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can be fine-tuned to encode prompt-borne secrets into fluent, seemingly benign outputs. This creates a steganographic exfiltration risk that is difficult to detect with output-level steganalysis. Recent work proposes mechanistic detection using linear probes that recover the secret from internal activations. We show that this defense can be systematically evaded, but that detectability can be recovered through a targeted data-level intervention. First, we extend the detection setup to include a non-linear MLP probe. We then adversarially fine-tune steganographic trojans across five base models: Qwen3-8B, Llama-3.1-8B, Ministral-8B, Qwen3-14B, and Phi-4-14B. The resulting models retain $58$--$79\%$ exact-match secret recovery while evading both ridge and held-out MLP probes, with $1$--$8\%$ average capability degradation across six benchmarks. We then give an information-theoretic characterization of this evasion. Successful evasion preserves recoverability while reducing low-order extractability of the secret from the content-aligned representation, forcing the payload into synergistic interaction with residual degrees of freedom. This motivates a recontextualization dataset that restricts these residual degrees of freedom. On this distribution, both ridge and MLP detectability are restored across all five evasive trojans. Overall, our findings show that activation-based steganography detection is vulnerable to adaptive evasion, but also that theory-guided evaluation distributions can expose otherwise hidden payloads.
- Abstract(参考訳): 大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
これにより、出力レベルのステガナシスでは検出が難しいステガノグラフィーの濾過リスクが生じる。
最近の研究は、内部の活性化から秘密を回復する線形プローブを用いた機械的検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
まず、検出設定を非線形MLPプローブを含むように拡張する。
次に、Qwen3-8B、Llama-3.1-8B、Ministral-8B、Qwen3-14B、Phi-4-14Bの5つの基本モデルにまたがって、逆向きに微構造的トロイの木馬について検討する。
結果として得られたモデルは、5,8$--$79\%の正確なマッチシークレットリカバリを保持し、リッジとホールドアウトのMPPプローブの両方を回避し、6つのベンチマークで平均8\%の平均性能劣化を回避した。
次に、この回避に関する情報理論的特徴を与える。
脱出に成功したことは、シークレットの低次抽出性をコンテンツ整列表現から低減し、ペイロードを残りの自由度との相乗的相互作用に強制すると共に、回復可能性を維持する。
これは、これらの残余の自由度を制限する再構成データセットを動機付けている。
この分布では、尾根とMLP検出性は5つの回避トロヤ群すべてにわたって復元される。
全体として,アクティベーションに基づくステガノグラフィー検出は適応的回避に弱いが,理論誘導による評価分布は隠れペイロードを露出する可能性がある。
関連論文リスト
- EntropyScan: Towards Model-level Backdoor Detection in LVLMs via Visual Attention Entropy [66.59724477993339]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる優れた能力を示すが、バックドア攻撃には弱い。
本稿では,LVLMにおけるモデルレベルのバックドア検出のための軽量かつトリガに依存しないEntropyScanを提案する。
私たちのコードはまもなく公開されます。
論文 参考訳(メタデータ) (2026-05-15T08:01:32Z) - Segment-Level Coherence for Robust Harmful Intent Probing in LLMs [13.0633878066404]
予測を一貫してサポートするために複数のエビデンストークンを必要とするストリーミング探索目標を導入する。
定値1%の偽陽性率では、真陽性率を35.55%向上させる。
敵の微調整によって新しい文字レベル暗号が可能であっても、有害な意図は検出可能である。
論文 参考訳(メタデータ) (2026-04-16T10:56:40Z) - NEST: Nascent Encoded Steganographic Thoughts [0.0]
本研究は,リスクアセスメントと展開方針を通知するステガノグラフィー推論の可能性を探るものである。
4つのデータセット間で、回避率、拒否率、符号化忠実度、隠されたタスク精度を測定する。
現在のモデルは、複雑な数学や算術的なタスクの隠れた推論をまだ維持できないことが分かっています。
論文 参考訳(メタデータ) (2026-02-15T11:05:18Z) - Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models [44.41218866933059]
微調整LDMは、ステガノグラフィーチャネルを介してプロンプトシークレットを出力に隠蔽的にエンコードすることができる。
任意の写像を埋め込み空間由来のものに置き換えることで、従来のスキームが100%回復可能であることを示す。
我々は、微調整によるステガノグラフィー攻撃を検出するには、従来のステガナシス以上のアプローチが必要であると論じる。
論文 参考訳(メタデータ) (2026-01-30T10:43:43Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Game of Trojans: Adaptive Adversaries Against Output-based
Trojaned-Model Detectors [11.825974900783844]
我々は、Trojaned DNNを再訓練し、SOTA出力に基づくTrojanedモデル検出器を認識した適応逆解析を行う。
このような敵は,(1) トリガー埋め込みとクリーンなサンプルの両方において高い精度を確保でき,(2) バイパス検出が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-12T20:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。