論文の概要: What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics
- arxiv url: http://arxiv.org/abs/2606.25182v1
- Date: Tue, 23 Jun 2026 21:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.147507
- Title: What Intermediate Layers Know: Detecting Jailbreaks from Entropy Dynamics
- Title(参考訳): 中間層が知っていること:エントロピーダイナミクスによるジェイルブレイクの検出
- Authors: Sofiia Nikolenko, Michele Papucci, Mina Rezaei, Shireen Kudukkil Manchingal,
- Abstract要約: ジェイルブレイク攻撃は、一致した大規模言語モデルにおいて永続的な弱点を示す。
モデルの内部表現において有害な意図がコード化されているかを検討する。
我々は、ジェイルブレイクの挙動が構造化された中間不確実性力学に反映されていることを発見した。
- 参考スコア(独自算出の注目度): 4.336452316521159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks reveal a persistent weakness in aligned Large Language Models: carefully crafted prompts can elicit policy-violating responses despite safety training. While most defenses operate at the prompt or output level, it remains unclear how harmful intent is encoded within the model's internal representations. We investigate this question by analyzing token-level predictive entropy trajectories across layers of a frozen LLM using the logit lens. We find that static aggregate statistics of prompt-level entropy (e.g., mean, variance) carry little discriminative signal, whereas features capturing how entropy evolves across token positions, such as monotonic rank-based trend scores, are substantially more informative. Importantly, this signal is not uniform across model depth: it is concentrated in intermediate layers and degrades at the final layer, indicating that jailbreak-relevant structure is most pronounced in mid-network representations rather than at the output head. Across multiple models (Llama, Qwen, Gemma) and adversarial benchmarks, these entropy dynamics provide architecture-consistent separation without additional training. Together, our findings show that jailbreak behavior is reflected in structured intermediate uncertainty dynamics, clarifying both which entropy-derived features encode harmful intent and where in the network that signal is most pronounced.
- Abstract(参考訳): 機密性の高いプロンプトは、安全トレーニングにもかかわらず、ポリシー違反の応答を誘発することができる。
ほとんどのディフェンスはプロンプトや出力レベルで動作しますが、モデルの内部表現内でどの程度有害な意図がコード化されているかは定かではありません。
本稿では,ロジットレンズを用いた冷凍LDMの層間におけるトークンレベルの予測エントロピー軌道の解析により,この問題を考察する。
一方, 単調な階数に基づくトレンドスコアなど, トークン位置でエントロピーがどのように進化していくかを示す特徴は, かなり有益である。
重要なことに、この信号はモデル深度にわたって均一ではなく、中間層に集中して最終層で分解され、ジェイルブレイク関連構造が出力ヘッドではなく、中間ネットワーク表現で最も顕著であることを示す。
複数のモデル (Llama, Qwen, Gemma) や逆数ベンチマークの他、これらのエントロピーダイナミクスは追加のトレーニングなしでアーキテクチャと一貫性のある分離を提供する。
その結果, 脱獄行動は構造的中間不確実性ダイナミクスに反映され, エントロピーに起因した特徴が有害な意図をコードし, ネットワーク内で最も顕著な信号がどこにあるかを明らかにすることができた。
関連論文リスト
- SPOT-E: Test-Time Entropy Shaping with Visual Spotlights for Frozen VLMs [74.89208610190595]
本研究では,各インスタンス毎のスポットライトを軽量チューニングにより最適化し,質問条件付きスポットライトを生成するテストタイム手法であるSPOT-Eを提案する。
SPOT-Eは、一貫した利得と、視覚的腐敗下での堅牢性を改善する。
論文 参考訳(メタデータ) (2026-06-18T13:56:30Z) - Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning [11.322734738973603]
強化学習に基づくポストトレーニングは、大規模言語モデルの推論能力を向上させるための重要なアプローチとなっている。
この研究は、各応答トークンに対する文脈支援の集中度や拡散度を測定する注意エントロピーを通して、それらの不均一性を研究する。
論文 参考訳(メタデータ) (2026-05-08T12:31:28Z) - Learning Uncertainty from Sequential Internal Dispersion in Large Language Models [52.29267172760918]
不確実性推定は、大規模言語モデルにおける幻覚を検出するための有望なアプローチである。
最近の手法は一般に不確実性を推定するために内部状態のモデルに依存する。
本稿では,教師付き幻覚検出フレームワークであるシークエンシャル内部変数表現(SIVR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T06:31:29Z) - Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation [22.14448091276763]
セキュリティ強化のための一般的な戦略は、最終変圧器層から派生した監督を用いてモデルを微調整することである。
この設計は最終レイヤのボトルネックに悩まされる可能性がある。脆弱性を識別するキューは層に分散することができ、次のトーケン予測に最適化された出力表現の近くでは検出されにくくなる。
DeepGuardは、アテンションベースのモジュールを通じて複数の上位層から表現を集約することで、分散セキュリティ関連キューを活用するフレームワークである。
論文 参考訳(メタデータ) (2026-04-10T08:19:48Z) - From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover [30.86966284669791]
アドリアックは安全に整合した大きな言語モデルを安全でない行動に向けて確実に操ることができる。
本稿では,レプリカ対称性を破るシステムで動作するスピングラスシステムの観点から,プロキシ言語の理論的生成モデルを提案する。
このフレームワーク内では、インジェクションによるインジェクションベースのジェイルブレイクを解析する。
論文 参考訳(メタデータ) (2026-03-11T21:48:03Z) - Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Mechanistic Interpretability in the Presence of Architectural Obfuscation [0.0]
アーキテクチャ難読化(Architectural obfuscation)は、プライバシ保存型大言語モデル(LLM)推論における重み付き暗号の軽量代用である。
我々は,代表的難読化マップを用いて,スクラッチから訓練したGPT-2小モデルを分析する。
その結果,難読化は注目ヘッド内のアクティベーションパターンを劇的に変化させるが,層幅の計算グラフは保存されることがわかった。
論文 参考訳(メタデータ) (2025-06-22T14:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。