論文の概要: Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
- arxiv url: http://arxiv.org/abs/2606.20225v1
- Date: Thu, 18 Jun 2026 13:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.881626
- Title: Actionable Activation Directions for Detecting and Mitigating Emergent Misalignment Across Language Model Families
- Title(参考訳): 言語モデルファミリ間の創発的相違の検出と緩和のための動作可能なアクティベーション指示
- Authors: Abdul Rafay Syed,
- Abstract要約: 安全性の低いコード上の微調整言語モデルは、内部構造が不十分な創発的ミスアライメントを誘導する。
アーキテクチャ間で共有される因果作用可能なアクティベーション空間方向に対応しているかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning language models on insecure code induces emergent misalignment with poorly understood internal structure. We investigate whether this misalignment corresponds to a causally actionable activation-space direction shared across architectures. Across four instruction-tuned model families (Qwen2.5-1.5B, Gemma-2-2B, Llama-3.2-1B, Ministral-3-3B) finetuned identically, a difference-in-means direction achieves 99.6% separation of aligned and misaligned activations at each model's final layer. Causal steering by subtracting this direction reduces code spillover by 21-51 points, while a secure-code control confirms content specificity. Cross-architecture transfer via ridge regression maps yields large behavioral suppression (up to 46 points) but fails specificity controls as random and orthogonal directions perform comparably. We identify a two-tier specificity structure: within-model directions are causally specific and actionable; cross-model directions are causally real but non-specific. An asymmetric transfer topology emerges, with Gemma and Qwen acting as geometric donors and Llama as a receiver. These findings define the limits of linear cross-architecture correction and recommend within-model probing for auditing.
- Abstract(参考訳): 安全性の低いコード上の微調整言語モデルは、内部構造が不十分な創発的ミスアライメントを誘導する。
アーキテクチャ間で共有される因果作用可能なアクティベーション空間方向に対応しているかどうかを考察する。
命令調整された4つのモデルファミリ(Qwen2.5-1.5B、Gemma-2-2B、Llama-3.2-1B、Ministral-3-3B)を同一に微調整することで、各モデルの最終層におけるアライメントとアライメントの分離を99.6%達成する。
この方向を減じることによる因果操舵は、コード流出を21-51ポイント削減し、セキュアなコード制御はコンテンツ特異性を確認する。
リッジ回帰写像によるクロスアーキテクチャ転送は、大きな挙動抑制(最大46点)をもたらすが、ランダム方向と直交方向が相容れないため、特異性制御に失敗する。
モデル内方向は因果的であり、動作可能であり、モデル間方向は因果的だが非特異である。
非対称移動トポロジーが出現し、Gemma と Qwen が幾何学的ドナーとして、Llama が受信機として作用する。
これらの知見は,線形クロスアーキテクチャ補正の限界を定義し,監査のためのモデル内探索を推奨する。
関連論文リスト
- GEMS: Geometric Constraints Enable Multi-Semantic Superposition in LLMs [5.018957704056544]
アクティベーションステアリング(Activation steering)は、推論時に中間隠れ状態を変更することで、リトレーニングなしでモデル動作を制御する。
制約なしに複数の意味的方向が重畳されると、モデルは崩壊する。
GEMSは,各ソースを対応する幾何学的制約にマッピングする訓練不要な手法である。
論文 参考訳(メタデータ) (2026-06-18T08:43:33Z) - Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating [47.48855451348491]
微調整された大きな言語モデルは、広範囲のミスアライメントと有害な振る舞いを引き起こす可能性がある。
微調整はユーザの誤った意見に受動的に一致することを示す。
創発的不整合を克服する効率的な方法であるアライメントゲーティングを提案する。
論文 参考訳(メタデータ) (2026-06-08T06:05:47Z) - Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - Manifold-Guided Attention Steering [23.05277076113183]
幾何学的観測に基づく軌道認識推論時間介入を提案する。
特定の注目ヘッドの出力活性化は、誤差点における低次元の正しさ多様体から発散する。
学習しきい値を超えた場合の目標投影補正を適用し、誤差が伝播する前に注意出力を正しい部分空間に戻す。
論文 参考訳(メタデータ) (2026-05-20T22:06:08Z) - Architecture-Aware Explanation Auditing for Industrial Visual Inspection [1.3054033103300278]
本稿では,自然読出仮説に基づくアーキテクチャを考慮した説明監査プロトコルを運用する。
WM-811Kウェハマップ(9クラス、172k画像)の3列のゼロフィル摂動プロトコルの下では、ViT-Tiny + Attention RolloutはDeletion AUC 0.211をSwin-Tinyの0.432-0.525に対して取得する。
論文 参考訳(メタデータ) (2026-05-14T01:48:00Z) - Disentangling Direction and Magnitude in Transformer Representations: A Double Dissociation Through L2-Matched Perturbation Analysis [0.42970700836450487]
角状摂動は言語モデリングの損失に対して最大42.9のダメージを与える。
方向が注意経路に優先的に影響を及ぼすのに対し、等級は微粒な構文判断のための処理強度を変調する。
この結果は線形表現仮説を洗練させ,モデル編集や解釈可能性研究に影響を及ぼす。
論文 参考訳(メタデータ) (2026-01-19T06:45:04Z) - Graph Neural Networks for Edge Signals: Orientation Equivariance and Invariance [50.277959544420455]
我々は、新しい方向対応エッジレベルグラフシフト演算子からなるアーキテクチャであるEIGNを開発する。
EIGNは、例えばRMSEのフローシミュレーションタスクを最大23.5%改善するなど、エッジレベルのタスクにおける以前の作業より優れていた。
論文 参考訳(メタデータ) (2024-10-22T12:12:43Z) - Robust Self-Supervised LiDAR Odometry via Representative Structure
Discovery and 3D Inherent Error Modeling [67.75095378830694]
そこで我々は,2段階のオドメトリ推定ネットワークを構築し,一連の部分領域変換を推定してエゴモーメントを求める。
本稿では,トレーニング,推論,マッピングフェーズにおける信頼できない構造の影響を軽減することを目的とする。
我々の2フレームのオードメトリーは、翻訳/回転誤差の点で、過去の芸術の状態を16%/12%上回っている。
論文 参考訳(メタデータ) (2022-02-27T12:52:27Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。