論文の概要: Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating
- arxiv url: http://arxiv.org/abs/2606.09068v1
- Date: Mon, 08 Jun 2026 06:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.725185
- Title: Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating
- Title(参考訳): 創発的ミスアライメントはサイコファシーによって誘発され、アライメントゲーティングを介して逆転する
- Authors: Sicheng Wang, Xiangyang Zhu, Han Wang, Zongrui Wang, Yuan Tian, Kaiwei Zhang, Kaiyuan Ji, Qi Jia, Guangtao Zhai,
- Abstract要約: 微調整された大きな言語モデルは、広範囲のミスアライメントと有害な振る舞いを引き起こす可能性がある。
微調整はユーザの誤った意見に受動的に一致することを示す。
創発的不整合を克服する効率的な方法であるアライメントゲーティングを提案する。
- 参考スコア(独自算出の注目度): 47.48855451348491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has shown that fine-tuning large language models on malicious or incorrect outputs in narrow domains can induce broad misalignment and harmful behavior, a phenomenon known as emergent misalignment. However, efficient methods for reversing such misalignment remain limited. In this work, we make two contributions. First, we identify sycophancy fine-tuning, i.e., training models to passively agree with users' incorrect opinions, as a previously underexplored driver of emergent misalignment, and show that it induces broad and severe misaligned behavior. Second, we propose Alignment Gating, an efficient method for reversing emergent misalignment that inserts learnable and controllable gates into the model during fine-tuning. Through fine-tuning, these gates learn to identify the internal representations responsible for unsafe responses. Thus, amplifying or suppressing these representations then exacerbates or mitigates EM, respectively. We further find that alignment gating module exhibits strong generalization: gating weights obtained from narrow-domain fine-tuning substantially suppress broad-domain misaligned behavior while preserving the model's general capabilities.
- Abstract(参考訳): 以前の研究では、狭い領域における悪意のある出力や不正なアウトプットに関する微調整された大きな言語モデルが、広範囲の不正調整と有害な振る舞いを引き起こす可能性があることが示されており、これは創発的不適応と呼ばれる現象である。
しかし、こうした不一致を克服する効果的な方法はまだ限られている。
この作業では2つのコントリビューションを行います。
まず,ユーザの不適切な意見に受動的に同意する訓練モデルを,創発的不整合の未発見ドライバとして同定し,広範かつ厳密な不整合行動を引き起こすことを示す。
第2に、微調整中に学習可能かつ制御可能なゲートをモデルに挿入する、創発的不整合を反転させる効率的な方法であるアライメントゲーティングを提案する。
微調整により、これらのゲートは安全でない応答の原因となる内部表現を識別する。
したがって、これらの表現を増幅または抑制すると、それぞれEMを悪化または緩和する。
さらに、アライメントゲーティングモジュールは強力な一般化を示し、狭い領域の微調整から得られるゲーティングウェイトは、モデルの一般的な能力を保ちながら、広領域のミスアライメント行動を大幅に抑制する。
関連論文リスト
- Activation Steering Induces Emergent Misalignment: A More Comprehensive Evaluation [74.17379276939599]
近年のQwen-3.5シリーズにおいても,アクティベーションステアリングが広範囲のアライメントを引き起こすことが示されている。
ステアリングサイズ, ステアリングサブスペースの低ランク構造, ステアリングベクター構築時のエポック数など, キーステアリング固有の因子を解析することにより, AS誘起EMの特性を特徴づける。
論文 参考訳(メタデータ) (2026-06-07T15:34:59Z) - The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment [53.510840985295154]
狭いタスクの微調整は意味的に無関係なテスト領域に広範囲のミスアライメントをもたらすことを示す。
チャットテンプレートトークンは、ドメイン外のクエリに微調整された振る舞いをピギーバックすることができる。
トレーニング中に特定のトークン表現を正規化してEMを緩和するToken-Regularized Finetuning (TReFT)を提案する。
論文 参考訳(メタデータ) (2026-06-04T19:32:00Z) - Alignment Dynamics in LLM Fine-Tuning [37.49269074190027]
大規模言語モデル(LLM)は、人間のフィードバックから教師付き微調整と強化学習を通じて、強い整合性を達成する。
そこで我々は,微調整中にアライメントスコアを導入し,そのクローズドフォーム更新を導出し,アライメントダイナミックスのための統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-18T12:27:12Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Re-Emergent Misalignment: How Narrow Fine-Tuning Erodes Safety Alignment in LLMs [0.0]
安全でないコードに対する微調整は、アライメントに反する内部的な変更を誘発することを示す。
我々は、アライメントの振る舞いを管理するモデルの活性化空間における共有潜在次元を同定する。
論文 参考訳(メタデータ) (2025-07-04T15:36:58Z) - Convergent Linear Representations of Emergent Misalignment [1.3286418032136589]
微調整された大きな言語モデルは、広範に不整合な振る舞いを発達させる可能性がある。
9個のランク1アダプターでQwen2.5-14B-インストラクタを異常に除去するミニマルモデル生物について検討した。
論文 参考訳(メタデータ) (2025-06-13T09:39:54Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。