論文の概要: What Shapes Emergent Misalignment? Insights from Training Dynamics, Model Priors, and Data
- arxiv url: http://arxiv.org/abs/2606.20814v1
- Date: Thu, 18 Jun 2026 18:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:46:22.999066
- Title: What Shapes Emergent Misalignment? Insights from Training Dynamics, Model Priors, and Data
- Title(参考訳): 創発的ミスアライメントとは何か? : トレーニングダイナミクス,モデル優先,データからの考察
- Authors: Yuchen Zhang, Anietta Weckauff, Diego Garcia-Olano, Maksym Andriushchenko,
- Abstract要約: 創発的ミスアライメント(EM: Emergent misalignment)は、モデルが狭い微調整で一般化される現象である。
我々は、EMとその変数を直接微調整のコンポーネント(トレーニング力学、モデル事前、データ)を通して研究する。
- 参考スコア(独自算出の注目度): 20.335735139409245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergent misalignment (EM) is a phenomenon in which models generalize with narrow fine-tuning, leading to broad (yet uneven) misalignment across evaluation questions. We study EM and its variability directly through the components of fine-tuning: training dynamics, model priors, and data. (1) We first explored how in-domain training loss relates to out-of-domain alignment scores across datasets and model families. Then, we tried to induce potential alternative local minima through different learning schedules for one narrow fine-tuning, but did not find strong runs with better broad alignment scores conditioned on similar or lower training loss. (2) We found that although the mean and standard deviations of the misaligned model scores are usually statistically different from those of the pre-trained model, there are some potential signals on overall positive correlation. The evaluation prompt-only activations from both the pre-trained and the original instruct models (prior to narrow fine-tuning) could predict fine-grained alignment scores after narrow fine-tuning. (3) Finally, we compared activation deltas before and after narrow fine-tuning and found moderate-to-high subspace overlap and similarity between the resulting activation shifts for training and evaluation prompts. Subspace overlaps between training and evaluation prompt activations correlate with their shifts' similarities when measuring with the last prompt-token activations. The train-evaluation data prompt overlap is controlled against overlap computed from random vectors and evaluation prompts activations.
- Abstract(参考訳): 創発的ミスアライメント(EM: Emergent misalignment)は、モデルが狭い微調整で一般化し、評価問題全体で広い(不均一な)ミスアライメントをもたらす現象である。
我々は、EMとその変数を直接微調整のコンポーネント(トレーニング力学、モデル事前、データ)を通して研究する。
1) ドメイン内トレーニング損失がデータセットやモデルファミリ間のドメイン外アライメントスコアとどのように関係するかを最初に検討した。
そこで我々は,1つの狭い微調整のための異なる学習スケジュールを通して,潜在的に代替的な局所的ミニマを誘導しようとしたが,同様の学習損失や低いトレーニング損失に対して,より広いアライメントスコアの強いランは見つからなかった。
2) 一致しないモデルスコアの平均値と標準値の偏差は通常, 事前学習モデルと統計的に異なるが, 全体正の相関には潜在的な信号が存在することがわかった。
事前訓練されたモデルとオリジナルのインストラクションモデルの両方からのアクティベーションのみの評価は、狭小調整後の微粒化アライメントスコアを予測することができた。
(3) 最後に, 微調整前後の活性化デルタ値を比較し, 中~高次部分空間の重なりと, 結果として生じる活性化シフトと評価プロンプトの類似性について検討した。
トレーニングと評価プロンプトアクティベーション間のサブスペースオーバーラップは、最後のアクティベーションと測定する際のシフトの類似性と相関する。
列車評価データプロンプトオーバーラップは、ランダムベクトルから計算されたオーバーラップに対して制御され、評価がアクティベーションを促す。
関連論文リスト
- Online Bayesian Imbalanced Learning with Bregman-Calibrated Deep Networks [0.7106986689736825]
本報告では、クラス優先の仮定から確率比の推定を分離する原則的フレームワークであるOBIL(TextitOnline Bayesian Im Balanced Learning)を提案する。
我々のアプローチは、ブレグマンの発散と適切なスコアリングルールとの確立された接続に基づいて、そのような損失で訓練されたディープネットワークが後続確率推定を生成することを示す。
これらの確率比の推定は、クラス事前およびコスト構造における任意の変化の下でも有効であり、最適なベイズ決定のためのしきい値調整のみを必要とすることを証明している。
論文 参考訳(メタデータ) (2026-02-08T21:23:00Z) - Bridging Critical Gaps in Convergent Learning: How Representational Alignment Evolves Across Layers, Training, and Distribution Shifts [1.9458156037869137]
収束学習は、神経システムが同様の内部表現に到達する度合いである。
数十の視覚モデルと数千の層対比較にまたがる収束学習の大規模監査を行う。
発見は、表現の収束に対する理解において重要なギャップを埋め、神経科学とAIに影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-26T00:04:24Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Consistent Diffusion Models: Mitigating Sampling Drift by Learning to be
Consistent [97.64313409741614]
本稿では, モデルが生成したデータ上での予測が時間とともに一定であることを示す, 両立性特性を強制することを提案する。
CIFAR-10の条件および非条件生成とAFHQとFFHQのベースライン改良について,本研究の新たな訓練目標が得られた。
論文 参考訳(メタデータ) (2023-02-17T18:45:04Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。