論文の概要: Quantifying Subliminal Behavioral Transfer Ratios in Language Model Distillation
- arxiv url: http://arxiv.org/abs/2606.11270v1
- Date: Tue, 09 Jun 2026 06:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.101983
- Title: Quantifying Subliminal Behavioral Transfer Ratios in Language Model Distillation
- Title(参考訳): 言語モデル蒸留におけるサブリミナルな行動伝達比の定量化
- Authors: Uwe Konig, Hamza Kazmi, Ruizhe Li, Maheep Chaudhary,
- Abstract要約: 本研究では,2つの教師モデルと蒸留学生モデルを用いて,サブリミナルな行動伝達比を定量化する。
100個のJailbreakBenchプロンプトの評価では、GPT-4.1が評価器として機能し、転送は堅牢であるが、スケーリングの振る舞いが異なることを示している。
- 参考スコア(独自算出の注目度): 3.7543413620780215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distillation of a language model intended to transfer benign behavior to a student model may also transfer undesirable characteristics, if they are present in the teacher model, a phenomenon known as subliminal learning. While qualitative evidence supports the existence of this effect, its magnitude has not been systematically characterized. This study quantifies subliminal behavioral transfer ratios by steering two teacher models (Llama-2-7B-Chat and Qwen2.5-7B-Instruct) at varying steering strengths and distilling student models using only benign data. Evaluation on 100 JailbreakBench prompts with GPT-4.1, serving as the evaluator, indicates that transfer is robust but exhibits distinct scaling behaviors. Llama-2 demonstrates a sharp threshold ($τ= {0.25,0.32} \ \text{beyond} \ α= -0.15$), whereas Qwen2.5 displays continuous and higher levels of transfer ($τ$ up to $0.61$).
- Abstract(参考訳): 学生モデルに良性な振る舞いを伝達しようとする言語モデルの蒸留は、教師モデルに存在する場合、望ましくない特性を伝達することもある。
質的な証拠はこの効果の存在を支持するが、その大きさは体系的に特徴づけられていない。
本研究では,2種類の教師モデル(Llama-2-7B-ChatとQwen2.5-7B-Instruct)を異なる操舵強度で操舵し,良性データのみを用いて学生モデルを蒸留することにより,サブリミナルな行動伝達比を定量化する。
100個のJailbreakBenchプロンプトの評価では、GPT-4.1が評価器として機能し、転送は堅牢であるが、スケーリングの振る舞いが異なることを示している。
Llama-2 はシャープしきい値 (τ= {0.25,0.32} \ \text{beyond} \ α= -0.15$) を示し、Qwen2.5 は連続的に高い転送レベル (τ$ up to 0.61$) を示す。
関連論文リスト
- When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors [66.18091962164219]
既存のメトリクスは、タスクの成功に必要な義務的な振る舞いと、モデルの自律的な嗜好を反映した命令的でないパターンを区別することができない。
言語アライメントのための textbfResponse Pattern similarity (RPS) と、有向グラフとしてモデル化されたツール使用習慣のための textbfAction Graph similarity (AGS) である。
論文 参考訳(メタデータ) (2026-04-23T03:48:56Z) - Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation [0.7788319765644828]
本研究では, モデル蒸留により, 安全でないエージェントの挙動を2つの実験条件でサブリミナルに伝達可能であることを示す。
第一設定では、強い削除バイアスを示す教師エージェントを構築し、視覚的に安全なタスクからの軌跡のみを用いて学生に蒸留する。
ネイティブなBash環境で脅威モデルを複製し、APIツールコールをシェルコマンドに置き換え、最初のパーミッション関連コマンドとしてchmodを発行する代わりにバイアスを運用します。
論文 参考訳(メタデータ) (2026-04-16T22:23:01Z) - Before the First Token: Scale-Dependent Emergence of Hallucination Signals in Autoregressive Language Models [6.5607014897534865]
7個の自己回帰変換器の幻覚表現の時間的ダイナミクスについて検討した。
4M以下のモデルでは、生成位置毎に確率レベルプローブの精度を示す。
7Bスケールでは、Pythia-6.9Bは平坦な時間プロファイルを、Qwen2.5-7Bは支配的な前世代効果を示す。
論文 参考訳(メタデータ) (2026-03-20T02:30:01Z) - OVD: On-policy Verbal Distillation [47.727229201069555]
On-policy Verbal Distillation (OVD) は、トークンレベルの確率マッチングを軌道マッチングに置き換えるメモリ効率の高いフレームワークである。
OVDは、言語フィードバックを持つ教師モデルからのオンライン蒸留を可能にしながら、メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2026-01-29T16:48:14Z) - Subliminal Learning: Language models transmit behavioral traits via hidden signals in data [7.092398764321311]
サブリミナル学習(subliminal learning)は,言語モデルが意味的に無関係なデータを通じて行動特性を伝達する現象である。
特定の条件下で全てのニューラルネットワークでサブリミナル学習が発生することを示す理論的結果を示す。
サブリミナル学習は、AI開発に予期せぬ落とし穴を生じさせる一般的な現象である、と結論付けている。
論文 参考訳(メタデータ) (2025-07-20T03:51:13Z) - BIRD: Behavior Induction via Representation-structure Distillation [1.534667887016089]
BIRD (Behavior induction via Representation-structure Distillation) は、生徒モデルの内部表現構造と教師の表現構造をマッチングすることにより、協調行動の伝達を行うフレキシブルなフレームワークである。
画像分類における分布外ロバスト性に適用され、次の最強ベースラインに対して、ロバスト精度を最大16%向上する。
400人以上の教師-学生ペアの大規模研究において、教師の表現の解釈可能かつ計算可能な3つの特性が、伝達成功の最大85%のばらつきを説明できることを示した。
論文 参考訳(メタデータ) (2025-05-29T18:29:40Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? [6.323424953013902]
トレーニングしたモデルの予測的信頼度を比較することで,手法間の等価性を再検討する。
ほとんどの設定では、KDとLSは完全に反対方向にモデルの信頼性を駆動する。
KDでは、学生は知識だけでなく教師からの信頼も受け継ぎ、古典的な知識伝達の視点を強化している。
論文 参考訳(メタデータ) (2023-01-30T02:05:24Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。