論文の概要: Channel Location Constrains the Auditability of Subliminal Learning
- arxiv url: http://arxiv.org/abs/2606.22019v1
- Date: Sat, 20 Jun 2026 12:48:31 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-24 20:24:08.683704
- Title: Channel Location Constrains the Auditability of Subliminal Learning
- Title(参考訳): チャネル位置はサブリミナル学習の聴力を制限する
- Authors: Tamas Madl,
- Abstract要約: サブリミナル・ラーニング(Subliminal learning)は、教師の隠れた特徴を、決して名前をつけない蒸留データから継承する。
事前訓練された言語モデルでは、マスク付きシングルトーケン特性は代わりに収束語彙幾何学を使用する。
チャンネルの位置は、どの監査を音声で行うかを決定するのに必要である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Subliminal learning lets a student inherit a teacher's hidden trait from distillation data that never names it. We ask when such transfer can be audited before training. The answer is not model identity or scale alone, but channel location: the carrier through which the trait reaches the student. We find three regimes. In a controlled initialization-dependent body channel, a pre-training screen works. Coverage, the cosine between the student's initial distillation update and the teacher's fine-tuning displacement, predicts held-out transfer (Spearman $ρ\approx 0.95$; AUROC 0.997). In pretrained language models, masked single-token traits instead ride convergent vocabulary geometry. This channel is initialization-independent, so initialization-alignment screens, including coverage, are not mechanistic; the useful handles are post-hoc detection and targeted mitigation. Even when a single-token named entity is removed from the loss, the student's held-out probability for that entity rises to 0.40 on average ($\sim 2500\times$), and a related semantic class transfers. In an untied-head model, orthogonalizing the trait's output row against entangled neighbours collapses leakage, while equal-size random-subspace edits do not. Thus removing a target string from distillation labels does not remove the corresponding preference: neighbouring tokens can carry it. Finally, conditional behaviours can route through the network body. For sycophancy, with agreement and correction markers masked from the loss, transfer reaches about 0.63 of the teacher's effect, localizes to body computation, and evades four audits across two model families. We scope this as masked transfer of a condition-present policy. Channel location is necessary for deciding which audits can be sound. It is not a deployment-ready screen: an audit used outside its carrier regime can give false assurance.
- Abstract(参考訳): サブリミナル・ラーニング(Subliminal learning)は、教師の隠れた特徴を、決して名前をつけない蒸留データから継承する。
トレーニング前にこのような移行を監査できるかどうかを問う。
答えは、モデルアイデンティティやスケール単独ではなく、チャネルロケーション — 特性が学生に到達するキャリアです。
体制は3つある。
制御初期化依存体チャネルでは、事前学習画面が機能する。
学生の最初の蒸留更新と教師の微調整の変位の間のコサインであるカバレッジは、保留移動を予測する(Spearman $ρ\approx 0.95$; AUROC 0.997)。
事前訓練された言語モデルでは、マスク付きシングルトーケン特性は代わりに収束語彙幾何学を使用する。
このチャネルは初期化に依存しないので、カバーを含む初期化調整画面はメカニスティックではない。
シングルトークンのエンティティが損失から削除されたとしても、そのエンティティに対する学生の持久確率は平均で0.40まで上昇し(\sim 2500\times$)、関連するセマンティッククラス転送が発生する。
アンタイドヘッドモデルでは、トレーサの出力行を絡み合った隣人に対して直交させると、リークは崩壊するが、等サイズのランダムサブスペース編集は失敗しない。
したがって、蒸留ラベルからターゲット文字列を削除することは、対応する嗜好を排除しない:近隣のトークンはそれを運ぶことができる。
最後に、条件付き動作はネットワーク本体を通過することができる。
サイコファーシーでは、損失から隠蔽された合意と修正マーカーにより、転送は教師の効果の約0.63に達し、身体計算に局所化し、2つのモデルファミリーにわたる4つの監査を回避する。
これを条件表示ポリシーの隠蔽転送とみなす。
チャンネルの位置は、どの監査を音声で行うかを決定するのに必要である。
デプロイ可能なスクリーンではなく、キャリアの外で使用されている監査は、誤った保証を与える可能性がある。
関連論文リスト
- Fast Unlearning at Scale via Margin Self-Correction [52.46927918952516]
言語モデルアンラーニングは、トレーニングモデルを更新して、選択したトレーニング例を見ていないかのように振る舞う。
MASCは、既存のベースラインの計算コストのごく一部で、競争力のある忘れがちなトレードオフを達成する。
論文 参考訳(メタデータ) (2026-06-01T21:49:54Z) - Graph Transfer Learning via Shared Latent Geometry: Theory and Applications [12.735610064958712]
工学的な物理システムにおける推論と制御は、展開において重い物理コストを支払う。
両問題を解決する非対称な双方向アーキテクチャを提案する。
教師エンコーダは、高忠実度シミュレータから特権化された高密度状態を消費し、スペクトル摂動下で安定な演算子-ポリノミカル特徴を通してシステムを表現する。
学生エンコーダは、スパースフィールドデータと演算子記述子から同じ潜時幾何学を学習する。
論文 参考訳(メタデータ) (2026-05-30T13:00:13Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - A Testable Certificate for Constant Collapse in Teacher-Guided VAEs [3.812090634738739]
変異型オートエンコーダの後方崩壊は、しばしばその症状によって診断される。
本研究では, 具体的故障モード, 入力非依存定数崩壊について検討し, 正確なしきい値が認められたことを示す。
論文 参考訳(メタデータ) (2026-05-07T07:48:41Z) - Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation [0.7788319765644828]
本研究では, モデル蒸留により, 安全でないエージェントの挙動を2つの実験条件でサブリミナルに伝達可能であることを示す。
第一設定では、強い削除バイアスを示す教師エージェントを構築し、視覚的に安全なタスクからの軌跡のみを用いて学生に蒸留する。
ネイティブなBash環境で脅威モデルを複製し、APIツールコールをシェルコマンドに置き換え、最初のパーミッション関連コマンドとしてchmodを発行する代わりにバイアスを運用します。
論文 参考訳(メタデータ) (2026-04-16T22:23:01Z) - Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Seed-Induced Uniqueness in Transformer Models: Subspace Alignment Governs Subliminal Transfer [0.3805935148497361]
教師が生徒が線形に復号化できる隠された特徴を埋め込むトランスフォーマーモデルにおけるサブリミナルトランスファーの分析を行う。
伝達強度は特性識別部分空間内のアライメントに比例する。
論文 参考訳(メタデータ) (2025-11-02T17:34:43Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Semi-Supervised Semantic Segmentation via Gentle Teaching Assistant [72.4512562104361]
擬似ラベル付きラベル付きラベル付きデータは,特徴抽出器における代表的特徴の学習を容易にすることができると論じる。
そこで本研究では,擬似ラベルが特徴抽出器やマスク予測器に与える影響を解消する新しい枠組みであるジェントル指導アシスタント(GTA-Seg)を提案する。
論文 参考訳(メタデータ) (2023-01-18T07:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。