論文の概要: Do Activation Monitors Survive Model Updates? Benchmarking, Predicting, and Repairing Activation-Monitor Staleness
- arxiv url: http://arxiv.org/abs/2606.15980v2
- Date: Thu, 18 Jun 2026 23:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.823375
- Title: Do Activation Monitors Survive Model Updates? Benchmarking, Predicting, and Repairing Activation-Monitor Staleness
- Title(参考訳): アクティベーションモニターはモデル更新を救えるか? アクティベーション・モニターの安定性のベンチマーク、予測、修復
- Authors: Evan Duan,
- Abstract要約: ベースモデル上でトレーニングされたアクティベーションモニタが,定期的なモデル更新後も信頼性が保たれているかどうかを検証した。
量子化スタイルの更新は、主に凍結プローブのパフォーマンスを保ち、微調整スタイルの更新は、しばしばプローブを不安定にする。
また、前処理機能から劣化が予測可能であることも示し、再配置予算をモニターに向けてトリアージすることが可能となり、最も失敗する可能性が最も高い。
- 参考スコア(独自算出の注目度): 0.16921396880325779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation monitors -- lightweight probes trained on a language model's internal representations -- are an increasingly common layer in deployment safety stacks. Deployed models however are rarely static: they are quantized, fine-tuned, adapted with LoRA, or served with merged adapters while the monitor remains frozen. We present the first systematic test of whether this implicit contract holds: whether activation monitors trained on a base model remain reliable after these routine model updates. Across multiple safety-relevant monitors, model depths, update families, and open-weight models, we find a sharp split: quantization-style updates largely preserve frozen probe performance, while fine-tuning-style updates frequently make probes stale. Fragility is highly monitor-dependent, with privacy/PII probes most affected and refusal-compliance probes comparatively stable, showing that retraining a behavior need not stale its corresponding monitor. QLoRA is especially damaging despite NF4 quantization alone being relatively benign, suggesting that quantization becomes riskier when combined with adaptation. We further show that degradation is predictable from pre-deployment features, enabling revalidation budgets to be triaged toward the monitors most likely to fail. Finally, we test repair strategies and find that cheap label-free activation realignment repairs every repair-relevant stale cell, with none requiring score calibration, few-label heads, or labeled retraining. These results suggest that fine-tuning should trigger activation-monitor revalidation by default, with prediction triaging which monitors to check first and label-free realignment as the default repair.
- Abstract(参考訳): アクティベーションモニタ -- 言語モデルの内部表現に基づいてトレーニングされた軽量プローブ -- は、デプロイの安全性スタックにおいて、ますます一般的なレイヤになっています。
量子化され、微調整され、LoRAで適応されるか、モニターが凍結されている間、統合されたアダプタで提供される。
我々は,この暗黙の契約が成立するかどうか,ベースモデル上でトレーニングされたアクティベーションモニタが,これらの定期的なモデル更新後の信頼性を保っているか,という,最初の体系的なテストを示す。
複数の安全関連モニター、モデル深度、更新家族、およびオープンウェイトモデルにわたって、量子化スタイルの更新は、主に凍結プローブのパフォーマンスを保ち、微調整スタイルの更新は、しばしばプローブを不安定にする。
脆弱性は極めて監視に依存しており、プライバシ/PIIプローブは最も影響を受けており、比較的安定している。
QLoRAは、NF4量子化のみが比較的良性であるにもかかわらず特に損傷を受けており、適応と組み合わせると量子化がより危険になる。
さらに、事前デプロイ機能から劣化が予測可能であることを示し、無効化予算を、最も失敗する可能性のあるモニターに向けてトリアージできるようにする。
最後に, 修復戦略を検証した結果, 安価なラベルフリーアクティベーション・アライメントは, 修理関連ストールセルを全て修復し, スコアキャリブレーション, 少数ラベルヘッド, ラベル付きリトレーニングを必要としないことがわかった。
これらの結果は、微調整がアクティベート・モニタの無効化をデフォルトで引き起こすべきであることを示唆している。
関連論文リスト
- Does Reasoning Preserve Alignment? On the Trustworthiness of Large Reasoning Models [55.788110316999166]
教師付き微調整, RL を用いた後訓練, および命令調整ベースラインに対する蒸留による推論モデルの比較を行った。
推論モデルはしばしば推論ベンチマークを改善するが、アライメント回帰を示す。
これらの回帰は、KL発散によって測定された命令調整ベースラインからの挙動ドリフトと一致している。
論文 参考訳(メタデータ) (2026-06-09T16:14:27Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - When Should We Introduce Safety Interventions During Pretraining? [100.3502954292386]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (2026-01-11T22:38:17Z) - Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。