論文の概要: Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal
- arxiv url: http://arxiv.org/abs/2606.12360v2
- Date: Thu, 11 Jun 2026 17:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.588321
- Title: Anatomy of Post-Training: Using Interpretability to Characterize Data and Shape the Learning Signal
- Title(参考訳): 学習後の解剖:データのキャラクタリゼーションと学習信号の形状の解釈可能性を用いた
- Authors: Leon Bergen, Usha Bhalla, Sidharth Baskaran, Max Loeffler, Raphael Sarfati, Dhruvil Gala, Ryan Panwar, Santiago Aranguri, Thomas Fel, Atticus Geiger, Matthew Kowal, Siddharth Boppana, Daniel Balsam, Owen Lewis, Jack Merullo, Thomas McGrath, Ekdeep Singh Lubana,
- Abstract要約: 本稿では、解釈可能性プロトコルを用いたデータ中心のポストトレーニングパイプラインを導入し、非推奨世代と区別される潜在概念の統計的仮説を立案する。
我々のパイプラインは、既存の嗜好データの望ましくない信号を診断し、ターゲット外の学習を緩和し、安全ガードやモデルパーソナリティといった望ましい特性を増幅または形作るのにも役立ちます。
- 参考スコア(独自算出の注目度): 29.196846051811576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-model post-training is the main stage at which model behavior is shaped, yet it still largely involves optimization of scalar rewards that summarize diverse desiderata. This abstraction gives practitioners little visibility into what their data actually teaches models, allowing spurious correlations to be learned by a model and inducing undesirable behaviors such as over-stylization and sycophancy. To address this problem, we ask: can we inspect a preference dataset before optimization and decide, at the level of concepts, which behaviors a model should be allowed to learn? Motivated by this, we introduce a data-centric post-training pipeline that uses interpretability protocols to develop statistical hypotheses for the latent concepts separating preferred from dispreferred generations, making them explicit for fine-grained user feedback. Building on this view, we unify several interpretability-based training protocols as ways of shaping rewards via feature or data interventions. Empirically, we show that our pipeline diagnoses undesirable signals in existing preference data, mitigates off-target learning, and can also help amplify or shape desired properties such as safeguards and model personality. More broadly, our results suggest that interpretability can turn post-training from optimizing opaque proxy rewards into a process of auditing and sculpting the learning signal itself.
- Abstract(参考訳): 言語モデルポストトレーニングは、モデル行動が形成される主要な段階であるが、それでも多種多様なデシダラタを要約したスカラー報酬の最適化がほとんどである。
この抽象化により、実践者は自分のデータがモデルに実際に何を教えるのかをほとんど見ることができず、刺激的な相関がモデルによって学習され、過度なスティル化やサイコフィケーションのような望ましくない振る舞いが引き起こされる。
この問題に対処するために、最適化する前に好みのデータセットを検査して、モデルが学習すべき振る舞いである概念のレベルで決定できますか?
そこで本研究では、解釈可能性プロトコルを用いたデータ中心のポストトレーニングパイプラインを導入し、非推奨世代と区別された潜在概念の統計的仮説を立案し、詳細なユーザフィードバックを明示する。
この視点に基づいて、私たちはいくつかの解釈可能性ベースのトレーニングプロトコルを、機能やデータの介入を通じて報酬を形成する方法として統合しています。
実験では、パイプラインが既存の嗜好データの望ましくない信号を診断し、ターゲット外の学習を緩和し、安全ガードやモデルパーソナリティといった望ましい特性を増幅または形作るのに役立つことを示す。
より広範に、我々の結果は、解釈可能性が、不透明なプロキシ報酬を最適化することから、学習信号自体を監査し、彫刻するプロセスに変わることを示唆している。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [24.073260299592675]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - On the Informativeness of Supervision Signals [31.418827619510036]
我々は情報理論を用いて、多くの一般的な監視信号が表現学習のパフォーマンスにどのように貢献するかを比較する。
我々のフレームワークは、ビッグデータシステムにおいてハードラベルを使用するための理論的正当性を提供するが、よりリッチな監視信号により、数発の学習とアウト・オブ・ディストリビューションの一般化を実現している。
論文 参考訳(メタデータ) (2022-11-02T18:02:31Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。