論文の概要: DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity
- arxiv url: http://arxiv.org/abs/2606.09043v1
- Date: Mon, 08 Jun 2026 05:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.711762
- Title: DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity
- Title(参考訳): DynaCF:動的対物感性によるリワードモデルにおけるショートカット学習の軽減
- Authors: Fengyuan Liu, Yongliang Miao, Zirui He, Yanguang Liu, Fei Sun, Mengnan Du,
- Abstract要約: 報酬モデル学習におけるショートカット学習の軽減を目的とした動的リウェイト化フレームワークを提案する。
我々は、DynaCFが嗜好モデリングにおけるロバスト性を一貫して改善していることを示します。
- 参考スコア(独自算出の注目度): 26.60071377261404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models trained from pairwise preferences often exploit superficial shortcut cues rather than learning true response quality. We propose DynaCF, a dynamic reweighting framework for mitigating shortcut learning in reward model training. Unlike static shortcut heuristics, DynaCF measures shortcut sensitivity online during optimization by applying semantics-preserving counterfactual perturbations and tracking the resulting margin shifts and preference flips under the current model. Samples with higher shortcut sensitivity are dynamically downweighted in the Bradley-Terry objective, encouraging the model to rely less on superficial patterns and more on task-relevant preference signals. Extensive experiments show that DynaCF consistently improves robustness in preference modeling.
- Abstract(参考訳): ペアワイズ選好から訓練されたリワードモデルは、真の応答品質を学ぶのではなく、表面的なショートカットキューを利用することが多い。
報酬モデル学習におけるショートカット学習を緩和する動的再重み付けフレームワークであるDynaCFを提案する。
静的ショートカットヒューリスティックスとは異なり、DynaCFはセマンティックス保存の反事実摂動を適用し、現在のモデルの下で得られたマージンシフトと選好フリップを追跡することで、最適化中にオンラインでショートカット感度を測定する。
ショートカット感度の高いサンプルはBradley-Terry目標において動的に減重され、表面的なパターンよりもタスク関連優先信号に依存するようにモデルに促される。
大規模な実験により、DynaCFは嗜好モデリングにおけるロバスト性を一貫して改善することが示された。
関連論文リスト
- Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models [22.77769800361136]
生成的報酬モデルは、より強力な意味的理解と推論を提供するが、推論時にコストがかかり、人間の好みと直接整合することが困難である。
本稿では,共用視覚言語バックボーン上での好み学習と言語モデリングを協調的に最適化するジョイント・リワード・モデリング(JRM)を提案する。
JRM は MMRB2 と EditReward-Bench の最先端化を実現し,下流オンライン強化学習における安定性と性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-02-07T13:09:41Z) - Parameter Interpolation Adversarial Training for Robust Image Classification [14.913267679379308]
補間補助訓練(PIAT)と呼ばれる新しい枠組みを提案する。
PIATは、前のエポックと現在のエポックのパラメータを補間することで、各エポック間のモデルパラメータをチューニングする。
モデル変更の決定境界をより穏健なものにし、過度に適合する問題を緩和します。
論文 参考訳(メタデータ) (2025-11-02T07:37:06Z) - Improved Training Technique for Shortcut Models [12.527716901034694]
ショートカットモデルは、生成モデリングのための有望で非敵対的なパラダイムである。
ショートカットモデルは、1つのトレーニングされたネットワークから1ステップ、数ステップ、および複数ステップのサンプリングをサポートする。
本稿では,ショートカットモデルを後退させた5つのコア問題に対処する。
論文 参考訳(メタデータ) (2025-10-24T08:35:04Z) - Rectifying Shortcut Behaviors in Preference-based Reward Learning [46.09046818725698]
強化学習では、好みに基づく報酬モデルが、大きな言語モデルと人間の協調行動の整合において中心的な役割を果たす。
最近の研究では、これらのモデルはハッキングに報いる傾向があり、過度な最適化のため、しばしばうまく一般化できないことが示されている。
我々は、好みに基づく報酬学習におけるショートカット行動を軽減するために、原則的だが柔軟なアプローチを導入する。
論文 参考訳(メタデータ) (2025-10-21T20:08:32Z) - Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。
共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文 参考訳(メタデータ) (2020-04-25T20:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。