論文の概要: Understanding helpfulness and harmless tension in reward models
- arxiv url: http://arxiv.org/abs/2606.13209v1
- Date: Thu, 11 Jun 2026 11:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.753783
- Title: Understanding helpfulness and harmless tension in reward models
- Title(参考訳): 報酬モデルにおける有用性と無害緊張の理解
- Authors: Eshaan Tanwar, Pepa Atanasova,
- Abstract要約: 補助力のみ、無害性のみ、混合目的条件下で訓練された報酬モデルにおけるアライメント張力について検討した。
混合対象モデルはしばしば単目的モデルに劣り、目的間の干渉を示す。
これらの共有ニューロンがモデル行動に不均等な影響を及ぼし, 有効性と無害性の間にかなりの割合の神経細胞が共有されていることが判明した。
- 参考スコア(独自算出の注目度): 8.60212044030258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models are a key component of reinforcement learning from human feedback (RLHF), aligning language models toward both helpful and harmless behaviour. However, the internal mechanisms underlying these objectives and their conflicts remain poorly understood. We study alignment tension in reward models trained under helpfulness-only, harmlessness-only, and mixed-objective settings. We find that mixed-objective models often underperform single-objective models, indicating interference between objectives. Using activation-based methods, we identify neurons associated with each objective and study their functional roles via targeted ablations. We find that these neurons causally support their corresponding objectives while often negatively affecting the opposing one. We find that a substantial proportion of neurons are shared between helpfulness and harmlessness, and that these shared neurons exert a disproportionate influence on model behaviour, contributing to alignment tension. Additionally, our results provide insights and mechanistic interpretation into how alignment objectives are represented in reward models and why multi-objective alignment remains challenging, motivating future work on disentangled and controllable alignment methods.
- Abstract(参考訳): リワードモデルは、人間からのフィードバック(RLHF)からの強化学習の鍵となる要素であり、言語モデルが有益な行動と無害な行動の両方に一致している。
しかし、これらの目的とそれらの対立の根底にある内部メカニズムはいまだに理解されていない。
補助力のみ、無害性のみ、混合目的条件下で訓練された報酬モデルにおけるアライメント張力について検討した。
混合対象モデルはしばしば単目的モデルに劣り、目的間の干渉を示す。
アクティベーションに基づく手法を用いて、各目的に関連付けられたニューロンを同定し、標的アブレーションによる機能的役割の研究を行う。
これらのニューロンは対応する目的を因果的に支持するが、しばしば相手に悪影響を及ぼす。
これらの共有ニューロンは、モデル行動に不均等な影響を与え、アライメントの緊張に寄与する。
さらに,本研究の結果は,アライメント対象が報酬モデルでどのように表現されるのか,また多目的アライメントが困難なままであるのか,といった知見と機械的解釈を提供する。
関連論文リスト
- A Study of Failure Modes in Two-Stage Human-Object Interaction Detection [49.37675694881915]
本稿では,2段階HOIモデルの故障モードをよりよく理解するための研究を行う。
HOI検出を複数の解釈可能な視点に分解して、さまざまなタイプの障害パターンを研究する。
論文 参考訳(メタデータ) (2026-04-15T04:01:23Z) - Loss Functions in Diffusion Models: A Comparative Study [0.0]
目的の異なる目標とそれに対応する損失関数を詳細に検討する。
我々は,それらの関係を体系的に概観し,変動的下界目標の枠組みの下でそれらを統一する。
目的の選択が、高品質なサンプルの生成や正確な推定可能性など、特定の目標を達成するためのモデル能力にどのように影響するかを評価する。
論文 参考訳(メタデータ) (2025-07-02T09:23:34Z) - To See a World in a Spark of Neuron: Disentangling Multi-task Interference for Training-free Model Merging [16.81093103067372]
本研究は, モデルマージにおける神経機構を利用した最初の研究である。
神経サブスペース内のタスク干渉を軽減するために開発された新しい統合フレームワークであるNeuroMergingを紹介する。
本研究は, モデルマージにおける神経機構の整合の重要性を強調した。
論文 参考訳(メタデータ) (2025-03-07T11:00:24Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。