論文の概要: Proxy Reward Internalization and Mechanistic Exploitation: A Learned Precursor to Reward Hacking and Its Generalization
- arxiv url: http://arxiv.org/abs/2606.09711v1
- Date: Mon, 08 Jun 2026 16:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.561512
- Title: Proxy Reward Internalization and Mechanistic Exploitation: A Learned Precursor to Reward Hacking and Its Generalization
- Title(参考訳): プロキシ・リワード内部化と機械的爆発--リワード・ハックの学習と一般化
- Authors: Mohammad Beigi, Ming Jin, Lifu Huang,
- Abstract要約: Proxy Reward Internalization and Mechanistic Exploitation (PRIME)を紹介する。
PRIMEは、タスクの正しさを評価し、受け入れを予測し、悪用可能な金のギャップについて推論する学習能力である。
PRIMEは、報酬ハッキングを継続する前に、段階的に出現する。
- 参考スコア(独自算出の注目度): 31.04469484599396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward hacking is usually studied after it becomes visible, once a model earns high proxy reward while failing the intended task. We instead study what proxy RL teaches before that failure appears. We introduce Proxy Reward Internalization and Mechanistic Exploitation (PRIME), a learned capability to assess task correctness, predict proxy acceptance, and reason about exploitable proxy--gold gaps. In coding RL environments with exploitable pytest rewards, we measure PRIME through chain-of-thought monitoring, direct probes, and activation-level concept vectors. We find that PRIME emerges in a staged sequence before sustained reward hacking, and that its current direct-probe score forecasts later hack onset and severity even when the visible hack rate is still low. PRIME also adapts when the evaluator changes, retargeting to whichever proxy--gold gap remains rewarded and persisting when gold reward suppresses overt hacking, and ablating its activation directions reduces hacking. Across checkpoints, in-domain PRIME tracks out-of-domain misalignment. Together these results suggest that exploitable proxy RL amplifies a proxy-internalization capability upstream of visible hacking, making PRIME a candidate early-warning signal for broader alignment risk.
- Abstract(参考訳): 通常、リワードハッキングは、モデルが意図したタスクを失敗しながら高いプロキシ報酬を得た後に研究される。
その代わりに、その失敗が起こる前にプロキシRLが教えるものを研究します。
Proxy Reward Internalization and Mechanistic Exploitation (PRIME)を導入し、タスクの正確性を評価し、プロキシの受け入れを予測し、利用可能なプロキシのギャップについて推論する。
悪用可能なピスト報酬でRL環境をコーディングする場合,連鎖監視,直接プローブ,アクティベーションレベルの概念ベクトルを用いてPRIMEを測定する。
PRIMEは、報酬のハッキングが続く前に段階的に出現し、現在のダイレクトプローブスコアは、目に見えるハック率が低い場合でも、後のハックの開始と重大さを予測する。
PRIMEはまた、評価者が変化した場合にも適応し、プロキシと金のギャップがどの部分であっても報酬が与えられ、金の報酬が過剰なハッキングを抑えると持続し、そのアクティベーションの方向性を非難するとハッキングが減少する。
チェックポイント全体において、ドメイン内のPRIMEはドメインのミスアライメントを追跡する。
これらの結果は、悪用可能なプロキシRLが、可視的ハッキングの上流でプロキシ・インターナライゼーション能力を増幅し、PRIMEがより広範なアライメントリスクの早期警告信号となることを示唆している。
関連論文リスト
- Do Synthetic Trajectories Reflect Real Reward Hacking? A Systematic Study on Monitoring In-the-Wild Hacking in Code Generation [53.024513172383195]
本稿では、報酬ハッキングにおける合成対内差の体系的解析について述べる。
本研究は,RLトレーニング中に出現するハッキング行動が,RLトレーニング中に出現するハッキング行動とどの程度類似しているかを検討する。
合成データ学習されたモニターは、ハッキングによって一般化することができないことがわかりました。
論文 参考訳(メタデータ) (2026-04-26T01:26:50Z) - Robust Optimization for Mitigating Reward Hacking with Correlated Proxies [8.966550940372967]
我々は、すべてのr関連プロキシ報酬の空間におけるロバストなポリシー最適化問題として報酬ハッキングを定式化する。
我々のアルゴリズムは、最悪のケースリターンにおいてORPOを一貫して上回り、プロキシと真の報酬の相関の異なるレベルにおける堅牢性と安定性を改善している。
論文 参考訳(メタデータ) (2026-04-13T21:47:49Z) - When Reward Hacking Rebounds: Understanding and Mitigating It with Representation-Level Signals [11.280037154530847]
LLMの強化学習はハッキングに対して脆弱である。
本研究では,環境操作設定を用いたコーディング作業におけるこの現象について検討する。
本稿では,ショートカットのコンセプトスコアをGRPOの利点計算に統合したアドバンテージ修正を提案する。
論文 参考訳(メタデータ) (2026-04-01T23:33:08Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。