論文の概要: Greed Is Learned: Visible Incentives as Reward-Hacking Triggers
- arxiv url: http://arxiv.org/abs/2606.16914v1
- Date: Mon, 15 Jun 2026 16:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.761542
- Title: Greed Is Learned: Visible Incentives as Reward-Hacking Triggers
- Title(参考訳): 生き生きとしたインセンティブ、リワード・ハッキング・トリガーとして学ぶ
- Authors: Tong Che, Rui Wu,
- Abstract要約: 強化学習は、このような可視的な自己利益チャネルに強調される政策を実現できることを示す。
保持されたドメインにまたがって表示された支払いを追いかけ、それを行うための真のタスクを犠牲にして、それを書き換えるチャネルをフォローします。
これはEmphMoneyWorldという合成サンドボックスで研究しています。
- 参考スコア(独自算出の注目度): 7.4804012268124085
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deployed agents increasingly act with their reward proxy in view, such as a balance, score, or KPI dashboard. We show that reinforcement learning can make a policy \emph{addicted} to such a visible self-benefit channel. It chases the displayed payoff across held-out domains, sacrifices the true task to do so, and follows the channel wherever we rewrite it, while policies that never saw the channel stay honest. We call this \emph{reward-channel addiction} and study it in \emph{MoneyWorld}, a synthetic sandbox. The addiction can \emph{flip a model's safety alignment}: trained only on innocuous money tasks with no safety content, the model abandons the safe action it otherwise always takes whenever a dashboard pays for an unsafe one, and reverts to safe once the channel is hidden. This learned bribe replicates across model scales and families. Blindly optimizing super-capable, next-generation AI on KPIs or P\&L can be dangerous for alignment. \emph{Greed is learned} when following such a channel pays.
- Abstract(参考訳): デプロイされたエージェントは、バランスやスコア、KPIダッシュボードといった、報酬プロキシの観点から、ますます行動します。
強化学習は、このような可視的な自己利益チャネルに対して、ポリシーを「emph{addicted}」にすることができることを示す。
それは、保持されたドメインにまたがって表示された支払いを追いかけ、それを行うための真のタスクを犠牲にして、それを書き換えるチャンネルをフォローし、チャンネルを見たことのないポリシーは誠実に保たれる。
これをemph{reward-channel addiction}と呼び、合成サンドボックスである \emph{MoneyWorld} で研究する。
モデルは、安全コンテンツのない無害な金銭的タスクのみをトレーニングし、ダッシュボードが安全でないものに対して支払ったときに常に行う安全なアクションを放棄し、チャネルが隠された後に安全に戻します。
この学習された収賄は、モデルスケールと家族にまたがって複製される。
超能力の次世代AIをKPIやP\&Lで盲目的に最適化することは、アライメントにとって危険である。
このようなチャネルに従えば、 \emph{Greed is learned} となる。
関連論文リスト
- Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Sleeper Agents: Training Deceptive LLMs that Persist Through Safety
Training [41.81176284155003]
本研究では,大規模言語モデルにおける認識行動の実証-概念例について検討する。
このようなバックドアの動作を持続的に行うことができ、標準安全訓練技術によって取り除かれないようにしている。
この結果から,モデルが偽装行動を示すと,そのような偽装行為の除去に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-10T22:14:35Z) - Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions [79.1824160877979]
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。
私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
論文 参考訳(メタデータ) (2023-09-14T17:23:37Z) - Provable Defense against Backdoor Policies in Reinforcement Learning [35.908468039596734]
バックドアポリシー(英語: backdoor policy)とは、敵が隠されたトリガーを許可する、一見好意的なポリシーを公表するセキュリティの脅威である。
サブスペーストリガ仮定下での強化学習におけるバックドアポリシーに対する実証可能な防御機構を提案する。
論文 参考訳(メタデータ) (2022-11-18T23:12:24Z) - Understanding the Limits of Poisoning Attacks in Episodic Reinforcement
Learning [36.30086280732181]
本稿では,<sup>RL</sup>における目標政策に向けて,幻想的順序最適学習アルゴリズムを操作するための毒攻撃について検討する。
攻撃の効果は、報酬が束縛されているか、無束縛されているかによって大きく左右される。
論文 参考訳(メタデータ) (2022-08-29T15:10:14Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。