論文の概要: Reinforcement Learning for Neural Model Editing
- arxiv url: http://arxiv.org/abs/2606.13461v1
- Date: Thu, 11 Jun 2026 15:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.878376
- Title: Reinforcement Learning for Neural Model Editing
- Title(参考訳): ニューラルモデル編集のための強化学習
- Authors: Shaivi Malik,
- Abstract要約: 本稿では、強化学習問題としてニューラルモデル編集を定式化する探索フレームワークを提案する。
エージェントが重みを乗算的にスケーリングするMaskWorldと、加法的な重み更新を適用するShiftWorldという2つの環境を紹介します。
報酬関数は、ユーティリティ保存目的とタスク固有の編集目的を組み合わせることで、エージェントがターゲットとなる修正を学習できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing pretrained neural networks requires specialized algorithms tailored to specific objectives. Designing such algorithms is often time-consuming and demands significant effort. We present an exploratory framework that formulates neural model editing as a reinforcement learning problem, where agents modify models using reward feedback. We introduce two environments: MaskWorld, where agents scale weights multiplicatively, and ShiftWorld, where agents apply additive weight updates. The reward function combines a utility-preservation objective with a task-specific editing objective, enabling agents to learn targeted modifications while maintaining overall model performance. We evaluate the framework on bias mitigation in text classification and machine unlearning in image classification, both of which traditionally rely on specialized algorithms. Our results show that the learned policies reduce forget set accuracy to nearly 0% while preserving over 90% retain set accuracy on the unlearning task. In the bias mitigation setting, the learned policies improve bias-related performance by more than 5% while maintaining general classification utility. Our findings show that neural model editing can be cast as a reinforcement learning problem, allowing editing policies to be learned from reward feedback rather than manually engineered for each task.
- Abstract(参考訳): 事前訓練されたニューラルネットワークの編集には、特定の目的に合わせた特別なアルゴリズムが必要である。
このようなアルゴリズムの設計には時間を要することが多く、多大な労力を要する。
本稿では,ニューラルモデル編集を強化学習問題として定式化するための探索的フレームワークを提案する。
エージェントが重みを乗算的にスケーリングするMaskWorldと、加法的な重み更新を適用するShiftWorldという2つの環境を紹介します。
報酬関数は、ユーティリティ保存目的とタスク固有の編集目的を組み合わせることで、エージェントが全体のモデル性能を維持しながら、ターゲットとなる修正を学習できるようにする。
テキスト分類におけるバイアス軽減と画像分類における機械学習の枠組みを評価する。
これらの結果から,学習内容の精度を90%以上保持しながら,学習内容の正確さを0%近く削減できることがわかった。
バイアス緩和設定において、学習されたポリシーは、一般的な分類ユーティリティを維持しながら、バイアス関連の性能を5%以上改善する。
この結果から,ニューラルモデル編集を強化学習問題として捉えることができ,各タスクに手動で設計するのではなく,報酬フィードバックから編集ポリシーを学習することができることがわかった。
関連論文リスト
- Conservative classifiers do consistently well with improving agents: characterizing statistical and online learning [7.857499581522375]
複数の新しい軸にまたがる改良を施したいわゆる学習性の特徴付けを行う。
より困難な環境での学習方法を示し、よく研究された有界雑音モデルの下で、より低い一般化誤差を達成する。
我々は、適切な学習と不適切な学習の両方のために、Attiasらによって提起されたオープンな質問を解決する。
論文 参考訳(メタデータ) (2025-06-05T17:13:59Z) - When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Auxiliary Task Update Decomposition: The Good, The Bad and The Neutral [18.387162887917164]
補助的タスク勾配のきめ細かい操作を行うモデルに依存しないフレームワークを定式化する。
そこで本研究では,タスクの損失を軽減・ダメージ・回避する方向に補助的な更新を分解することを提案する。
テキストと画像の分類タスクのアウト・オブ・ディストリビューションデータを活用する場合,我々のアプローチは一貫して,強靭で広く使用されているベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-08-25T17:09:48Z) - Rectification-based Knowledge Retention for Continual Learning [49.1447478254131]
ディープラーニングモデルは、インクリメンタルな学習環境で訓練されたときに壊滅的な忘れに苦しむ。
タスクインクリメンタル学習問題に対処するための新しいアプローチを提案する。これは、インクリメンタルに到着する新しいタスクに関するモデルをトレーニングすることを含む。
私たちのアプローチは、ゼロショットと非ゼロショットタスクインクリメンタルラーニング設定の両方で使用できます。
論文 参考訳(メタデータ) (2021-03-30T18:11:30Z) - EnD: Entangling and Disentangling deep representations for bias
correction [7.219077740523682]
本稿では,深層モデルが望ましくないバイアスを学習することを防止するための正規化戦略であるEnDを提案する。
特に、深層ニューラルネットワークの特定のポイントに「情報のボトルネック」を挿入し、バイアスに関する情報を分離する。
実験によると、EnDは偏りのないテストセットの一般化を効果的に改善する。
論文 参考訳(メタデータ) (2021-03-02T20:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。