Fugu-MT 論文翻訳(概要): SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models

論文の概要: SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models

arxiv url: http://arxiv.org/abs/2606.07705v1
Date: Fri, 05 Jun 2026 10:00:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.296757
Title: SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models
Title（参考訳）: SAW:大規模言語モデルにおける多目的強化学習のための段階認識動的重み付け
Authors: Yuchen He, Baolong Bi, Shenghua Liu, Huaming Liao, Yuyao Ge, Bolin Wan, Siqian Tong, Juan Chen, Jiafeng Guo, Xueqi Cheng,
Abstract要約: 本稿では,アルゴリズムに依存しない軽量な動的重み付け機構として,SAW(Stage-Aware Dynamic Weighting)を提案する。 SAWは、各次元の報酬または利益の貢献を、バッチ内の相対的な情報性によって重み付けする。ツールコールとテキスト要約タスクの実験により、SAWはトレーニング効率と最終的なパフォーマンスの両方を一貫して改善することを示した。
参考スコア（独自算出の注目度）: 66.92079232778707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although multi-objective reinforcement learning (MORL) is central to aligning large language models with complex human preferences, the prevailing practice of static weighted summation overlooks a more fundamental phenomenon: reward learning is markedly asynchronous across objectives. Well-learned dimensions quickly produce homogeneous, low-variance signals whose residual noise contaminates the aggregated reward (in GRPO) or occupies a fixed share of the advantage budget (in GDPO), interfering with the scarce yet high-value signals carried by under-learned dimensions. To address this asynchrony, we propose Stage-Aware Dynamic Weighting (SAW), a lightweight, algorithm-agnostic dynamic weighting mechanism. SAW utilizes the coefficient of variation (CV) as a scale-invariant proxy for real-time informativeness, reweighting each dimension's reward or advantage contribution by its relative informativeness within the batch. Unlike gradient-based methods that require multiple forward and backward passes, SAW relies solely on batch-level statistics, introducing nearly negligible computational overhead. Experiments on tool-calling and text summarization tasks demonstrate that SAW consistently improves both training efficiency and final performance under both GRPO and GDPO frameworks, confirming it as a general-purpose plug-in for multi-reward LLM alignment. Our code is available at https://github.com/Zhaolutuan/SAW
Abstract（参考訳）: 多目的強化学習(MORL)は、大規模言語モデルと複雑な人間の嗜好との整合の中心であるが、静的重み付け和の一般的な実践は、より基本的な現象を見落としている。十分に学習された次元は、残ノイズが集約された報酬(GRPO)を汚染したり、利益予算(GDPO)の固定シェアを占有する均質で低分散な信号を生成する。この非同期性に対処するために,アルゴリズムに依存しない軽量な動的重み付け機構であるStage-Aware Dynamic Weighting (SAW)を提案する。 SAWは、変動係数(CV)をリアルタイムの情報量に対するスケール不変のプロキシとして利用し、各次元の報酬や利益の貢献を、バッチ内の相対的な情報量によって再重み付けする。複数の前方パスと後方パスを必要とする勾配ベースの手法とは異なり、SAWはバッチレベルの統計にのみ依存し、ほとんど無視可能な計算オーバーヘッドを導入する。ツールコールとテキスト要約タスクの実験により、SAWはGRPOおよびGDPOフレームワークのトレーニング効率と最終性能の両方を一貫して改善し、マルチリワードLCMアライメントのための汎用プラグインとして確認した。私たちのコードはhttps://github.com/Zhaolutuan/SAWで利用可能です。

関連論文リスト

Divide-and-Conquer Inference for Large-Scale Visual Recognition with Multimodal Large Language Models [12.459927405623624]
Divide-and-Conquer Inference (DCI)はMLLMを用いた視覚認識のための新しいテスト時間スケーリング戦略である。 DCIは、複雑なグローバルな分類タスクを、より単純で局所化されたサブプロブレムに分解し、探索空間を圧縮するために動的プルーニング機構を使用する。モデルに依存しないプラグアンドプレイのパラダイムとして、DCIは大規模なシナリオでMLLMの推論精度をスケールするための効率的なアプローチを提供する。
論文参考訳（メタデータ） (2026-05-24T01:07:05Z)
Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
A General Adaptive Dual-level Weighting Mechanism for Remote Sensing Pansharpening [11.791358860917189]
リモートセンシングの深層学習法は急速に進歩しています多くの既存手法は特徴の不均一性と冗長性を完全に活用するのに苦労している。これらの課題に対処するために、一般適応二重レベル重み付け機構(ADWM)を導入する。
論文参考訳（メタデータ） (2025-03-17T14:24:00Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Dynamic Multi-Scale Loss Optimization for Object Detection [14.256807110937622]
マルチスケール検出器訓練の客観的不均衡について検討する。本稿では, 適応可変重み付け (AVW) を提案する。トレーニング中に重み付け方式を確率的に決定する新しい強化学習最適化(RLO)を開発した。
論文参考訳（メタデータ） (2021-08-09T13:12:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。