論文の概要: Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization
- arxiv url: http://arxiv.org/abs/2606.09091v1
- Date: Mon, 08 Jun 2026 06:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.768307
- Title: Stabilizing On-Policy Distillation for MLLM Reasoning with Global Normalization
- Title(参考訳): 大域的正規化を考慮したMLLM推論のためのオンライン蒸留の安定化
- Authors: Dongze Hao, Zhiwei Jin, Chen Chen, Haonan Lu,
- Abstract要約: オンライン蒸留(OPD)がポストトレーニングの重要なパラダイムとして最近登場した。
我々は,生のKLスコアをバッチレベルの相対的優位性に変換することで最適化を安定化する実用的な方法として,グローバル正規化蒸留政策最適化(GNDPO)を提案する。
- 参考スコア(独自算出の注目度): 9.860371691501076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) has recently emerged as an important post-training paradigm. By using a stronger teacher model to provide dense, fine-grained supervision for sampled trajectories, OPD offers a clear advantage over reinforcement learning with verifiable rewards (RLVR), which typically depends on sparse binary or outcome-based environmental feedback. However, naive token-level distillation can suffer from gradient instability, due to magnitude misalignment in outlier states. To address this issue, we propose Globally Normalized Distillation Policy Optimization (GNDPO), a practical method that stabilizes optimization by transforming raw KL scores into batch-level relative advantages. This normalization effectively mitigates gradient explosions while retaining the benefits of token-level guidance. Experimental results show that GNDPO substantially improves training robustness and downstream performance across multimodal reasoning tasks. The code is released at https://github.com/OPPO-Mente-Lab/GNDPO.
- Abstract(参考訳): オンライン蒸留(OPD)がポストトレーニングの重要なパラダイムとして最近登場した。
より強力な教師モデルを用いて、サンプリングされた軌跡の厳密できめ細かな監視を提供することにより、OPDは、通常、スパースバイナリや結果に基づく環境フィードバックに依存する、検証可能な報酬(RLVR)による強化学習よりも明確な優位性を提供する。
しかし、希少なトークンレベルの蒸留は、未熟な状態のマグニチュードのミスアライメントにより、勾配不安定に悩まされる可能性がある。
そこで本研究では,生のKLスコアをバッチレベルの相対的優位性に変換することにより,最適化を安定化する実用的な手法として,グローバル正規化蒸留政策最適化(GNDPO)を提案する。
この正規化は、トークンレベルのガイダンスの利点を維持しながら、勾配爆発を効果的に軽減する。
実験結果から,GNDPOはマルチモーダル推論タスクにおけるトレーニングロバストネスとダウンストリーム性能を大幅に向上することが示された。
コードはhttps://github.com/OPPO-Mente-Lab/GNDPOで公開されている。
関連論文リスト
- One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - KL for a KL: On-Policy Distillation with Control Variate Baseline [13.281263788199219]
On-Policy Distillation (OPD) は、大規模言語モデルのトレーニング後の主要なパラダイムとして登場した。
本稿では,OPDを政策段階RLとするvOPDを提案する。
VOPDはバニラOPDより一貫して優れており,最も高価な全語彙ベースラインと一致している。
論文 参考訳(メタデータ) (2026-05-08T15:24:51Z) - Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level [23.59808224440603]
オンライン蒸留(OPD)は、トークンレベルの教師のフィードバックで生徒を自身の軌道で訓練する。
その標準的優位重み付け政策勾配は、高分散更新、ゼロアドバンテージ領域での勾配の消失、補正信号が不十分な場合の探索ボトルネックなどの3つの構造的弱点に悩まされている。
正の強化学習を保ちつつ,非正の負の強化を非正の利得領域における局所的な発散最小化に置き換える非対称オンポリシィ蒸留(AOPD)を提案する。
論文 参考訳(メタデータ) (2026-05-07T15:02:49Z) - EP-GRPO: Entropy-Progress Aligned Group Relative Policy Optimization with Implicit Process Guidance [3.463914032107119]
本稿では,モデル固有の情報フローをマイニングするフレームワークであるEntropy-Progress Aligned GRPOを提案する。
EP-GRPOはGRPOとその変種と比較して精度と効率が優れている。
論文 参考訳(メタデータ) (2026-05-06T14:21:54Z) - EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。