論文の概要: PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation
- arxiv url: http://arxiv.org/abs/2606.17199v1
- Date: Mon, 15 Jun 2026 18:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.103514
- Title: PowerOPD: Stabilizing On-Policy Distillation with Bounded Power Transformation
- Title(参考訳): PowerOPD: 境界電力変換によるオンライン蒸留の安定化
- Authors: Anhao Zhao, Junlong Tong, Yingqi Fan, Ping Nie, Wenjie Li, Xiaoyu Shen,
- Abstract要約: 大規模言語モデルに対する標準オンライン蒸留 (OPD) は, 実際に厳しい訓練病理に苦しむことを示す。
PowerOPD は、Alpha > 0 でパラメータ化された Box-Cox 電力変換の符号一貫性の報酬であり、対数比は退化 α -> 0 の極限である。
ベンチマーク平均のAvg@8/Pass@8はバニラPDで+6.37/+5.71、ポストホック安定化で+3.01/+3.54、フルボキャブラリPDで+2.59/+8.90となる。
- 参考スコア(独自算出の注目度): 17.919178151901573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard on-policy distillation (OPD) for large language models estimates the reverse-KL objective using student-sampled tokens, yielding an unbiased single-sample Monte Carlo estimator that avoids vocabulary-wide computation. However, we show that this estimator suffers from severe training pathologies in practice: sample inefficiency, unstable generation dynamics, and a substantial performance gap compared to exact full-vocabulary OPD. Reward-level diagnosis traces these pathologies to the log-ratio reward, which is unbounded by construction, producing extremely high-variance gradients concentrated at early positions and persisting throughout training; standard post-hoc scaling fail as they operate only after this distortion occurs. To solve this problem, we propose PowerOPD: a family of natively bounded, sign-consistent rewards from the Box-Cox power transformation, parameterized by alpha > 0, of which the log-ratio is the degenerate alpha -> 0 limit. Across six mathematical reasoning benchmarks and four Qwen3 teacher-student pairs, PowerOPD achieves benchmark-averaged Avg@8/Pass@8 gains of up to +6.37/+5.71 over vanilla OPD, +3.01/+3.54 over post-hoc stabilization, and +2.59/+8.90 over full-vocabulary OPD, while reducing wall-clock time by 59.2% and peak GPU memory by 23.1%. Larger alpha generally improves accuracy, consistently shortens responses, and keeps gradient norms more than 3,000x smaller than vanilla OPD.
- Abstract(参考訳): 大規模言語モデルの標準的なオンライン蒸留(OPD)は、学生サンプルトークンを用いて逆KLの目的を推定し、語彙全体の計算を避ける単一のサンプルモンテカルロ推定器を生成する。
しかし,本推定装置は,サンプルの非効率性,不安定な生成ダイナミクス,フルボキャブラリ OPD と比較した場合の実質的な性能差など,訓練の難しさに悩まされている。
リワードレベルの診断は、これらの病理をログ比の報酬に辿り着くが、これは建設によって束縛されず、初期の位置に集中し、トレーニングを通して非常に高分散勾配を生じさせ、標準のポストホックスケーリングは、この歪みが発生した後にのみ実行されるため失敗する。
この問題を解決するために、我々は、Alpha > 0 でパラメータ化された Box-Cox のパワー変換から、ネイティブに有界で符号一貫性のある報酬の族である PowerOPD を提案し、この対数比は退化 α -> 0 の極限である。
PowerOPDは6つの数学的推論ベンチマークと4つのQwen3教師/学生ペアで、ベンチマーク平均のAvg@8/Pass@8ゲインをバニラOPDで+6.37/+5.71、ポストホック安定化で+3.01/+3.54、フルボキャブラリOPDで+2.59/+8.90、ウォールクロック時間で59.2%、GPUメモリで23.1%向上した。
より大きいアルファは一般的に精度を向上し、応答を一貫して短縮し、バニラPDよりも3000倍以上小さい勾配ノルムを維持する。
関連論文リスト
- Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models [0.0]
グループ相対政策最適化は、推論タスク上で言語モデルを整合させる効果的な強化学習アルゴリズムとして登場した。
本稿では,Adaptive-Horizon GRPOとSelective-Advantage AH-GRPOの2つの補完拡張を導入する。
解析の結果、非対称割引は正しい解の完全な勾配信号を保持し、エントロピー崩壊を防止し、トレーニングを著しく安定化させることがわかった。
論文 参考訳(メタデータ) (2026-06-03T20:57:57Z) - Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling [11.537163059885687]
2つの軽量プラグインモジュールを用いたExploration-Prioritized Policy Optimization (EXPO)を提案する。
我々は6つの数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5BとQwen3-8B-Baseの実験を行った。
AIME 2025 pass@32では13.34で、63.33パーセントから76.67パーセントに上昇し、8Bモデルでは平均2.66でパス@32が改善されている。
論文 参考訳(メタデータ) (2026-05-11T03:19:04Z) - KL for a KL: On-Policy Distillation with Control Variate Baseline [13.281263788199219]
On-Policy Distillation (OPD) は、大規模言語モデルのトレーニング後の主要なパラダイムとして登場した。
本稿では,OPDを政策段階RLとするvOPDを提案する。
VOPDはバニラOPDより一貫して優れており,最も高価な全語彙ベースラインと一致している。
論文 参考訳(メタデータ) (2026-05-08T15:24:51Z) - Process Supervision via Verbal Critique Improves Reasoning in Large Language Models [1.472161528588343]
Verbal Process Supervision (VPS) は、より強力なスーパーバイザから構造化された自然言語批判を使用して、反復的な生成-批判-再定義ループを丸い予算Rまでガイドする、トレーニング不要のフレームワークである。
VPSはGPQA Diamond、AIME 2025、LiveCodeBench V6の3つの主要な結果を得る。
これらの結果は、推論時間スケーリングの新たな軸として、批判的な粒度を確立する。
論文 参考訳(メタデータ) (2026-04-23T12:36:12Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Hyperspherical Normalization for Scalable Deep Reinforcement Learning [57.016639036237315]
SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-21T08:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。