論文の概要: On the Position Bias of On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.22600v2
- Date: Tue, 23 Jun 2026 06:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.476678
- Title: On the Position Bias of On-Policy Distillation
- Title(参考訳): オンライン蒸留における位置バイアスについて
- Authors: Yan Xie, Sijie Zhu, Tiansheng Wen, Bo Chen, Yifei Wang,
- Abstract要約: IW-OPD (Importance-Weighted On-Policy Distillation) は, OPD (On-Policy Distillation) よりもはるかに早く収束することを示す。
IW-OPDは、同じサイズとクロススケールの両方で標準のPDよりも優れた最終性能を実現し、AIME-2025では6.9ポイントまで性能が向上した。
- 参考スコア(独自算出の注目度): 19.36735875165262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-Policy Distillation (OPD) improves the learning efficiency of standard reinforcement learning through dense, token-level supervision from teachers. In the standard KL objective of OPD, token-level losses are uniformly averaged, implying equal weights for all tokens. However, we discover that not all tokens are created equal: as student rollouts grow longer, they deviate further from the teacher's distribution, leading to degraded supervision quality at later positions. As a result, OPD using only the first 30% of tokens can perform comparably to using all tokens, whereas OPD using only the last 30% of tokens barely learns anything. In this work, we provide a principled understanding of this issue through the lens of constrained optimization. Based on these insights, we derive Importance-Weighted On-Policy Distillation (IW-OPD), in which the weight assigned to each token depends on the accumulated discrepancy between the student's and teacher's distributions, naturally upweighting earlier tokens and downweighting later ones with larger deviations. We show that IW-OPD converges significantly faster than OPD, with better learning efficiency, and achieves better final performance than standard OPD in both same-size and cross-scale settings, improving performance up to 6.9 points on AIME-2025.
- Abstract(参考訳): On-Policy Distillation (OPD)は,教師の密集したトークンレベルの監督を通じて,標準的な強化学習の学習効率を向上させる。
OPDの標準KL目標では、トークンレベルの損失は均一に平均され、全てのトークンに対して等しい重みが示される。
しかし,全てのトークンが平等に作成されるわけではない。学生のロールアウトが長くなると,教師の分布から逸脱し,後の職位における監督の質が低下する。
その結果、トークンの最初の30%しか使用していないOPDは、すべてのトークンを使用するのと互換性があるが、最後の30%しか使用していないPDは、ほとんど何も学ばない。
本研究では、制約付き最適化のレンズを通してこの問題の原則的理解を提供する。
これらの知見に基づいて、各トークンに割り当てられた重みは、学生の分布と教師の分布の累積差に依存し、自然に初期のトークンを重み付けし、後のトークンを大きな偏差で重み付けするIW-OPD(Importance-Weighted On-Policy Distillation)を導出する。
IW-OPD は OPD よりもはるかに高速に収束し,学習効率が向上し,同一サイズとクロススケールの両方で標準 OPD よりも優れた最終性能を実現し,AIME-2025 の6.9 ポイントの性能向上を実現している。
関連論文リスト
- PriFT: Prior-Support Guided Supervised Fine-Tuning [74.65198014829393]
Supervised Fine-tuning (SFT) は、下流タスク適応のための効率的なアプローチである。
SFTはトークン単位で固定されたデモトークンに適合する。
凍結した事前訓練参照からトークン重みを導出し、微調整の影響を受けない安定した再重み付け信号を得るPriFTを提案する。
論文 参考訳(メタデータ) (2026-06-08T12:14:06Z) - Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation [16.086812358369798]
大規模言語モデルにおけるオンライン蒸留(OPD)は、完全なKLの監督からより選択的な訓練パラダイムへと移行しつつある。
近年のOPD法では,どの軌跡から学ぶか,どのトークンが最も情報的か,どの信号が最も信頼できるかの選択に注目が集まっている。
本稿では,ファリコンFiRe-OPD(Filter, then Reweight)を提案する。
論文 参考訳(メタデータ) (2026-06-01T17:58:22Z) - Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation [81.10000755917712]
オンライン蒸留は,教師からのトークンレベルのフィードバックを用いて,学生モデルを自作の軌道上で訓練することにより,推論能力を伝達する。
生徒が生成した接頭辞が長くなるにつれて、教師の次点の分布は自信を減らし、差別性が低下する。
SFDを緩和するため, textbfLookahead Group Reward (ours) を導入する。
論文 参考訳(メタデータ) (2026-05-29T04:39:20Z) - Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy [64.72195169444738]
ポリシー・グラディエント・メソッドは、各トークンを同じ軌道で扱い、均一なクレジット割り当てにつながる。
このような均一なクレジット割り当てはトークンレベルのトレーニングシグナルをほとんど誤配置していることを示す。
本稿では,トークン再重み付け手法であるActFocusを提案する。
論文 参考訳(メタデータ) (2026-05-14T08:33:02Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training [20.04756350098974]
ラベル付き検証可能なトレーニングデータがバインディング制約である場合、各チェックされた例は、最も情報のあるモデルと報酬密度に割り当てるべきである。
スパース・シークエンス・レベルの報酬は、より良い振る舞いを探索し発見できるモデルにおいて最も有用であるが、より密集したトークンレベルの教師監督は、その振る舞いをより小さなデプロイメントモデルに圧縮するのにより適している。
論文 参考訳(メタデータ) (2026-05-12T17:57:48Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文 参考訳(メタデータ) (2026-03-20T10:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。