論文の概要: Blockwise Policy-Drift Gating for On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.24084v1
- Date: Tue, 23 Jun 2026 02:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.750528
- Title: Blockwise Policy-Drift Gating for On-Policy Distillation
- Title(参考訳): オンデマンド蒸留におけるブロックワイド・ポリシー・ドリフト・ゲーティング
- Authors: Liwen Zheng, Haiyun Jiang,
- Abstract要約: オンライン蒸留(OPD)は、学生自身によってサンプリングされた軌跡に基づいて計算された教師信号を用いて生徒の政策を訓練する。
本稿では,OPDをロールアウト再利用するための軽量な学生専用ドリフトコントローラであるブロックワイド・ポリシー・ドリフト・ゲーティングを紹介する。
- 参考スコア(独自算出の注目度): 14.61751557296924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (OPD) trains a student policy using teacher signals computed on trajectories sampled by the student itself. Recent work shows that sampled-token OPD can be fragile on long-horizon reasoning tasks and that local teacher-support matching is a simple and effective repair. This paper introduces blockwise policy-drift gating, a lightweight student-only old-current drift controller for OPD under rollout reuse. The method computes log-probability shifts between the behavior student and the current student on the sampled token path, aggregates these shifts over fixed blocks or spans, and uses the resulting detached, mean-normalized gates to reweight OPD position losses. It does not change teacher targets, teacher top-K supports, or the rollout policy. In a six-variant Qwen3 math reasoning benchmark with a uniform 200-step training budget for all trained variants, we use pass@8 as the primary problem-level solve-rate metric. Fixed 64-token block gating improves sampled-token OPD mean pass@8 from 0.4978 to 0.5160 across AIME24, AIME25, MATH500, and AMC23. On Teacher-TopK/LSM, Block64 gives the best four-benchmark mean pass@8 among trained students. The results identify local old-current policy drift as a practical control signal for reused OPD rollouts and motivate block-level gating as a simple default for improving solve-rate robustness.
- Abstract(参考訳): オンライン蒸留(OPD)は、学生自身によってサンプリングされた軌跡に基づいて計算された教師信号を用いて生徒の政策を訓練する。
近年の研究では, ロングホライゾン推論タスクにおいて, サンプルトケンOPDは脆弱であり, 局所教師支援マッチングは簡単かつ効果的に修復できることが示されている。
本稿では,OPDをロールアウト再利用するための軽量な学生専用ドリフトコントローラであるブロックワイド・ポリシー・ドリフト・ゲーティングを紹介する。
この方法は、サンプルトークンパス上での行動学生と現在の学生の対数確率シフトを計算し、これらのシフトを固定ブロックやスパンに集約し、結果として得られる平均正規化ゲートを使用してOPD位置損失を軽減させる。
教師の目標、教師のトップKサポート、ロールアウトポリシーを変更しない。
6変量Qwen3算術推論ベンチマークでは、トレーニングされたすべての変量に対して、均一な200ステップのトレーニング予算が設定されている。
固定64-tokenブロックゲーティングはサンプル値OPD平均パス@8をAIME24、AIME25、MATH500、AMC23で0.4978から0.5160に改善する。
Teacher-TopK/LSMでは、Block64は訓練を受けた学生の中で最高の4つのベンチマーク平均パス@8を提供する。
その結果, OPDロールアウトを再利用するための実用的な制御信号として, 局所的旧来のポリシードリフトを同定し, ブロックレベルのゲーティングを簡単なデフォルトとして, 解解速度の堅牢性を改善するためのモチベーションとした。
関連論文リスト
- A Formula-Driven Survey and Research Agenda for On-Policy Distillation [4.397842507533513]
本調査では,OPDを単一損失ファミリーではなく,フィードバックから更新までの問題として検討した。
我々は, 直接分布損失と政策段階の対数比更新という2つの経路から公式駆動型分類法を開発した。
論文 参考訳(メタデータ) (2026-06-22T03:09:21Z) - Prefix-Guided On-Policy Distillation: Mining Golden Trajectories from Rollouts [48.550535291129584]
Prefix-Guided On-Policy Distillation (PG-OPD) は、固定長プレフィックスを用いて、高価な長距離発生前に軌跡値を推定する単純なロールアウト・アロケーションフレームワークである。
AMC、AIME、HMMTベンチマークの様々な教師/学生の組み合わせで、PG-OPDはトレーニング時間を最大2.46倍にし、平均精度を4.80ポイントまで改善している。
論文 参考訳(メタデータ) (2026-06-20T11:18:34Z) - OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification [21.095025092772257]
On-Policy Distillation (OPD)は、強力な教師からの密集したトークンレベルフィードバックの下で、生徒モデルを自身の生成軌道上で訓練する。
OmniOPDはロジットフリーでチャンクレベルの監視信号を通じて両方の制限に対処する新しいフレームワークである。
論文 参考訳(メタデータ) (2026-05-31T22:31:15Z) - Your Teacher Can't Help You Here: Combating Supervision Fidelity Decay in On-Policy Distillation [81.10000755917712]
オンライン蒸留は,教師からのトークンレベルのフィードバックを用いて,学生モデルを自作の軌道上で訓練することにより,推論能力を伝達する。
生徒が生成した接頭辞が長くなるにつれて、教師の次点の分布は自信を減らし、差別性が低下する。
SFDを緩和するため, textbfLookahead Group Reward (ours) を導入する。
論文 参考訳(メタデータ) (2026-05-29T04:39:20Z) - Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training [20.04756350098974]
ラベル付き検証可能なトレーニングデータがバインディング制約である場合、各チェックされた例は、最も情報のあるモデルと報酬密度に割り当てるべきである。
スパース・シークエンス・レベルの報酬は、より良い振る舞いを探索し発見できるモデルにおいて最も有用であるが、より密集したトークンレベルの教師監督は、その振る舞いをより小さなデプロイメントモデルに圧縮するのにより適している。
論文 参考訳(メタデータ) (2026-05-12T17:57:48Z) - On-Policy Distillation with Best-of-N Teacher Rollout Selection [54.91780727674628]
本報告では, オンライン蒸留のためのベスト・オブ・Nロールアウト教員選抜フレームワークBRTSを提案する。
BRTSは、教師軌道から構築された教師コンテキスト管理ブランチで、標準の学生コンテキストOPDを強化する。
BRTSは、挑戦的な推論ベンチマークにおいて、標準的なPDよりも改善されており、より難しいデータセットに対して最大の利益がある。
論文 参考訳(メタデータ) (2026-05-10T19:49:00Z) - Prune-OPD: Efficient and Reliable On-Policy Distillation for Long-Horizon Reasoning [66.52232008796294]
Prune-OPDはトレーニング予算と監督品質を動的に調整する。
トレーニング時間を37.6%減らし-68.0%削減すると同時に、しばしば改善され、挑戦的なベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2026-05-08T14:38:53Z) - Rubric-based On-policy Distillation [62.11106822527392]
オンライン蒸留(OPD)はモデルアライメントの強力なパラダイムであるが、教師のロジットに依存しているため、ホワイトボックスのシナリオへの適用が制限される。
構造化された意味ルーブリックは教師のロジットに代わるスケーラブルな代替品として機能し,教師が生成した応答のみを用いてOPDを可能にする。
具体的には、ROPDは教師と学生のコントラストからプロンプト固有のルーリックを誘導し、これらのルーリックを使用して学生のロールアウトをオンライン最適化に活用する。
論文 参考訳(メタデータ) (2026-05-08T07:52:15Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。