論文の概要: On the Geometry of On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.07082v2
- Date: Wed, 10 Jun 2026 09:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.339242
- Title: On the Geometry of On-Policy Distillation
- Title(参考訳): オンライン蒸留の幾何学について
- Authors: Zhennan Shen, Yanshu Li, Qingyu Yin, Chak Tou Leong, Zhilin Wang, Yanxu Chen, Rongduo Han, Sunbowen Lee, Yi R. Fung,
- Abstract要約: 我々は,大規模言語モデル推論を改善するために,政治蒸留(OPD)について検討する。
教師付き微調整(SFT)と強化学習(RLVR)を比較した。
我々は、PDが単にSFTとRLVRの中間点であるだけでなく、パラメータ空間における独自の更新幾何を誘導することを発見した。
- 参考スコア(独自算出の注目度): 22.873898953554605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) is increasingly used to improve large language model reasoning, but its training dynamics remain poorly understood. We characterize the trajectory of OPD updates in parameter space and compare it with supervised fine-tuning (SFT) and reinforcement learning with verifiable rewards (RLVR). A suite of parameter-space diagnostics consistently places OPD in a relaxed off-principal regime: compared with SFT, its updates affect fewer weights and avoid principal directions more strongly, while compared with RLVR, they remain less tightly constrained. Beyond this static localization, OPD exhibits subspace locking: its cumulative updates rapidly enter a narrow low-dimensional channel. Constraining training to the update subspace formed early in training preserves OPD performance but substantially degrades SFT, indicating that the locked subspace is functionally sufficient for OPD. Control experiments further show that sparsifying the update tokens and shifting rollout generation off-policy preserve the rank dynamics, whereas mixing the OPD objective with RLVR changes them. Overall, these results suggest that OPD is not merely an intermediate point between SFT and RLVR, but induces its own update geometry in parameter space.
- Abstract(参考訳): オンライン蒸留(OPD)は、大規模言語モデルの推論を改善するためにますます使われているが、その訓練力学はいまだに理解されていない。
我々はパラメータ空間におけるOPD更新の軌跡を特徴付け、それを教師付き微調整(SFT)と強化学習(RLVR)と比較した。
パラメータ空間診断のスイートは、PDを緩和されたオフプリンシパル状態に一貫して配置する: SFTと比較すると、その更新は重みを減らし、主方向を強く避けるが、RLVRと比較すると、厳密な制約は少ない。
この静的なローカライゼーションの他に、OPDはサブスペースロックを示しており、累積更新は急速に狭い低次元チャネルに入る。
トレーニングの初期に形成された更新部分空間への制約は、PD性能を保ちながら、SFTを大幅に低下させ、ロックされた部分空間がOPDに十分であることを示す。
さらにコントロール実験では、更新トークンのスペーシングと、ロールアウト生成を政治から切り離すことによって、ランクのダイナミクスを保ちながら、OPDの目的とRLVRを混在させることが示される。
これらの結果は、PDが単にSFTとRLVRの中間点であるだけでなく、パラメータ空間における独自の更新幾何学を誘導していることを示唆している。
関連論文リスト
- Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation [51.210887267509854]
OPDの効率は、トレーニングの初期段階において最終モデルに向けた安定的な更新軌道を確立する、フォレスト・オブ・ザ・イヤーズ(foresight')の形式に起因している、と我々は主張する。
我々は、外挿ステップのサイズを適応的に選択し、現在の更新方向に沿って移動することにより、OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション手法である textbfEffOPD を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:19:15Z) - Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration [88.7332439088792]
大規模言語モデル(LLM)に対する検証可能な報酬(RLVR)による強化学習のスケーリングが,効果的なトレーニングパラダイムとして登場した。
我々は低ランク軌跡のtextbfNonlinear textbfExtrapolation(textbfNExt)を提案する。
計算オーバーヘッドを約37.5%削減し,RLVRアルゴリズムやタスクとの互換性を維持した。
論文 参考訳(メタデータ) (2026-04-13T13:28:12Z) - On Catastrophic Forgetting in Low-Rank Decomposition-Based Parameter-Efficient Fine-Tuning [14.815508281465272]
本研究では,更新部分空間の幾何やパラメータ化の影響を強く受けていることを示す。
本研究は,更新部分空間設計を連続学習の重要な要素として取り上げ,逐次的設定における効率的な適応戦略を選択するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2026-03-10T13:53:25Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。