論文の概要: RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation
- arxiv url: http://arxiv.org/abs/2606.11709v1
- Date: Wed, 10 Jun 2026 06:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.326348
- Title: RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation
- Title(参考訳): RLCSD: コントラストオンポリシィ自己蒸留による強化学習
- Authors: Leyi Pan, Shuchang Tao, Yunpeng Zhai, Lingzhe Zhang, Zhaoyang Liu, Bolin Ding, Aiwei Liu, Lijie Wen,
- Abstract要約: オンライン自己蒸留は、推論モデルに対する密集したトークンレベルの監督を提供する。
この分布ギャップから引き出された学習信号は、タスクを持つものよりもスタイルトークンに集中していることが示される。
我々は,このドリフトを緩和するためのtextbfRLCSD (Reinforcement Learning with Contrastive on-policy Self-Distillation) を提案する。
- 参考スコア(独自算出の注目度): 46.554172283247915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy self-distillation (OPSD) provides dense, token-level supervision for reasoning models by aligning a model's own distribution with the distribution it produces under privileged context, typically a verified solution. However, we show that the learning signal drawn from this distributional gap concentrates on style tokens rather than task-bearing ones, as the hinted model tends to produce more direct, shorter outputs. We term this pathology \emph{privilege-induced style drift}, which destabilizes training or causes response length to shrink. To address this, we propose \textbf{RLCSD} (Reinforcement Learning with Contrastive on-policy Self-Distillation), which mitigates this drift by contrasting the teacher-student gap under a correct hint against that under a wrong hint, suppressing the style shift that conditioning on a hint tends to induce regardless of correctness, and yielding a signal that is more concentrated on task-bearing tokens. Experiments on Qwen3 (1.7B/4B/8B) and Olmo-3-7B-Think across mathematical and logical reasoning show that RLCSD consistently outperforms GRPO and prior OPSD methods. We further show that the contrastive principle is general: it plugs into existing OPSD methods to improve them, and its underlying insight extends to the broader cross-model on-policy distillation setting.
- Abstract(参考訳): On-policy Self-distillation (OPSD) は、モデル自身の分布と特権的コンテキスト下で生成する分布(典型的には検証された解決策)を整合させることにより、推論モデルに対する密集したトークンレベルの監視を提供する。
しかし、この分布ギャップから引き出された学習信号は、ヒント付きモデルの方がより直接的で短い出力を生成する傾向があるため、タスクを持つものよりもスタイルトークンに集中していることが示される。
この病理学をemph{privilege-induced style drift}と呼び、トレーニングの不安定化や応答長の縮小を引き起こす。
そこで本稿では,教師と生徒のギャップを間違ったヒントで比較し,ヒントで条件を定めている場合のスタイルシフトを抑えることで,その流れを緩和する「textbf{RLCSD} (Reinforcement Learning with Contrastive on-policy Self-Distillation)」を提案する。
Qwen3 (1.7B/4B/8B) と Olmo-3-7B-Think の数学的および論理的推論による実験により、RCCSD はGRPO と以前のOPSD法より一貫して優れていることが示された。
さらに, 従来のOPSD法をプラグインして改良し, その根底にある知見は, より広いクロスモデル・オン・ポリケート蒸留条件にまで及んでいることを示す。
関連論文リスト
- Robust Reasoning via Dynamic Token Selection for Distribution-Aligned Self-Distillation [10.71966126081564]
自己蒸留は、モデル自身の分布によくマッチするトレーニングデータとして参照回答を書き換えることで、学習効率を向上させる。
しかし、参照された答えはまた、強いスタイル的バイアスをもたらし、生成モデルは有用な推論パターンを学ぶのではなく、表面の形状を模倣する。
本稿では,DASD(Distributed-Aligned Self-Distillation)を提案する。これは,応答認識参照モデルを用いて候補トークンを生成し,ベースモデルの信頼性に応じて動的にフィルタする。
論文 参考訳(メタデータ) (2026-05-30T09:03:03Z) - Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning [41.384652481442735]
我々は,一様教師模倣からエントロピー制御された指向性監視へと特権的な自己蒸留を再構成するtextbfDirection-Adaptive Self-Distillation (textbfDASD)を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
論文 参考訳(メタデータ) (2026-05-21T10:07:46Z) - DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [31.95045602299568]
オンライン蒸留(OPD)は,教師の学習履歴ではなく,学生が生み出すロールアウトに対するフィードバックを評価するため,大規模言語モデル(LLM)のポストトレーニングにアピールしている。
推定器と実装側からOPDを再検討する。
不均衡な1-token信号、学生が生成した接頭辞に対する教師の信頼できない指導、トークン化器や特殊-tokenミスマッチによる歪みの3つの失敗モードを同定する。
論文 参考訳(メタデータ) (2026-03-26T15:35:59Z) - Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings [7.554296968064274]
検証リワード(RLVR)を用いた強化学習のための階層型ポリシー最適化(HAPO)を提案する。
HAPOは、障害時に教師のデモンストレーションに最適化を選択的にアンカーする、後ろ向きのメカニズムを採用している。
HAPOは,政策改善に伴う教師の信号のアニールを自然に行うことで,非バイアスのオン・ポリティクス勾配を回復する。
論文 参考訳(メタデータ) (2026-03-11T21:33:41Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。