論文の概要: Beyond Absolute Imitation: Anchored Residual Guidance for Privileged On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.10385v1
- Date: Tue, 09 Jun 2026 03:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.307149
- Title: Beyond Absolute Imitation: Anchored Residual Guidance for Privileged On-Policy Distillation
- Title(参考訳): 絶対的イミテーションを超えて:プリビリーオン・ポリシィ蒸留の残留誘導
- Authors: Wenhao Zhang,
- Abstract要約: 我々は、特権的監督を阻害するデュアルビューフレームワークであるAnchored Residual On-Policy Distillation (AR-OPD)を紹介する。
AR-OPDはフル特権のPDを2.3ポイント、SFTを7.9ポイント上回る。
- 参考スコア(独自算出の注目度): 9.745547158215905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation (OPD) has demonstrated strong empirical gains in enhancing complex reasoning in LLMs by aligning a student model with a teacher's predictive distribution over the student's own trajectories. An emerging variant, Privileged OPD, further strengthens this paradigm by employing a self-teacher model augmented with privileged information, such as oracle traces, to mitigate teacher-student capacity gaps while providing dense, answer-directed supervision. However, current methods treat privileged information as a monolithic imitation target, failing to disentangle locally reachable reasoning steps from future-conditioned oracle signals. Consequently, the student is encouraged to match a hindsight-biased distribution that often falls outside its local predictive support. This reachability mismatch incentivizes the student model to skip valid intermediate reasoning in favor of locally unsupported shortcuts. To resolve this, we introduce Anchored Residual On-Policy Distillation (AR-OPD), a dual-view framework that disentangles privileged supervision. Rather than enforcing strict full-view imitation, AR-OPD establishes a locally compatible anchor using a partially privileged teacher, isolating and injecting oracle foresight as a controlled residual to provide destination-directed guidance. Across diverse reasoning tasks, AR-OPD outperforms full privileged OPD by 2.3 points and SFT by 7.9 points. Crucially, this anchored residual mechanism reduces hindsight leakage by 21.7% and mitigates late-stage drift, yielding up to a 7.2-point advantage on challenging long-horizon trajectories exceeding 768 tokens.
- Abstract(参考訳): オンライン蒸留(OPD)は, 学生モデルと教師自身の軌道上の予測分布を整合させることにより, LLMの複雑な推論を強化する上で, 強い実証的な効果を示した。
新たな変種であるPrivleged OPDは、より密集した回答指向の監督を提供しながら、教師と学生の容量ギャップを軽減するために、オラクルトレースなどの特権情報を付加した自己学習モデルを採用することで、このパラダイムをさらに強化する。
しかし、現在の方法では、特権情報をモノリシックな模倣対象として扱い、将来条件付きオラクル信号から局所的に到達可能な推論ステップを外すことができない。
その結果、学生は、しばしばその局所的な予測支援から外れる後視バイアスの分布に適合することが奨励される。
この到達可能性のミスマッチは、学生モデルに対して、ローカルでサポートされていないショートカットを支持する有効な中間的推論を省略する動機付けを与える。
これを解決するために、特権的監督を阻害するデュアルビューフレームワークであるAnchored Residual On-Policy Distillation (AR-OPD)を導入する。
厳密なフルビューの模倣を強制するのではなく、AR-OPDは部分的に特権を持つ教師を使って局所的に互換性のあるアンカーを確立する。
様々な推論タスクにおいて、AR-OPDはフル特権のPDを2.3ポイント、SFTを7.9ポイント上回っている。
重要なことに、この固定された残留機構は後光の漏れを21.7%減らし、後期の漂流を緩和し、768個のトークンを超える長方形軌道の挑戦に対して7.2ポイントの優位性をもたらす。
関連論文リスト
- Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization [22.479229036646156]
検証リワードを用いた強化学習のためのPrivileged Tutoring Distillation Policy Optimizationフレームワークを提案する。
PTD-POは、生徒の方針に答えることなく、密集したガイダンスを提供する。
2Bから8BまでのLVLM実験では、PTD-POはRLVRや蒸留ベースラインより一貫して優れていた。
論文 参考訳(メタデータ) (2026-06-05T07:43:22Z) - When In-Distribution Gains Fail: Evaluating Weak-to-Strong Reward Models under Preference Shift [72.0686608132772]
ゼロショット分布シフト下でのW2S選好学習について検討した。
弱い選好ラベルで訓練された強い学生は、選好データセットを移動できなくとも、流通に成功していることがわかった。
本稿では、事前訓練された強モデルの表現空間からの過剰なドリフトを制約する単純で効果的な正規化器であるRepresentation Anchoring(Anchor)を提案する。
論文 参考訳(メタデータ) (2026-05-25T09:30:49Z) - Tailoring Teaching to Aptitude: Direction-Adaptive Self-Distillation for LLM Reasoning [41.384652481442735]
我々は,一様教師模倣からエントロピー制御された指向性監視へと特権的な自己蒸留を再構成するtextbfDirection-Adaptive Self-Distillation (textbfDASD)を提案する。
6つの数学的推論ベンチマークで、DASDは強力なRLVRと自己蒸留ベースラインよりも優れたマクロAvg@16を達成する。
論文 参考訳(メタデータ) (2026-05-21T10:07:46Z) - Backtracking When It Strays: Mitigating Dual Exposure Biases in LLM Reasoning Distillation [43.020181623750865]
本稿では,MOTABにおけるモニタリングトラジェクトリとバックトラッキングを提案する。
MOTABは、適応的な安全境界に対して学生の政治世代を監視する。
LIMO-v2とAceReasonデータセットの実験により、MOTABは二重露光バイアスを効果的に緩和することが示された。
論文 参考訳(メタデータ) (2026-05-19T06:42:52Z) - Self-Distilled Agentic Reinforcement Learning [65.24201057390938]
自己蒸留型エージェント強化学習は、トークンレベルの信号をシグモノイドゲートにマップする。
SDARはモデルスケール全体のハイブリッドRL--OPSDベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-14T17:51:26Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe [53.40076304466524]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)をまたいで一般化する統一OPDフレームワークであるUni-OPDを提案する。
具体的には、学生の立場から、学習中の情報発信状態の探索を促進するために、2つのデータバランス戦略を採用する。
我々は,正しい軌道と間違った軌道の順序の整合性を取り戻すために,結果誘導マージンキャリブレーション機構を開発した。
論文 参考訳(メタデータ) (2026-05-05T12:15:21Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting [17.504616835765617]
両経路適応型学習フレームワークを提案する。
SCOPEは、Avg@32で11.42%、Pass@32で7.30%の平均相対的な改善を実現している。
論文 参考訳(メタデータ) (2026-04-12T15:26:14Z) - Stable On-Policy Distillation through Adaptive Target Reformulation [7.361248172930405]
ベト (Veto) は、ロジット空間に幾何学的ブリッジを構築する客観的なレベルの再構成である。
ベトは監督された微調整と既存の政治のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-12T02:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。