論文の概要: Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.07000v1
- Date: Fri, 05 Jun 2026 07:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.619689
- Title: Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization
- Title(参考訳): 答えではなく道を教える:マルチモーダル政策最適化のためのプリビレグ・チュータリング蒸留
- Authors: Shizhe Xiang, Ke An, Wenlong Yu, Yue Liu, Jian Luan, Pei Fu, Qilong Wang,
- Abstract要約: 検証リワードを用いた強化学習のためのPrivileged Tutoring Distillation Policy Optimizationフレームワークを提案する。
PTD-POは、生徒の方針に答えることなく、密集したガイダンスを提供する。
2Bから8BまでのLVLM実験では、PTD-POはRLVRや蒸留ベースラインより一貫して優れていた。
- 参考スコア(独自算出の注目度): 22.479229036646156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent post-training methods, particularly Reinforcement Learning with Verifiable Rewards (RLVR), have significantly enhanced the reasoning ability of Large Vision-Language Models (LVLMs). However, the sparse nature of verifiable rewards provides little token-level supervision for failed rollouts, often leading to inefficient exploration in complex multimodal reasoning tasks. Although policy distillation can offer dense guidance, external teacher based methods introduce substantial computational overhead, while answer conditioned tuning methods may expose answer-level information and induce shortcut-like generation behavior. To address these limitations, we propose PTD-PO, a Privileged Tutoring Distillation Policy Optimization framework for RLVR that provides dense guidance without exposing the answer to the student policy. Specifically, PTD-PO constructs structured privileged hints from spatial attention guidance and intermediate textual reasoning steps, and uses them through in-context learning to produce step-wise token-distribution supervision. The student is still optimized under the original answer-free context, and its failed rollouts are aligned with the hint-augmented reference model at the token-distribution level. To further stabilize distillation under the distribution shift between guided and unguided contexts, we introduce a Top-K Jensen-Shannon divergence objective that focuses alignment on informative token probabilities while reducing memory overhead. Experiments on LVLMs ranging from 2B to 8B parameters show that PTD-PO consistently outperforms RLVR and distillation baselines, mitigates entropy collapse, and improves complex multimodal reasoning performance.
- Abstract(参考訳): 近年のポストトレーニング手法、特にRLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
しかし、検証可能な報酬のまばらな性質は、失敗するロールアウトに対するトークンレベルの監督をほとんど提供しておらず、しばしば複雑なマルチモーダル推論タスクにおける非効率な探索につながる。
政策蒸留は高密度なガイダンスを提供するが、外部教師ベースの手法はかなりの計算オーバーヘッドを伴い、回答条件付きチューニング手法は回答レベル情報を公開し、ショートカットのような生成行動を誘発する。
これらの制約に対処するため,RLVRのためのPrivileged Tutoring Distillation Policy OptimizationフレームワークPTD-POを提案する。
具体的には、PTD-POは、空間的注意誘導と中間的テキスト推論ステップから構造化された特権ヒントを構築し、それをテキスト内学習を通じて利用し、ステップワイドなトークン分配監視を生成する。
学生は依然として元の応答自由コンテキストの下で最適化されており、そのロールアウト失敗はトークン配信レベルでのヒント強化参照モデルと一致している。
誘導された状況と誘導されていない状況の間の分配シフト下での蒸留をさらに安定化するため,メモリオーバーヘッドを低減しつつ,情報的トークン確率のアライメントに着目したTop-K Jensen-Shannon分散目標を提案する。
2B から 8B までの LVLM 実験により,PTD-PO はRLVR と蒸留ベースラインを一貫して上回り,エントロピー崩壊を緩和し,複雑なマルチモーダル推論性能を向上させることが示された。
関連論文リスト
- Reasoning Portability: Guiding Continual Learning for MLLMs in the RLVR Era [44.08086834976093]
VLM-CL(Vision-Language Models in Continual Learning)は,従来の知識を維持しつつ,新たなマルチモーダルタスクに継続的に適応することを目的としている。
Reasoning Portability(RP)に基づき,RLVRにおけるサンプルごとのKullback-Leibler正規化を形式化するReasoning-based Dynamic Balance Continual Learning(RDB-CL)を提案する。
実験の結果、RDB-CLはベースラインを一貫して上回り、ラスト精度はバニラRLVRベースラインよりも+12.0%向上した。
論文 参考訳(メタデータ) (2026-05-17T13:26:09Z) - DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Teacher-Guided Policy Optimization for LLM Distillation [90.49982387646861]
Teacher-Guided Policy Optimization (TGPO) は、生徒のロールアウトに条件付き教師予測を活用することで、高密度な方向性誘導を取り入れたオンラインアルゴリズムである。
複雑な推論ベンチマークの実験では、TGPOは標準ベースラインを著しく上回り、異なる教師にとって堅牢であることが示されている。
論文 参考訳(メタデータ) (2026-05-13T09:20:03Z) - AIPO: Learning to Reason from Active Interaction [54.10819421625103]
AIPOは、ポリシーモデルが、推論ボトルネックに遭遇するときに、3つの機能的協調エージェントを積極的に相談することを可能にする。
AIPOは推論性能を継続的に改善し、異なるポリシーモデルとRLVRアルゴリズムをまたいで堅牢に一般化し、ポリシーモデルの推論能力境界を効果的に拡張する。
論文 参考訳(メタデータ) (2026-05-08T19:06:55Z) - Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - Native Reasoning Models: Training Language Models to Reason on Unverifiable Data [16.065264121785294]
NRT(Native Reasoning Training)は、複雑な推論を育む新しいフレームワークである。
NRTは、推論プロセスを潜在変数として扱うことで、トレーニング問題を再構築する。
NRTは検証不要な手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-12T04:15:46Z) - KEPO: Knowledge-Enhanced Preference Optimization for Reinforcement Learning with Reasoning [24.072603982041798]
強化学習は、大規模言語や視覚言語モデルにおいて、明示的な推論行動を引き起こすための有望なパラダイムとして登場した。
しかしながら、推論指向のRLポストトレーニングは、低軌道レベルの報酬のため、基本的には困難である。
近年のオンライン蒸留法では,教師の集中管理によって最適化の安定化が図られている。
論文 参考訳(メタデータ) (2026-01-30T23:28:37Z) - Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models [44.041109669153506]
On-Policy Self-Distillation (OPSD) は、教師と学生の両方がひとつのモデルで、異なるコンテキストを条件付けして機能するフレームワークである。
複数の数学的推論ベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2026-01-26T17:56:50Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。