論文の概要: Beyond Trajectory Imitation: Strategy-Guided Policy Optimization for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.24064v1
- Date: Tue, 23 Jun 2026 02:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.732529
- Title: Beyond Trajectory Imitation: Strategy-Guided Policy Optimization for LLM Reasoning
- Title(参考訳): 軌道模倣を超えて: LLM推論のための戦略誘導型ポリシー最適化
- Authors: Tianyuan Shi, Canbin Huang, Bei Li, Xin Chen, Xiaojun Quan, Jingang Wang, Qifan Wang,
- Abstract要約: 強い言語モデルから弱い言語モデルへの推論能力の蒸留は、典型的には特定の解軌跡を模倣する。
この軌道レベルの模倣は、伝達可能な問題解決スキルの獲得よりも、インスタンス固有のステップの記憶を促進する。
再利用可能な戦略蒸留にインスタンスレベルの軌道模倣を置き換えた戦略誘導型政策最適化を提案する。
- 参考スコア(独自算出の注目度): 76.93011742289768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling reasoning capabilities from strong to weak language models typically involves imitating specific solution trajectories, effectively transferring what to answer rather than how to reason. This trajectory-level imitation encourages memorization of instance-specific steps rather than acquisition of transferable problem-solving skills, limiting generalization to novel problems. We propose Strategy-Guided Policy Optimization (SGPO), which replaces instance-level trajectory imitation with reusable strategy distillation. SGPO extracts structured strategy descriptions from strong-model responses and, for each problem, constructs both autonomous and strategy-guided trajectories to enable direct comparison of the model's behavior with and without strategic guidance. The framework then addresses two key questions. For how to distill, a token-level forward-KL objective selectively transfers the distributional shift induced by strategy conditioning into the unguided policy, with proximal constraints ensuring stability. For when to distill, adaptive instance-level weighting strengthens guidance when autonomous exploration falls short and reduces it as the model's own competence grows. Experiments on four mathematical benchmarks across two model families show that SGPO consistently outperforms SFT, on-policy RL, and hybrid-policy baselines, improving the average score by 2.2 points over the strongest baseline on Qwen2.5-7B-Instruct. Analysis reveals that the forward-KL objective provides an inherently selective distillation signal that outperforms direct trajectory imitation, and that strategy distillation exhibits complementary scaling with base model capability.
- Abstract(参考訳): 強い言語モデルから弱い言語モデルへの推論能力の蒸留は、典型的には特定の解の軌跡を模倣し、推論するよりも答えを効果的に伝達する。
この軌道レベルの模倣は、転送可能な問題解決スキルの獲得よりも、インスタンス固有のステップの記憶を促進し、新しい問題への一般化を制限する。
再利用可能な戦略蒸留にインスタンスレベルの軌道模倣を置き換えた戦略誘導型政策最適化(SGPO)を提案する。
SGPOは、強いモデル応答から構造化された戦略記述を抽出し、各問題に対して、自律軌道と戦略誘導軌道の両方を構築して、戦略的なガイダンスなしでモデルの振舞いを直接比較できるようにする。
フレームワークは2つの重要な疑問に対処する。
蒸留方法として、トークンレベルのフォワードKLは、戦略条件によって誘導される分散シフトを、安定性を確保するための近位制約とともに、無誘導のポリシーに選択的に転送する。
蒸留に際し、適応的なインスタンスレベルの重み付けは、自律的な探索が不足するとガイダンスを強化し、モデル自身の能力が増大するにつれてそれを減らす。
2つのモデルファミリーにわたる4つの数学ベンチマークの実験により、SGPOは、Qwen2.5-7B-インストラクト上で最強のベースラインに対して平均スコアを2.2ポイント改善し、SFT、オン・ポリティカ・RL、ハイブリッド・ポリティカ・ベースラインを一貫して上回っていることが示されている。
分析の結果, フォワードKLの目的は, 直接的軌道模倣よりも優れた本質的に選択的蒸留信号を提供し, 基本モデル能力と相補的なスケーリングを示すことがわかった。
関連論文リスト
- S-GRPO: Unified Post-Training for Large Vision-Language Models [11.901218794806796]
我々はLVLM(Large Vision-Language Models)適応のためのS-GRPO(Supervised Group Relative Policy Optimization)を提案する。
S-GRPOは、模擬学習の指導を選好最適化の多軌道探索に統合する。
監督ファインチューニング(SFT)と強化学習(RL)のギャップを優雅に埋める
論文 参考訳(メタデータ) (2026-04-17T08:39:07Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-02-26T03:34:23Z) - Continuous-Utility Direct Preference Optimization [14.867957084669497]
私たちは、モデルと迅速な認知戦略のポートフォリオを整合させるフレームワークである、継続的ユーティリティ直接選択最適化(CU-DPO)を紹介します。
K 戦略による学習は、二進選好よりもサンプルの複雑さが Theta(K log K) の改善をもたらすことを証明している。
CU-DPOは7つのベースモデルに対して,戦略選択の精度を35-46パーセントから68-78パーセントに向上することを示す。
論文 参考訳(メタデータ) (2026-01-31T23:15:32Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。