論文の概要: RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning
- arxiv url: http://arxiv.org/abs/2606.07006v1
- Date: Fri, 05 Jun 2026 07:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.623034
- Title: RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning
- Title(参考訳): RASFT:ロールアウト適応型ファインチューニング
- Authors: Yongliang Miao, Fengyuan Liu, Wei Shi, Yanguang Liu, Fei Sun, Na Zou, Mengnan Du,
- Abstract要約: Supervised Fine-tuning (SFT) は、大規模言語モデルを推論タスクに適用するための一般的な手法である。
問題レベルの解決可能性に応じて専門家の監督を校正する政策対応型SFTフレームワークであるRASFTを提案する。
- 参考スコア(独自算出の注目度): 32.00854012855933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is a prevailing method for adapting large language models to reasoning tasks by imitating offline expert demonstrations, often treating a single expert trajectory as the target behavior. However, reasoning is not simple path imitation: rigidly following one demonstrated solution may overfit to surface forms and suppress the model's own reasoning distribution. We propose Rollout-Adaptive Supervised Fine-Tuning (RASFT), a policy-aware SFT framework that calibrates expert supervision according to problem-level solvability estimated from verified on-policy rollouts. For each problem, RASFT strengthens expert guidance when the current policy struggles, while relaxing rigid imitation and incorporating correct self-generated trajectories when the model already exhibits reliable reasoning behavior. To preserve useful reasoning priors, RASFT further introduces a clipped inverse ratio between the frozen reference model and the current policy to constrain excessive policy drift. Experiments across multiple models on six mathematical reasoning benchmarks and two code reasoning benchmarks show that RASFT achieves better overall performance than SFT, SFT variants, and representative RL methods. The code is available at https://github.com/zjd1sq/RASFT.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、大規模な言語モデルをオフラインの専門家によるデモンストレーションを模倣してタスクの推論に適応するための一般的な手法である。
しかし、推論は単純な経路模倣ではない: 厳密に証明された解に従うと、曲面形式に過度に適合し、モデル自身の推論分布を抑制することができる。
政策対応型SFTフレームワークであるRASFT(Rollout-Adaptive Supervised Fine-Tuning)を提案する。
それぞれの問題に対して、RASFTは、現在の方針が苦しむときに専門家の指導を強化する一方で、厳密な模倣を緩和し、モデルが既に信頼できる推論行動を示すときに、正しい自己生成軌道を取り入れている。
有用な推論の先行性を維持するために、RSSFTはさらに、凍結参照モデルと現在のポリシーの間のクリップされた逆比を導入し、過剰なポリシーのドリフトを抑える。
6つの数学的推論ベンチマークと2つのコード推論ベンチマークで、複数のモデルにまたがる実験により、RASFTはSFT、SFTの変種、代表的RL法よりも性能が良いことが示された。
コードはhttps://github.com/zjd1sq/RASFTで公開されている。
関連論文リスト
- AnE: Pushing the Reasoning Frontier of Multimodal LLMs via Anchor Evolution [61.593935260052795]
Supervised Fine-Tuning (SFT) とReinforcement Learning (RL) による後学習は多モーダル大規模言語モデル(MLLM)における推論の強化に不可欠である
既存のパラダイムは、静的データの制限により、しばしばパフォーマンスのボトルネックに達する。
我々は,真理に順応したデータキュレーションとモデル進化を統合する新しいパラダイムであるアンカー進化(AnE)を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:26:34Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [43.835234728790795]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [27.786964046329455]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。