論文の概要: PriFT: Prior-Support Guided Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.09396v1
- Date: Mon, 08 Jun 2026 12:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.970937
- Title: PriFT: Prior-Support Guided Supervised Fine-Tuning
- Title(参考訳): PriFT:プレスポーツガイド付きファインチューニング
- Authors: Ke Wang, Shuangqi Li, Mathieu Salzmann, Pascal Frossard,
- Abstract要約: Supervised Fine-tuning (SFT) は、下流タスク適応のための効率的なアプローチである。
SFTはトークン単位で固定されたデモトークンに適合する。
凍結した事前訓練参照からトークン重みを導出し、微調整の影響を受けない安定した再重み付け信号を得るPriFTを提案する。
- 参考スコア(独自算出の注目度): 74.65198014829393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is an efficient approach for downstream task adaptation and often serves as the initialization stage for reinforcement learning (RL), but it can show weaker generalization than RL. A key limitation is its off-policy objective: SFT fits fixed demonstrations token by token, including targets poorly aligned with the model's pretrained distribution, which can lead to overfitting. A recent line of work addresses this issue by assigning larger training weights to tokens better aligned with the current model's predictive distribution, with the intuition that fitting these tokens are less distortive to the model's pretrained knowledge and representations. However, computing the token weights from the model that is currently fine-tuned entangles token weights with the optimization trajectory, inducing a self-reinforcing dynamics as the distribution rapidly departs from the pretrained model. To address this, we propose PriFT (Prior-support guided Fine-Tuning), which derives token weights from a frozen pretrained reference to obtain a stable reweighting signal unaffected by fine-tuning. This signal estimates prior support: the extent to which each target token is supported by the pretrained distribution. Across multiple existing token-reweighting rules, replacing the reweighting signal from the online model to pretrained model consistently improves performance. We introduce two instantiations: PriFT-prob uses pretrained token probability, while PriFT-mass selects tokens by cumulative probability mass under the pretrained distribution. Extensive experiments on mathematical reasoning, code generation, and medical question answering show that PriFT achieves state-of-the-art results among SFT baselines and provides a better initialization for subsequent RL training.
- Abstract(参考訳): Supervised Fine-tuning (SFT) は、下流タスク適応のための効率的なアプローチであり、強化学習(RL)の初期化段階として機能することが多いが、RLよりも弱い一般化を示すことができる。
SFTは固定されたデモトークンをトークン単位で適合させ、モデルの事前訓練された分布に不十分なターゲットを含む、過度な適合につながる可能性がある。
最近の一連の作業は、現在のモデルの予測分布に適合したトークンにより大きなトレーニング重みを割り当てることでこの問題に対処している。
しかし、現在微調整されているモデルからのトークン重みの計算は、最適化軌道でトークン重みを絡ませ、予め訓練されたモデルから急速に逸脱する自己強化力学を誘導する。
そこで本研究では,プリFT(Prior- supported guided Fine-Tuning)を提案する。
この信号は、事前の支持を推定する: 予め訓練された分布によって、各ターゲットトークンがサポートされる範囲。
複数の既存のトークン再重み付けルールをまたいで、オンラインモデルから事前訓練されたモデルへのリ重み付け信号を置き換えることで、パフォーマンスが一貫して向上する。
PriFT-probは事前訓練されたトークン確率を使い、PriFT-massは事前訓練された分布の下で累積的な確率質量でトークンを選択する。
数学的推論、コード生成、医療質問応答に関する広範な実験により、PriFTはSFTベースライン間の最先端の結果を達成し、その後のRLトレーニングにおいてより良い初期化を提供することが示された。
関連論文リスト
- Entropy-KL Divergence-based Token Masking: A Novel Approach for Selective Fine-tuning of Large Language Models [52.11240605311707]
改良された微調整と強化学習は、大規模言語モデルの訓練後の標準パラダイムとなっている。
EKSFT(Entropy-KL Selective Fine-Tuning)は,参照モデルから高いエントロピーまたは高いKLの発散を示すトークンを選択的にマスクする。
数学的推論ベンチマークに関する実証的な評価は、EKSFTが標準SFTを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-05-28T03:36:05Z) - Evidential Transformation Network: Turning Pretrained Models into Evidential Models for Post-hoc Uncertainty Estimation [21.687249397347017]
本研究では,事前学習した予測器を明らかなモデルに変換する軽量なポストホックモジュールであるエビデンシャルトランスフォーメーションネットワーク(ETN)を提案する。
ETNは、精度を保ち、計算オーバーヘッドを最小限に抑えながら、ポストホックベースラインに対する不確実性評価を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-09T16:09:47Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。