論文の概要: Compatibility-Aware Dynamic Fine-Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.11206v1
- Date: Wed, 22 Apr 2026 14:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.833421
- Title: Compatibility-Aware Dynamic Fine-Tuning for Large Language Models
- Title(参考訳): 互換性を考慮した大規模言語モデルの動的微調整
- Authors: Yucheng Zhou, Junwei Sheng, Qianning Wang, Jianbing Shen,
- Abstract要約: Supervised Fine-Tuning (SFT) は、大規模言語モデル (LLM) の調整における主要なパラダイムである。
最近の研究は、この問題を病理学的勾配のスケーリングに起因し、トークンレベルでの修正のために動的微調整(DFT)を提案する。
本稿では、サンプルレベルの最適化分散を制御するDFTの原理的拡張であるCompatibility-Aware Dynamic Fine-Tuning(CADFT)を紹介する。
- 参考スコア(独自算出の注目度): 48.855385240803436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) is the predominant paradigm for aligning large language models (LLMs), yet it suffers from optimization instability and limited generalization. Recent work attributes this issue to pathological gradient scaling and proposes Dynamic Fine-Tuning (DFT) to correct it at the token level. However, DFT assumes all demonstrations are equally suitable learning targets, an assumption violated by the strong heterogeneity of large-scale instruction data, where demonstration-policy mismatch induces high-variance updates at the sample level. We introduce Compatibility-Aware Dynamic Fine-Tuning (CADFT), a principled extension of DFT that controls sample-level optimization variance. CADFT derives a dynamic, policy-dependent compatibility signal from model likelihoods to modulate supervised updates, suppressing high-variance gradients from incompatible demonstrations. We further propose a delayed, low-frequency compatibility-guided rewriting strategy to transform persistently incompatible demonstrations into learnable targets. We show that CADFT can be interpreted as a variance-controlled estimator that generalizes token-level stabilization in DFT to the sample level. Extensive experiments demonstrate improved stability, generalization, and cold-start reinforcement learning initialization, while remaining fully supervised and independent of explicit reward modeling.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) は、大きな言語モデル(LLM)を整合させる主要なパラダイムであるが、最適化の不安定性と限定的な一般化に悩まされている。
最近の研究は、この問題を病理学的勾配のスケーリングに起因し、トークンレベルでの修正のために動的微調整(DFT)を提案する。
しかし、DFTは、全てのデモンストレーションが等しく適切な学習目標であると仮定し、大規模な命令データの強い不均一性に反する仮定である。
本稿では、サンプルレベルの最適化分散を制御するDFTの原理的拡張であるCompatibility-Aware Dynamic Fine-Tuning(CADFT)を紹介する。
CADFTは、教師付き更新を変調し、非互換なデモから高分散勾配を抑えるモデルの可能性から、動的でポリシーに依存した互換性信号を引き出す。
さらに、非互換なデモを学習可能なターゲットに変換するために、遅延、低周波互換性誘導型書き換え戦略を提案する。
CADFTは,DFTにおけるトークンレベルの安定化を標本レベルに一般化する分散制御型推定器として解釈できることを示す。
大規模な実験では、安定性、一般化、冷間開始強化学習の初期化が向上し、一方、完全に教師付きであり、明確な報酬モデリングとは無関係である。
関連論文リスト
- Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization [23.328511708942045]
Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
論文 参考訳(メタデータ) (2025-07-21T16:21:47Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [19.484676783876306]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。