論文の概要: Stage-1 Controls the Entropy Regime, Not the Outcome
- arxiv url: http://arxiv.org/abs/2606.09059v1
- Date: Mon, 08 Jun 2026 05:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.719879
- Title: Stage-1 Controls the Entropy Regime, Not the Outcome
- Title(参考訳): Stage-1はエントロピーレジームを制御する。
- Authors: Jianxiong Shen,
- Abstract要約: 2段階のポストトレーニングは、視覚言語モデルにますます使われている。
OPD用72B VLM教師を用いたQwen2.5-VL-7Bを用いた小規模データ研究において,Stage-1が実際にどのような制御を行うのかを問う。
- 参考スコア(独自算出の注目度): 3.595796837069228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two-stage post-training -- a Stage-1 warm-start (supervised fine-tuning, SFT, or on-policy distillation, OPD) followed by Stage-2 reinforcement learning (RL) -- is increasingly used for vision-language models (VLMs). We ask what Stage-1 actually controls in a small-data study using Qwen2.5-VL-7B with a same-modality 72B VLM teacher for OPD. First, the three warm-starts reach a narrow $53$--$54\%$ band on Geometry3K internal validation, consistent with the narrow range reported by recent specialized methods; this setup provides little evidence that Stage-1 changes the in-domain endpoint. Second, a matched-recipe, early-stopped SFT improves out-of-domain MathVista by $+2.1$ points, reversing the $-9.5$-point drop of an over-trained variant. The clearest difference is the \emph{entropy regime}: OPD enters RL with substantially higher policy entropy than either SFT initialization, and the separation remains visible through the available trajectories. At the in-domain initialization, OPD also has higher answer diversity and pass@16 ($+2.0$ to $+5.2$ points over SFT), although problem-level bootstrap intervals show that the smaller contrast is uncertain. The advantage is absent after RL (endpoint pass@16 values within $1.1$ points) and on MathVista (six models within $1.2$ points). Our contribution is therefore a bounded empirical characterization: Stage-1 is strongly associated with the entropy regime in this setup, but the downstream payoff is small, localized, and not evidence that OPD is a better RL warm-start.
- Abstract(参考訳): 視覚言語モデル(VLM)では,2段階後訓練(Sage-1 warm-start, 教師付き微調整, SFT, またはオンライン蒸留, OPD)とRL(Stage-2 reinforcement Learning)が採用されている。
OPD用72B VLM教師を用いたQwen2.5-VL-7Bを用いた小規模データ研究において,Stage-1が実際にどのような制御を行うのかを問う。
まず、3つのウォームスタートはGeometry3Kの内部検証の幅が狭く、5,3$--54\%の帯域に到達し、最近の特殊なメソッドによって報告された狭い範囲と一致している。
第二に、マッチしたレシピの早期停止SFTはドメイン外のMathVistaを$2.1$ポイント改善し、オーバートレーニングされた派生型の$9.5$ポイントを逆転する。
OPD は SFT の初期化よりもかなり高いポリシーエントロピーを持つ RL に入り、その分離は利用可能な軌道を通して見ることができる。
ドメイン内の初期化において、OPDは回答の多様性も高く、pass@16$+2.0$ to $+5.2$ points over SFT) を持つが、問題レベルのブートストラップ間隔は、より小さなコントラストが不確実であることを示している。
RL (endpoint pass@16 value within $1.1$ points) と MathVista (six model within $1.2$ points) の後に利点はない。
ステージ1はエントロピーの仕組みと強く結びついているが、下流のペイオフは小さく、局所的であり、OPDがRLの温暖化開始よりも優れているという証拠ではない。
関連論文リスト
- From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum [3.9929570259734604]
RLVR と log-marginal-likelihood を補間する統合損失ファミリ J_Q$ を示す。
すべてのメンバは、学習率とは独立して各インスタンスを再重み付けするインスタンス毎の$P_q$でのみ異なる、サンプル毎の勾配方向を共有する。
J_Q$連続体上の固定値q$を直接最適化する2つのモンテカルロ推定子を、注釈付き有理数なしで導出する。
論文 参考訳(メタデータ) (2026-04-28T17:52:38Z) - Auxiliary Finite-Difference Residual-Gradient Regularization for PINNs [0.0]
本研究では,PDE残差が保たれるハイブリッド設計について検討するが,有限差分は弱い補助項にのみ現れる。
FD項は、PDE残基自体を置き換えることなく残留体を正則化する。
種子0-5と100kのエポック全体で、最も信頼性の高い試験はクルコウタス・ベタ政権下での固定殻重量5e-4である。
論文 参考訳(メタデータ) (2026-04-15T23:09:19Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - Optimal Learning-Rate Schedules under Functional Scaling Laws: Power Decay and Warmup-Stable-Decay [9.371921537573346]
機能的スケーリング法則の下で、最適学習率スケジュール(LRS)について検討する。
LRSは線形回帰と大規模言語モデル(LLM)の事前学習の損失ダイナミクスを正確にモデル化する。
我々は,ピーク学習率のみを調整した最適な形状固定スケジュールを解析する。
論文 参考訳(メタデータ) (2026-02-06T15:52:30Z) - Shallow Neural Networks Learn Low-Degree Spherical Polynomials with Learnable Channel Attention [11.227859599698588]
チャネルアテンションを持つ過パラメトリック化された2層ニューラルネットワーク(NN)を訓練する。
私たちの主な成果は、このような低次学習のためのサンプルの複雑さが大幅に改善されたことです。
論文 参考訳(メタデータ) (2025-12-23T18:05:55Z) - Monge-Ampere Regularization for Learning Arbitrary Shapes from Point Clouds [69.69726932986923]
任意の曲面型をモデル化するための新しい暗黙曲面表現であるスケールド2乗距離関数 (S$2$DF) を提案する。
S$2$DFは、ゼロレベルセットでのUDFの非微分可能性問題に効果的に対処しながら、内部領域と外部領域を区別しない。
論文 参考訳(メタデータ) (2024-10-24T06:56:34Z) - Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [54.57279006229212]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を担っている。
本研究では,2次項と高次項の両方を考慮することで,まず2次項を用いて関連する空間を学習できることを示す。
オンラインSGDの全体サンプルと複雑さは$tildeO(d PL-1 )$である。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。