論文の概要: Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2606.13657v1
- Date: Thu, 11 Jun 2026 17:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.972893
- Title: Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
- Title(参考訳): Dense Supervision, Sparse Updates: the Sparsity and Geometry of On-Policy Distillation
- Authors: Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye,
- Abstract要約: textscOPDスタイルの更新は小さく、座標スパースである。
教師の高密度監督は、textscOPDを通常の高密度パラメータ書き換えにしない。
textscOPDは、オンラインのポストトレーニングの重要な幾何学的シグネチャを保持する。
- 参考スコア(独自算出の注目度): 39.39389868936592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, \textsc{OPD}-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full \textsc{OPD}. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn \textsc{OPD} into ordinary dense parameter rewriting; instead, \textsc{OPD} retains important geometric signatures of on-policy post-training.
- Abstract(参考訳): オンライン蒸留(英語版) (\textsc{OPD}) は、最近、オンライン学生軌跡と密集教師の監督という2つの望ましい要素を組み合わせた訓練後レシピとして注目されている。
言語モデルと視覚言語モデルの組み合わせとユースケースを比較検討した結果,主に2つの結果が得られた。
スパース性では、 \textsc{OPD} スタイルの更新は小さく、座標がスパースである。
層に分散し、通常はFFN重みを持つ。
このスパース構造は操作上有用であり、検出されたサブネットワークのみのトレーニングは、フルな \textsc{OPD} と同じパフォーマンスを回復する。
しかし、SGD最適化器はAdamWの適応的スケーリングが有用である不均一な座標次勾配尺度を維持しているため、最適化器のアブレーションにおいてAdamWを過小評価する。
幾何では、更新は数値的にはフルランクであるがスペクトルに集中しており、主に源重の主特異部分空間から離れ、原重がゼロに近い座標に不均等に落ちる。
以上の結果から,高密度教師監督は,通常の高密度パラメータ書き換えを行なわないことが示唆された。
関連論文リスト
- GRASP: Geometry-aware Residual Alignment for Scalable Pretraining Data Attribution [5.770893169582546]
この研究は、属性をサブセットレベルの反事実的ユーティリティ予測として再定義する。
相互作用を意識したサロゲートであるGRASPを紹介する。
それは、既存のスケーラブルなベースラインを決定的に上回る。
論文 参考訳(メタデータ) (2026-06-05T04:17:50Z) - Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation [51.210887267509854]
OPDの効率は、トレーニングの初期段階において最終モデルに向けた安定的な更新軌道を確立する、フォレスト・オブ・ザ・イヤーズ(foresight')の形式に起因している、と我々は主張する。
我々は、外挿ステップのサイズを適応的に選択し、現在の更新方向に沿って移動することにより、OPDを高速化するプラグイン・アンド・プレイ・アクセラレーション手法である textbfEffOPD を提案する。
論文 参考訳(メタデータ) (2026-05-12T08:19:15Z) - LEADER: Learning Reliable Local-to-Global Correspondences for LiDAR Relocalization [44.37632368250295]
我々は,単純かつ効果的な幾何エンコーダによって強化されたロバストなLiDARベースの再ローカライズフレームワークであるLEADERを提案する。
オックスフォード・ロボットカーとNCLTデータセットの実験は、LEADERが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2026-04-13T11:52:29Z) - Exploring 3D Dataset Pruning [42.345465506597044]
本研究では,3次元データに対するデータセットのプルーニングについて検討する。
重み付けされたサブセットで全データ予測リスクを近似すると、表現力の不足によるカバレッジエラーと、サブセットによるクラス重みとターゲットメトリクスの不整合による事前ミスマッチバイアスの2つの重要なエラーが明らかになる。
論文 参考訳(メタデータ) (2026-02-28T13:42:11Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Gradient-based Weight Density Balancing for Robust Dynamic Sparse
Training [59.48691524227352]
スパースニューラルネットワークをゼロからトレーニングするには、接続自体と同時にコネクションを最適化する必要がある。
トレーニング中に各レイヤ間の接続は複数回最適化されるが、各レイヤの密度は通常一定である。
我々は、すべての層に重みを分散するテクニックであるGlobal Gradient-based Redistributionを提案する。
論文 参考訳(メタデータ) (2022-10-25T13:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。