論文の概要: Heterogeneous Knowledge Distillation via Geometry Decoupling and Momentum-Aware Gradient Regulation
- arxiv url: http://arxiv.org/abs/2606.24557v1
- Date: Tue, 23 Jun 2026 13:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.967381
- Title: Heterogeneous Knowledge Distillation via Geometry Decoupling and Momentum-Aware Gradient Regulation
- Title(参考訳): 幾何デカップリングとモーメントアウェアグラディエント制御による不均一な知識蒸留
- Authors: Wuming Yang, Xiang Zhang, Hongmin Zhao,
- Abstract要約: SPOFAは、新しいFeature and Gradient Dual Stabilizationメカニズムの上に構築されたフレームワークである。
MEMAは瞬時勾配の衝突を積極的に評価し、有害な蒸留信号を適応的に罰する。
2つの主要なベンチマークの実験は、SPOFAが最先端の精度を達成することを示した。
- 参考スコア(独自算出の注目度): 3.619179880246355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heterogeneous Knowledge Distillation (HKD) aims to transfer knowledge across varying architectures (e.g., from Transformer to CNN) but inherently suffers from severe training instability. We reveal that this instability stems from two highly coupled challenges: massive feature norm discrepancies that cause optimization drag, and severe gradient conflicts between the primary and distillation objectives arising from distinct inductive biases. To achieve stable distillation, we propose SPOFA, a framework built upon a novel Feature and Gradient Dual Stabilization mechanism. Specifically, at the feature level, we introduce a LayerNorm-based decoupling projector that explicitly decouples feature magnitude from direction, creating a bounded and stable space for semantic alignment. At the gradient level, we propose a momentum-driven Exponential Moving Average (MEMA) dynamic scaler. By establishing a robust historical baseline of the optimization trajectory, MEMA actively evaluates instantaneous gradient conflicts and adaptively penalizes harmful distillation signals, guaranteeing stable convergence. Importantly, SPOFA achieves this dual stabilization with an extremely lightweight parameter footprint. Extensive experiments on two mainstream benchmarks demonstrate that SPOFA achieves state-of-the-art accuracy, significantly outperforming computationally expensive methods while introducing only minimal computational overhead compared to standard baselines.
- Abstract(参考訳): 不均質な知識蒸留(HKD)は、様々なアーキテクチャ(例えばTransformerからCNN)で知識を伝達することを目的としている。
この不安定性は、最適化のドラッグを引き起こす大きな特徴ノルムの相違と、異なる帰納的バイアスから生じる一次目的と蒸留目標の間の厳密な勾配の衝突という、高度に結合した2つの課題に起因している。
安定蒸留を実現するため,新しい特徴とグラディエントデュアル安定化機構を基盤としたフレームワークであるSPOFAを提案する。
具体的には、機能レベルではLayerNormベースのデカップリングプロジェクタを導入し、特徴量と方向を明確に分離し、セマンティックアライメントのための有界で安定した空間を作成します。
勾配レベルでは、運動量駆動の指数移動平均(MEMA)動的スケーラを提案する。
最適化軌道のロバストな歴史的基準を確立することにより、MEMAは瞬時勾配の衝突を積極的に評価し、有害な蒸留信号を適応的に罰し、安定した収束を保証する。
重要なことに、SPOFAはこの双対安定化を非常に軽量なパラメータフットプリントで達成している。
2つの主要なベンチマークでの大規模な実験により、SPOFAは最先端の精度を達成し、計算コストの高い手法を著しく上回り、標準ベースラインに比べて計算オーバーヘッドは最小限に抑えられた。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Taming the Instability: A Robust Second-Order Optimizer for Federated Learning over Non-IID Data [77.19117648492104]
We present Federated Robust Curvature Optimization (FedRCO), a novel second-order optimization framework designed to improve convergence speed and reduce communication cost。
FedRCOは、効率的な近似曲率と証明可能な安定性メカニズムを統合することで、これらの課題に対処する。
我々は,FedRCOが,最先端の1次法と2次法のどちらよりも高い精度と高速な収束を実現しつつ,多種多様な非IIDシナリオに対して優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2026-03-30T11:37:46Z) - Dual-Stage Invariant Continual Learning under Extreme Visual Sparsity [8.16821029459195]
背景駆動の勾配は、連続的なドメインシフトの間、機能のバックボーンを不安定にすることを示す。
連成蒸留による二段階不変連続学習フレームワークを提案する。
高分解能空間ベース RSO 検出データセットの実験は、確立された連続物体検出法よりも一貫した改善を示す。
論文 参考訳(メタデータ) (2026-03-27T09:03:49Z) - Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - Unifying Sign and Magnitude for Optimizing Deep Vision Networks via ThermoLion [0.0]
現在のパラダイムは、情報チャネルドリフトパラメータに静的な妥協を課している。
我々は「低次元」探索モデルと「低次元」動的アライメントフレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-01T17:04:17Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。