論文の概要: CacheMuon: Using Temporal Preconditioning To Approximate Polar Factor
- arxiv url: http://arxiv.org/abs/2606.16371v1
- Date: Mon, 15 Jun 2026 08:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.169775
- Title: CacheMuon: Using Temporal Preconditioning To Approximate Polar Factor
- Title(参考訳): CacheMuon: 時間的プレコンディショニングを使ってPolar Factorを近似する
- Authors: Bishnu Dev, Sushil Bohara, Martin Takáč, Samuel Horváth,
- Abstract要約: Muon は運動量行列の極係数を用いて更新を計算するイテレーションである。
本稿では,従来の最適化手順から情報を再利用して極性係数を近似する時間前処理手法であるCacheMuonを提案する。
CacheMuonを不正確なMuon更新として解析し、新しい解決器エラーとキャッシュの安定化によってエラーを制御します。
- 参考スコア(独自算出の注目度): 10.894929874293966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon is an optimizer that computes updates using the polar factor of the momentum matrix and has shown strong empirical performance across a range of training settings. A key component of Muon is the Newton-Schulz iteration used to compute this polar factor. Although this avoids the cost of an exact singular value decomposition, it remains expensive in practice because it is applied at every optimization step. At the same time, the momentum matrix changes smoothly over training, suggesting strong temporal correlation in the corresponding polar factors. In this paper, we exploit this structure and propose CacheMuon, a temporal preconditioning method that reuses information from previous optimization steps to approximate the polar factor at the current step. This reduces redundant orthogonalization computation across iterations. We analyze CacheMuon as an inexact Muon update, with error controlled by fresh-solver error and cache staleness. Empirically, CacheMuon provides a controllable quality-efficiency frontier: conservative thresholds closely match fresh Muon on language-model and vision training while reducing orthogonalization FLOPs, whereas more aggressive thresholds yield larger arithmetic savings at the cost of modest validation-quality degradation.
- Abstract(参考訳): Muonは、運動量行列の極係数を使って更新を計算し、様々なトレーニング設定で強い経験的性能を示したオプティマイザである。
ミューオンの重要な構成要素は、この極因子を計算するために用いられるニュートン・シュルツ反復である。
これは正確な特異値分解のコストを回避するが、全ての最適化ステップで適用されるため、実際には高価である。
同時に運動量行列はトレーニング中に滑らかに変化し、対応する極性因子の強い時間的相関が示唆された。
本稿では、この構造を利用して、従来の最適化手順からの情報を再利用し、現在のステップにおける極係数を近似する時間前処理手法であるCacheMuonを提案する。
これにより、反復間の冗長な直交化計算が削減される。
CacheMuonを不正確なMuon更新として解析し、新しい解決器エラーとキャッシュの安定化によってエラーを制御します。
保守的しきい値と言語モデルとビジョントレーニングの鮮明なMuonとを密に一致させる一方で、直交化FLOPを削減します。
関連論文リスト
- MuonQ: Enhancing Low-Bit Muon Quantization via Directional Fidelity Optimization [7.243820893114047]
指向性最適化の原理に基づく低ビットMuonトレーニングフレームワークを提案する。
4ビット精度のMuonQは、トレーニング損失と下流タスク精度の両方において、フル精度のMuonと密接に一致している。
私たちのコードはhttps://github.com/YupSueng/MuonQ.comで公開されています。
論文 参考訳(メタデータ) (2026-05-12T01:31:32Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - InvarDiff: Cross-Scale Invariance Caching for Accelerated Diffusion Models [2.6735992385049663]
InvarDiffは、時間ステップスケールと層スケールの相対時間的不変性を利用する、トレーニング不要な加速度法である。
実験によると、InvarDiffは標準品質の指標に最小限の影響を伴って、エンドツーエンドのスピードアップで2~3ドルを達成している。
論文 参考訳(メタデータ) (2025-11-29T02:34:23Z) - Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2025-06-05T16:50:23Z) - The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm [24.020943794160555]
極分解を計算するための新しい手法であるPolar Expressを紹介する。
この戦略が最悪の場合においてエラーを最小限に抑え、極極急行をできるだけ早く収束させることができることを実証する。
Muon トレーニングフレームワークに統合されると,本手法は検証損失を一貫した改善をもたらす。
論文 参考訳(メタデータ) (2025-05-22T17:23:14Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。