論文の概要: Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning
- arxiv url: http://arxiv.org/abs/2606.14187v2
- Date: Tue, 16 Jun 2026 11:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.635895
- Title: Zeta: Dual Whitening for Matrix Optimization via Coordinate-Adaptive Preconditioning
- Title(参考訳): Zeta: Coordinate-Adaptive Preconditioningによる行列最適化のためのデュアルホワイトニング
- Authors: Kaiwen Chen, Shuhai Zhang, Zimo Liu, Linxiao Li, Ying Sun, Yuchen Li, Yifan Zhang, Bo Han, Mingkui Tan, Qiuwu Chen,
- Abstract要約: 我々は、厳密に順序付けられたパイプラインで座標白化とスペクトル白化を施した二重白化であるゼータを提案する。
我々はZetaが言語モデリング(0.6Bから8Bパラメータ)、Mix-of-expertsアーキテクチャ、ビジョンタスクにまたがる強力なベースラインに適合しているか、あるいは超越していることを証明する。
- 参考スコア(独自算出の注目度): 56.24532075189964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale neural network training increasingly relies on matrix-aware optimizers that exploit the structure of weight parameters beyond element-wise adaptation. However, existing matrix-aware methods such as Muon have an underappreciated vulnerability: their core operation, Newton-Schulz iteration, depends critically on input conditioning, yet the raw momentum matrices exhibit severe coordinate-wise scale heterogeneity. In this paper, we first verify this scale heterogeneity through a chi-square uniformity test, showing that intra-matrix scale imbalance is prevalent across Transformer layers and that coordinate whitening effectively corrects it. Motivated by this finding, we propose Zeta, a dual whitening optimizer that applies coordinate whitening and spectral whitening in a strictly ordered pipeline. The ordering is not a tunable choice but follows from a mathematical dependency: coordinate whitening establishes the statistical isotropy that spectral whitening requires to function reliably. We further prove that this dual pipeline strictly reduces orthogonalization error relative to pure spectral methods by improving the condition number of the input. Empirically, Zeta matches or surpasses strong baselines across language modeling (0.6B to 8B parameters), mixture-of-experts architectures, and vision tasks, demonstrating that resolving scale imbalance before orthogonalization leads to faster convergence and better generalization. Code is available at https://github.com/AIGCodeOS/aigcode_zeta_optimizer.
- Abstract(参考訳): 大規模ニューラルネットワークトレーニングは、要素適応以上の重みパラメータの構造を利用する行列対応オプティマイザにますます依存している。
しかし、Muonのような既存の行列認識手法では、コア演算であるNewton-Schulz反復は入力条件に大きく依存するが、原運動量行列は厳密な座標ワイドスケールの不均一性を示す。
本稿では, このスケールの不均一性をカイ二乗法により検証し, 行列内スケール不均衡がトランスフォーマー層間で有効であり, 座標白化が効果的に補正可能であることを示す。
この発見に触発されて、厳密に順序付けられたパイプラインで座標白化とスペクトル白化を施した二重白化オプティマイザであるZetaを提案する。
座標ホワイトニングは、スペクトルホワイトニングが確実に機能するために必要な統計的等方性を確立する。
さらに、この二重パイプラインは入力の条件数を改善することにより、純粋なスペクトル法と比較して直交誤差を厳密に低減することを示す。
実証的には、ゼータは言語モデリング(0.6Bから8Bのパラメータ)、Mix-of-expertsアーキテクチャ、ビジョンタスクにまたがる強力なベースラインに適合し、直交化前のスケール不均衡の解消がより高速な収束とより優れた一般化をもたらすことを示した。
コードはhttps://github.com/AIGCodeOS/aigcode_zeta_optimizerで入手できる。
関連論文リスト
- Adaptive Matrix Online Learning through Smoothing with Guarantees for Nonsmooth Nonconvex Optimization [54.723834588133165]
我々は,演算子AMLによる行列変数を用いたオンライン線形最適化について検討した。
プロジェクションを避ける2つの効率的な手法でこのフレームワークをインスタンス化する。
両手法とも, クローズドフォーム更新はシャンプーの後悔と一致し, 計算コストを大幅に削減することを示した。
論文 参考訳(メタデータ) (2026-02-09T03:09:47Z) - OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases [29.60546958677364]
nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
論文 参考訳(メタデータ) (2026-02-01T08:59:45Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - What Really Matters in Matrix-Whitening Optimizers? [99.7641280234926]
行列白化法は要素的に確実に優れていることを示す。
ベト・アダプテッド・バージョンは、サイン・ディフレッシュ・バージョンよりも一貫して上回っている。
低ランク分散推定器は性能損失を伴わずにメモリコストを効果的に削減できる。
論文 参考訳(メタデータ) (2025-10-28T21:59:49Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。