論文の概要: Different Layers, Different Manifolds: Module-Wise Weight-Space Geometry in Transformer Optimization
- arxiv url: http://arxiv.org/abs/2606.13276v1
- Date: Thu, 11 Jun 2026 12:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.786418
- Title: Different Layers, Different Manifolds: Module-Wise Weight-Space Geometry in Transformer Optimization
- Title(参考訳): 異なる層, 異なる多様体:変圧器最適化におけるモジュールウェイズウェイト空間幾何
- Authors: Kirato Yoshihara,
- Abstract要約: GPT-2事前学習のためのMuon Muonについて検討し、Stiefel および DGram 制約の層配置を比較した。
ストイフェル幾何で注意層を拘束し、DGram幾何を層に割り当てることで、最高の性能が得られる。
DGram制約された注意重みの特異値成長にこの障害を辿り、注意ログを増幅し、ソフトマックス飽和を誘導する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-space geometry plays a central role in neural network optimization, yet manifold constraints are often applied uniformly across all weight matrices. In this work, we ask whether different transformer modules prefer different manifold geometries. We study Manifold Muon for GPT-2 pretraining and compare layer-wise assignments of Stiefel and DGram constraints across attention and MLP blocks. Our results show a clear asymmetry: constraining attention layers with Stiefel geometry while assigning DGram geometry to MLP layers gives the best performance among the tested configurations, whereas the inverted assignment and all-DGram configuration become unstable under the shared hyperparameter setting. We trace this failure to singular value growth in DGram-constrained attention weights, which can amplify attention logits and induce softmax saturation. These findings suggest that symmetry-aware and geometry-aware optimization for transformers should be module-specific rather than uniform.
- Abstract(参考訳): 重み空間幾何学はニューラルネットワークの最適化において中心的な役割を果たすが、多様体の制約は全ての重み行列に対して一様に適用されることが多い。
本研究では、異なる変圧器加群が異なる多様体幾何学を好むかどうかを問う。
GPT-2プレトレーニングのためのマニフォールドムーンについて検討し,注意ブロックおよびMLPブロック間のStiefelおよびDGram制約の階層的割り当てを比較した。
この結果から,DGram 形状を MLP 層に割り当てながら,注意層をスティフェル幾何で拘束することで,テストされた構成の中で最高の性能が得られるのに対し,逆代入と全DGram 構成は共有ハイパーパラメータ設定下で不安定になることがわかった。
DGram制約された注意重みの特異値成長にこの障害を辿り、注意ログを増幅し、ソフトマックス飽和を誘導する。
これらの結果から,変圧器の対称性認識と幾何認識の最適化は,一様ではなくモジュール固有であることが示唆された。
関連論文リスト
- Symmetry-Compatible Principle for Optimizer Design: Embeddings, LM Heads, SwiGLU MLPs, and MoE Routers [3.433766572511366]
深層学習の実践において、目覚ましい幾何学的格差は長く続いている。
勾配更新規則は、対応する重みブロックに作用するパラメータ群の下で同値であるべきである。
論文 参考訳(メタデータ) (2026-05-18T09:17:26Z) - GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning [12.641199394796436]
MLLM(Multimodal large language model)は様々な視覚的タスクにおいて顕著な性能を示したが、それでも空間的推論に苦慮している。
近年の取り組みは、3次元基礎モデルから幾何学的特徴を注入することでこれを緩和しているが、静的な単層抽出に依存している。
実要求に応えるために動的に多層幾何学的特徴を集約する新しいフレームワークGeoAlignを提案する。
論文 参考訳(メタデータ) (2026-04-14T11:58:02Z) - Parameter-Efficient Fine-Tuning of LLMs with Mixture of Space Experts [20.82313207866023]
複数の幾何学空間を同時に利用して曲率認識表現を学習する統合フレームワークを提案する。
ヘテロジニアスな幾何学的専門家とローランド適応(LoRA)を拡張したMoSLoRAを開発した。
多様なベンチマークによる実験は、MoSLoRAが強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-16T06:07:32Z) - PGOT: A Physics-Geometry Operator Transformer for Complex PDEs [15.319296758227857]
物理幾何学演算子変換器(PGOT)を提案する。
PGOTは4つの標準ベンチマークで一貫した最先端性能を実現し、エアフォイルやカーデザインを含む大規模産業タスクに優れる。
論文 参考訳(メタデータ) (2025-12-29T04:05:01Z) - GeoAda: Efficiently Finetune Geometric Diffusion Models with Equivariant Adapters [61.51810815162003]
制御された生成タスクに対してフレキシブルかつパラメータ効率の良い微調整を可能にするSE(3)-equivariant Adapter framework(GeoAda)を提案する。
GeoAdaは、過剰適合と破滅的な忘れを緩和しながら、モデルの幾何的一貫性を保っている。
我々は、フレーム制御、グローバル制御、サブグラフ制御、広範囲のアプリケーションドメインを含む多様な幾何学的制御タイプにまたがるGeoAdaの適用性を実証する。
論文 参考訳(メタデータ) (2025-07-02T18:44:03Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。