論文の概要: Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity
- arxiv url: http://arxiv.org/abs/2606.17830v1
- Date: Tue, 16 Jun 2026 11:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.413533
- Title: Functional Equivalence in Attention: A Comprehensive Study with Applications to Linear Mode Connectivity
- Title(参考訳): 注意における機能的等価性:線形モード接続性への応用に関する総合的研究
- Authors: Viet-Hoang Tran, Vinh Khanh Bui, Van-Hoan Trinh, Tan Lai Ngoc, Tan M. Nguyen,
- Abstract要約: 位置符号化を用いた変換器の関数同値性について検討する。
正弦波符号化はバニラアテンションの同値構造を保ちながら、回転符号化は対称性群を著しく減少させ、表現性を高めていることを示す。
- 参考スコア(独自算出の注目度): 1.5610547880510195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network parameter spaces are inherently non-injective, as distinct parameter configurations can realize identical functions through functional equivalence. While this symmetry is well understood in classical fully connected and convolutional models, it becomes substantially more intricate in modern attention-based architectures. Existing analyses of multihead attention have largely focused on the vanilla formulation, overlooking positional encodings that fundamentally reshape architectural symmetries. In this work, we provide a formal study of functional equivalence in Transformers with positional encodings. Focusing on the two most widely used variants--sinusoidal and rotary positional encodings (RoPE)--we show that sinusoidal encodings preserve the equivalence structure of vanilla attention, whereas rotary encodings significantly reduce the symmetry group, thereby enhancing expressivity. This offers a principled explanation for the growing prominence of RoPE in practice. We further examine how positional encodings affect linear mode connectivity, and through an alignment algorithm, empirically demonstrate that the presence and variability of connectivity across Transformer settings crucially depend on the positional encoding.
- Abstract(参考訳): ニューラルネットワークパラメータ空間は本質的に非射影的であり、異なるパラメータ構成は機能的同値性を通じて同一の機能を実現することができる。
この対称性は古典的な完全連結モデルや畳み込みモデルではよく理解されているが、現代の注意に基づくアーキテクチャではより複雑になる。
既存のマルチヘッドアテンションの分析は、バニラの定式化に重点を置いており、アーキテクチャの対称性を根本的に再構築する位置エンコーディングを見越している。
本研究では, 位置符号化を用いた変換器の関数同値性に関する公式な研究を行う。
最も広く使われている2つの変種、-sinusoidal および rotation positional encodings (RoPE) に着目して、正弦波符号化がバニラ注意の同値構造を維持しているのに対し、回転符号化は対称性群を著しく減少させ、表現性を高めていることを示す。
これは、RoPEの実践的な普及に関する原則的な説明を提供する。
さらに、位置符号化が線形モード接続にどう影響するかを考察し、アライメントアルゴリズムにより、トランスフォーマー設定における接続の有無とばらつきが重要な位置符号化に依存することを実証的に示す。
関連論文リスト
- Implicit Neural Representations: A Signal Processing Perspective [54.57279006229212]
入射神経表現(INR)は、離散的なサンプルデータから連続的な機能的表現へと、信号モデリングの根本的な変化を示す。
本稿では、信号処理の観点からのINRの進化を考察し、スペクトル挙動、サンプリング理論、マルチスケール表現を強調する。
医療・レーダ画像の逆問題,圧縮,3次元シーン表現など,幅広い応用分野におけるINRの有用性を強調した。
論文 参考訳(メタデータ) (2026-04-16T14:12:06Z) - Causality-Induced Positional Encoding for Transformer-Based Representation Learning of Non-Sequential Features [2.945172427769856]
CAPEは、非順序性上の因果構造を重み付き有向非巡回グラフ(DAG)として同定する新しい方法である
DAGは双曲型空間に埋め込まれており、幾何構造は双曲型モデルに基づくアプローチを用いて保存されている。
このステップでは、特徴に対して因果認識された位置符号化が得られ、変換器の自己保持機構と統合するために回転形式に変換される。
論文 参考訳(メタデータ) (2025-09-20T11:08:02Z) - Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - Theoretical Analysis of Positional Encodings in Transformer Models: Impact on Expressiveness and Generalization [10.034655199520168]
位置エンコーディングはトランスフォーマーベースのモデルの中核部分である。
本稿では, 様々な位置符号化手法がトランスフォーマーの表現性, 一般化能力, より長いシーケンスに対する外挿にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2025-06-05T23:02:18Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Linearized Relative Positional Encoding [43.898057545832366]
相対的な位置符号化は、位置情報を表すためにバニラや線形変換器で広く使われている。
従来の線形相対的位置符号化手法を正準形式にまとめる。
さらに,一元変換を用いた線形相対的位置符号化アルゴリズムのファミリを提案する。
論文 参考訳(メタデータ) (2023-07-18T13:56:43Z) - Trading Positional Complexity vs. Deepness in Coordinate Networks [33.90893096003318]
代替の非フーリエ埋め込み関数が実際に位置符号化に利用できることを示す。
それらの性能は、組込み行列の安定ランクと組込み座標間の距離保存の間のトレードオフによって決定される。
我々は、より複雑な位置符号化 -- モードの数と指数関数的にスケールする -- を利用することは、同等のパフォーマンスを達成するために線形(ディープではなく)座標関数のみを必要とすると論じる。
論文 参考訳(メタデータ) (2022-05-18T15:17:09Z) - A Functional Perspective on Learning Symmetric Functions with Neural
Networks [48.80300074254758]
本研究では,測定値に基づいて定義されたニューラルネットワークの学習と表現について検討する。
正規化の異なる選択の下で近似と一般化境界を確立する。
得られたモデルは効率よく学習でき、入力サイズにまたがる一般化保証を享受できる。
論文 参考訳(メタデータ) (2020-08-16T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。