論文の概要: All Routes Lead to Collapse
- arxiv url: http://arxiv.org/abs/2606.22325v1
- Date: Sun, 21 Jun 2026 03:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:06:54.814105
- Title: All Routes Lead to Collapse
- Title(参考訳): すべてのルートが崩壊する
- Authors: K. R. Balasubramanian,
- Abstract要約: 注意シンク,表現崩壊,ノルム成層化はトランスフォーマー固有の病態ではないことを示す。
ソフトマックスの注意は、一定の鍵ノルムを持つユークリッド距離上のボルツマン重み付き集約である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention sinks, representation collapse, and norm stratification are treated as transformer-specific pathologies. We show they are not specific to attention: they are what content-based routing does under a fixed similarity metric. We give a reframing identity: softmax attention is Boltzmann-weighted aggregation over Euclidean distances with constant key norms, so its score omits a $-\|k\|^2$ term and is blind to key magnitude. This predicts that any router whose metric is ill-matched to its representations should compensate, by concentrating its routing and collapsing the routed representations. We test it on routers that score and aggregate over different axes: softmax attention over tokens (nine pretrained transformers), graph attention over nodes, a selective state-space model and a recurrent mixer over time, and learned residuals over depth. All develop the same signature, and two within-model ablations show it is caused by the routing mechanism rather than by incidental dynamics. The form is contingent, set by the strength of the positional brake each router carries alongside its content score; we sweep that brake and move the onset across its whole range. The mechanism is not contingent, and it does not require norm stratification: a router with norm-normalized keys concentrates just the same. We do not claim these models implement Riemannian geometry; the geometric view is a diagnostic that names the inadequacy of the flat, norm-blind metric.
- Abstract(参考訳): 注意シンク、表現崩壊、ノルム成層化はトランスフォーマー特異的な病理として扱われる。
コンテンツベースのルーティングは、固定された類似度メトリックの下で行うものです。
ソフトマックスの注意はユークリッド距離上のボルツマン重み付き集合であり、鍵ノルムが一定であるので、そのスコアは$-\|k\|^2$項を省略し、鍵等級に盲目である。
これは、メトリックが表現に一致していないルータは、ルーティングに集中し、ルーティングされた表現を崩壊させることで、補償すべきであると予測する。
トークン上のソフトマックスアテンション(9つの事前訓練されたトランスフォーマー)、ノード上のグラフアテンション、選択された状態空間モデルとリカレントミキサーなど、異なる軸上でスコアとアグリゲーションを行うルータ上でテストを行い、深さ以上の残差を学習した。
いずれも同じシグネチャを開発し、2つのモデル内アブリケーションは、インシデントダイナミクスではなくルーティングメカニズムによって引き起こされることを示している。
この形状は、各ルータが持つ位置ブレーキの強さとコンテンツスコアによって設定される。
標準正規化鍵を持つルータは、ちょうど同じに集中する。
これらのモデルはリーマン幾何学を実装しているわけではないが、幾何学的視点は平坦なノルムブレンド計量の不完全性を示す診断である。
関連論文リスト
- Redesign Mixture-of-Experts Routers with Manifold Power Iteration [60.55368504665436]
Manifold Power Iteration (MPI) を用いたルータの再設計を提案する。
MPIはルータ列を駆動し、関連する専門家の主特異方向に向かって収束させる。
MPIはルータ列を駆動し、関連する専門家の主特異方向に向かって収束することを示す。
論文 参考訳(メタデータ) (2026-06-10T17:57:36Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology [0.0]
巡回加法(Zp)を訓練した変圧器のグルーキング-遅れ一般化に関する研究
標準変圧器における2つの独立した構造因子:表現の大きさとデータ依存型アテンションルーティングを同定する。
論文 参考訳(メタデータ) (2026-03-05T14:41:01Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Hide & Seek: Transformer Symmetries Obscure Sharpness & Riemannian Geometry Finds It [5.89889361990138]
既存のシャープネス対策は、よりリッチな対称性を持つため、トランスフォーマーには失敗する、と我々は主張する。
我々は、対称性を補正した商多様体上の測地球の観点から、シャープネスの完全な一般概念を提案する。
我々の測地的シャープネスは、テキストと画像の分類タスクの両方において、現実世界のトランスフォーマーに強い相関関係を示す。
論文 参考訳(メタデータ) (2025-05-08T16:51:03Z) - Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - HDGT: Heterogeneous Driving Graph Transformer for Multi-Agent Trajectory
Prediction via Scene Encoding [76.9165845362574]
運転シーンをノードやエッジの異なる異種グラフとしてモデル化するバックボーンを提案する。
空間的関係符号化では、ノードの座標とエッジの座標は局所ノード中心座標系に含まれる。
実験結果から,HDGTは軌道予測のタスクに対して最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2022-04-30T07:08:30Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。