論文の概要: A Unifying View of Attention Sinks: Two Algorithms, Two Solutions
- arxiv url: http://arxiv.org/abs/2606.08105v1
- Date: Sat, 06 Jun 2026 11:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.78528
- Title: A Unifying View of Attention Sinks: Two Algorithms, Two Solutions
- Title(参考訳): 注意シンクの統一的視点:2つのアルゴリズムと2つの解
- Authors: Lukas Fesser, Mozes Jacobs, Thomas Fel, Andy Keller, Sham Kakade,
- Abstract要約: 我々は、視覚的に類似したシンクパターンが2つの異なるメカニズムを反映できることを示した。
頭がヌルトークンにルーティングすることで更新を抑圧し、iiブロードキャストし、シンクが集約してグローバル情報を再配布する。
- 参考スコア(独自算出の注目度): 11.81228217746692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When attention concentrates on a single token, a sink, what is the model actually computing? Attention sinks are ubiquitous in softmax transformers, yet this shared visual signature can hide fundamentally different algorithms. We show that visually similar sink patterns can reflect two distinct mechanisms: {i} adaptive nop, where a head suppresses its update by routing to a null token, and {ii} broadcast, where a sink aggregates and redistributes global information. In that case, sinks serve an analogous role: a safe destination when there is nothing useful to compute. Proposed interventions like gating or registers work because they implicitly target one or the other, revealing a duality between method and assumed mechanism: gating implicitly assumes nop; registers implicitly assume broadcast. Each mechanism leaves distinct traces (nop sinks exhibit negligible value norms; broadcast sinks induce low-rank outputs) which we formalize on synthetic tasks and use to derive practical diagnostics. Applied to pretrained vision transformers, these diagnostics reveal that both mechanisms exist at scale: sinks transition from CLS in early layers to patches in deeper layers, and concentrate in specialized heads. Strikingly, register tokens, designed for broadcast, are repurposed to also serve nop, confirming that neither intervention alone suffices. Combining gating with registers yields complementary gains in stability and performance. Overall, we find that the same attention pattern can reflect two very different computations and effective intervention requires first asking what the model is actually computing.
- Abstract(参考訳): 単一のトークン、シンクに注意を集中する場合、モデルが実際にコンピューティングしているものは何か?
注意シンクはソフトマックス変換器でユビキタスだが、この共有された視覚的シグネチャは基本的に異なるアルゴリズムを隠すことができる。
視覚的に類似したシンクパターンは、頭がヌルトークンにルーティングすることで更新を抑圧する {i} Adaptive nop と、シンクが集約してグローバル情報を再配布する {ii} broadcast という2つの異なるメカニズムを反映できることを示す。
この場合、シンクは同様の役割を果たす: 計算に何の役にも立たない安全な目的地である。
ゲーティングやレジスタのような提案された介入は、どちらか一方を暗黙的にターゲットし、メソッドと想定されるメカニズムの双対性を明らかにするため動作する:ゲーティングは暗黙的にnopを仮定する;レジスタは暗黙的にブロードキャストを仮定する。
それぞれのメカニズムは、異なるトレース(ノップシンクは無視可能な値規範を示し、ブロードキャストシンクは、我々が合成タスクを形式化し、実用的な診断を導くために使用する低ランク出力を誘導する)を残している。
事前訓練された視覚変換器に適用されたこれらの診断は、両方のメカニズムが大規模に存在することを明らかにしている: 初期の層におけるCLSからより深い層におけるパッチへの遷移をシンクし、特別な頭脳に集中する。
厳密には、放送用に設計されたレジスタトークンは、nopを提供するために再利用され、どちらの介入も十分でないことを確認した。
ゲーティングとレジスタを組み合わせることで、安定性と性能が相補的に向上する。
全体として、同じ注意パターンが2つの非常に異なる計算を反映し、効果的な介入を行うには、まずモデルが実際に何を計算しているかを尋ねる必要がある。
関連論文リスト
- The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity [22.040532283910522]
この研究は、この現象のテクトメカニスティックな説明を提供する。
我々はそのルーツを自己注意に固有の価値集約プロセスに遡る。
概念実証として,事前学習時の値アグリゲーション出力を安定化するアーキテクチャ変更であるtextithead-wise RMSNormを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:28:55Z) - Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks [1.6921396880325779]
単純なトリガー条件の計算は、必ずしもソフトマックス自己注意モデルにおけるシンクを誘導する。
確率的単純性に対する正規化は、デフォルトの状態を実現するために、安定なアンカーに注意を向ける必要がある。
また、非正規化ReLU注意がシンクなしで同じ課題を解決できることを証明し、正規化制約がシンク動作の基本的な要因であることを確認した。
論文 参考訳(メタデータ) (2026-03-12T03:13:28Z) - How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective [67.08306259095778]
モデルがゼロ位置のトークンを認識できるように簡単なメカニズムを同定し、2つの変圧器ブロック内で注意シンクを誘導する。
スクラッチからトレーニングされた30B A3B MoEモデルからのトレーニングトレースを分析することで、このメカニズムはトレーニングの初期段階に現れ、最初の2層に集中するようになる。
論文 参考訳(メタデータ) (2026-02-04T11:10:34Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - Attention Projection Mixing with Exogenous Anchors [0.0]
早期注意投影の層間再利用はデータの効率を向上させるが、構造的な衝突を引き起こす。
この衝突は、内部アンカー設計の隠れた制限であることを示す。
逐次レイヤスタックの外でアンカープロジェクションを学習することで競合を解決するExoFormerを提案する。
論文 参考訳(メタデータ) (2026-01-13T01:52:19Z) - A Unified Cortical Circuit Model with Divisive Normalization and Self-Excitation for Robust Representation and Memory Maintenance [2.705743343600661]
本稿では,分割正規化と自己励磁を組み合わせ,ロバストな符号化を実現するリカレントニューラルネットワークを提案する。
2つの標準タスクでモデルの汎用性を実証する。
この研究は、ノイズ抑圧、ワーキングメモリ、近似ベイズ推論を橋渡しする統一的な数学的枠組みを確立する。
論文 参考訳(メタデータ) (2025-08-18T08:00:24Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Attentive WaveBlock: Complementarity-enhanced Mutual Networks for
Unsupervised Domain Adaptation in Person Re-identification and Beyond [97.25179345878443]
本稿では,新しい軽量モジュールであるAttentive WaveBlock (AWB)を提案する。
AWBは相互学習の二重ネットワークに統合され、相互学習の相補性を高め、擬似ラベルのノイズをさらに抑えることができる。
実験により, 提案手法は, 複数のUDA人物再識別タスクを大幅に改善し, 最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-06-11T15:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。