論文の概要: Dual Dimensionality for Local and Global Attention
- arxiv url: http://arxiv.org/abs/2606.18587v1
- Date: Wed, 17 Jun 2026 01:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.953847
- Title: Dual Dimensionality for Local and Global Attention
- Title(参考訳): 局所的・大域的注意のための二重次元性
- Authors: Zhiyuan Wang, Xuan Luo, Sirui Zeng, Xifeng Yan,
- Abstract要約: 局所および遠方トークンが表現能力に非対称な要求を課していることを示す。
我々はこのアイデアを制御された環境で実装された距離適応表現(DAR)として定式化する。
DARは、ローカルコンテキストウィンドウ内の全次元表現を保持し、そのウィンドウの向こうのトークンに縮小次元表現を割り当てる。
- 参考スコア(独自算出の注目度): 25.528738579381994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decoder-only Transformers compute attention over the KV cache of preceding tokens. Keys (and Values) are typically represented with the same dimensionality, regardless of its distance from the prediction target. In natural language, however, the next word is most strongly influenced by the immediately preceding tokens. We hypothesize that local and distant tokens impose asymmetric demands on representational capacity: local tokens are more critical for predicting immediate outputs and thus require richer representations, whereas distant tokens primarily serve as long-range memory, for which lower-dimensional representations may suffice. We formalize this idea as Distance-Adaptive Representation (DAR), implemented in a controlled setting that preserves full-dimensional representations within a local context window while assigning reduced-dimensional representations (e.g. 1/4 of the original dimensionality) to tokens beyond that window. Across multiple pretraining scales (70M to 410M parameters), as well as continued supervised fine-tuning on a 1B-scale model, this approach closely matches the performance of full-dimensional baselines. In contrast, uniformly reducing dimensionality across all token positions leads to worse performance. These results challenge the common assumption that key and value dimensionality should be uniform across token positions. Our findings suggest a new direction for designing attention architectures that adaptively allocate representational capacity across sequences, enabling further reductions in KV cache during inference.
- Abstract(参考訳): デコーダのみのトランスフォーマーは、前のトークンのKVキャッシュに注意を向ける。
キー(および値)は通常、予測対象からの距離に関わらず、同じ次元で表現される。
しかし、自然言語では、次の単語は直前のトークンの影響を強く受けている。
局所トークンは即時出力を予測するためにより重要であり、したがってよりリッチな表現を必要とする。一方、遠方のトークンは主に、低次元表現が十分であるような長距離メモリとして機能する。
我々は、このアイデアをDAR(Distance-Adaptive Representation)として形式化し、局所的なコンテキストウィンドウ内の全次元表現を保存し、そのウィンドウの外側のトークンに縮小次元表現(例えば、元の次元の1/4)を割り当てる制御された設定で実装する。
複数の事前学習尺度(70Mから410Mパラメータ)と1Bスケールモデルにおける教師付き微調整の継続に加えて、本手法はフル次元ベースラインの性能と密接に一致している。
対照的に、すべてのトークン位置における次元性の均一化は、パフォーマンスを悪化させる。
これらの結果は、鍵と値の次元性はトークンの位置にわたって均一であるべきだという一般的な仮定に挑戦する。
提案手法は,系列間の表現容量を適応的に割り当てるアテンションアーキテクチャを設計し,推論時のKVキャッシュのさらなる削減を可能にするものである。
関連論文リスト
- Representative Attention For Vision Transformers [11.0298065364767]
直線的注意は、高密度自己注意の二次コストを超えてビジョントランスフォーマーをスケールするための有望な方向として現れている。
本稿では,表現空間内で直接トークン圧縮を行う線形グローバルアテンション機構である代表注意(Representive Attention, RPAttention)を提案する。
RPAttentionは、空間トークンの数に関して、支配的なトークン相互作用の複雑さを2次から線形スケーリングに還元する。
論文 参考訳(メタデータ) (2026-05-14T14:48:20Z) - Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens [88.42820935044021]
高次元表現のための最初の離散生成モデルであるCub Discrete Diffusion (CubiD)を述べる。
立方体は高次元離散表現を通してきめ細かいマスキングを行う。
ImageNet-256では、900Mから3.7Bパラメータの強いスケーリング動作を持つ最先端の離散生成を実現している。
論文 参考訳(メタデータ) (2026-03-19T17:59:55Z) - ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Neighboring Autoregressive Modeling for Efficient Visual Generation [19.486745219466666]
NAR(Neighboring Autoregressive Modeling)は、自動回帰視覚生成をプログレッシブ・アウトペイントの手順として定式化する新しいパラダイムである。
空間時間空間における複数の隣接トークンの並列予測を可能にするために,次元指向デコードヘッドのセットを導入する。
ImageNet$256times 256$とUCF101の実験では、それぞれ2.4$times$と8.6$times$高いスループットを達成した。
論文 参考訳(メタデータ) (2025-03-12T05:52:27Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - Transformers are Universal In-context Learners [21.513210412394965]
深層変換器は、コンパクトなトークン領域を均一に、任意の精度で連続的なコンテキスト内マッピングを近似できることを示す。
我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。
論文 参考訳(メタデータ) (2024-08-02T16:21:48Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。