論文の概要: Rethinking the Role of Efficient Attention in Hybrid Architectures
- arxiv url: http://arxiv.org/abs/2606.15378v1
- Date: Sat, 13 Jun 2026 16:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.471486
- Title: Rethinking the Role of Efficient Attention in Hybrid Architectures
- Title(参考訳): ハイブリッドアーキテクチャにおける効率的な注意の役割を再考する
- Authors: Ziqing Qiao, Yinuo Xu, Chaojun Xiao, Zhou Su, Zihan Zhou, Yingfa Chen, Xiaoyue Xu, Xu Han, Zhiyuan Liu,
- Abstract要約: 提案手法は, 意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的・意図的)な設計が, 長大なコンテキスト能力の出現にいかに影響するかを示す。
より大きなSWAウィンドウは、フルアテンション層における検索ヘッドの形成を遅らせることができる。
小型SWAハイブリッドのフルアテンション層のみにNoPEを適用することで、長時間のコンテキスト性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 40.06011907592891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models increasingly adopt hybrid architectures that combine full attention with efficient attention modules, such as sliding-window attention (SWA) and recurrent sequence mixers. However, how these efficient modules shape model capabilities remains poorly understood. To address this gap, we conduct a systematic analysis across hybrid architectures from three perspectives: scaling behavior, mechanism analysis, and architecture design. First, from a scaling perspective, we find that efficient-attention design primarily affects how fast long-context capability emerges, while different hybrids eventually converge to comparable long-context performance under sufficient training. Second, mechanistically, we show that long-range retrieval is mainly carried by full attention, whereas efficient attention shapes its optimization trajectory. This explains a counter-intuitive phenomenon we call Large-Window Laziness: larger SWA windows can delay the formation of retrieval heads in full-attention layers. Third, guided by this mechanism, we show that applying NoPE to only the full-attention layers of a small-window SWA hybrid substantially improves long-context performance with negligible impact on short-context performance.
- Abstract(参考訳): 現代の言語モデルは、スライディング・ウインドウ・アテンション (SWA) やリカレント・シークエンス・ミキサー (recurrent sequence mixer) のような効率的なアテンション・モジュールとフルアテンション・アテンション・アテンション・アテンション・アテンション・モジュールを組み合わせたハイブリッド・アーキテクチャを採用する傾向にある。
しかし、これらの効率的なモジュール形状モデル機能がどのように理解されているかはよく分かっていない。
このギャップに対処するため、我々は3つの視点からハイブリッドアーキテクチャの体系的な分析を行う。
まず、スケーリングの観点からは、効率のよいアテンション設計は、主に、長時間コンテキスト能力の出現の速さに影響を与えるが、異なるハイブリッドは、十分なトレーニングの下で、最終的に同等の長期コンテキストパフォーマンスに収束する。
第2に、機械的手法により、長距離検索は、主に全注意で行われ、一方、効率的な注意は、その最適化軌道を形作っている。
これは私たちがLarge-Window Lazinessと呼ぶ反直感的な現象を説明している: 大きなSWAウィンドウは、完全なアテンション層における検索ヘッドの形成を遅らせる。
第3に, この機構により, 小型SWAハイブリッドのフルアテンション層のみにNoPEを適用することにより, 短コンテキスト性能に無視できない影響を伴って, 長コンテキスト性能を大幅に向上することを示す。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - Understanding and Enhancing Mamba-Transformer Hybrids for Memory Recall and Language Modeling [59.84975924845338]
我々は、メモリ利用と全体的な性能のレンズを通してハイブリッドアーキテクチャを解析する。
逐次ハイブリッドはより短いコンテキストでより良く機能する一方、並列ハイブリッドはより長いコンテキストでより効果的である。
パラフレーズを付加したデータセットを継続的にトレーニングするデータ中心のアプローチを導入し、他の機能を保ちながらリコールをさらに強化する。
論文 参考訳(メタデータ) (2025-10-30T18:19:52Z) - ReGLA: Refining Gated Linear Attention [42.97193398172823]
線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
論文 参考訳(メタデータ) (2025-02-03T18:03:13Z) - Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。