論文の概要: Dynamic Linear Attention
- arxiv url: http://arxiv.org/abs/2606.10650v1
- Date: Tue, 09 Jun 2026 09:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.429873
- Title: Dynamic Linear Attention
- Title(参考訳): 動的線形注意
- Authors: Xin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang,
- Abstract要約: 多状態線形アテンションのための動的メモリモデリングフレームワークであるDLAを提案する。
2つの異なる線形アテンションモデルでDLAを事前訓練し、3つのカテゴリで16のデータセットを評価する。
- 参考スコア(独自算出の注目度): 33.7476613423211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.
- Abstract(参考訳): LLM(Large Language Models)の長期的文脈への拡張性は、標準的注意の2次的複雑さによって根本的な制約を受けており、二次的コストによる線形注意機構の導入を動機付けている。
長いコンテキスト下での表現能力を改善するために、近年のアプローチでは、メモリを多状態的に整理する。
しかし、既存の多状態線形アテンション法は、動的に変化するトークンの重要度に適応できない固定状態のマージポリシーに依存している。
この制限に対処するため,マルチステートリニアアテンションのための動的メモリモデリングフレームワークであるDLAを提案する。
DLA導入
一 トークンレベルの情報変化に基づいて状態境界を適応的に決定し、安定領域を積極的に要約しつつセマンティックトランジションに関する高解像度表現を保存する情報対応動的状態マージ
二 隣接する低情報状態を選択的にマージし、最小限の情報損失でメモリ成長を制御することにより、固定サイズで時系列的に順序付けられた状態キャッシュを維持する容量境界メモリモデリング。
2つの異なる線形アテンションモデルでDLAを事前訓練し、3つのカテゴリで16のデータセットを評価する。
DLAが最先端技術よりも優れていることを示す実験結果が得られた。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [31.783117836434403]
CD-NGPは、メモリオーバーヘッドを減らし、スケーラビリティを向上させる継続的学習フレームワークである。
トレーニングメモリ使用量は14GBに大幅に削減され、DyNeRFのストリーミング帯域幅はわずか0.4MBである。
論文 参考訳(メタデータ) (2024-09-08T17:35:48Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。