論文の概要: ATMA: Length-Invariant Language Modeling via Polar Attention and Gated-Delta Compression Memory
- arxiv url: http://arxiv.org/abs/2606.25156v1
- Date: Tue, 23 Jun 2026 20:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.140296
- Title: ATMA: Length-Invariant Language Modeling via Polar Attention and Gated-Delta Compression Memory
- Title(参考訳): ATMA:極性注意とGated-Delta圧縮メモリによる長さ不変言語モデリング
- Authors: Habibullah Akbar,
- Abstract要約: ATMAは、新しい3チャンネルアテンション機構を統合するハイブリッドな畳み込みアテンションアーキテクチャである。
我々は,100回分級アブレーションスイープを用いてATMAを評価し,Pola + メモリモデルの組み合わせが誘導針-a-haystack検索精度を90%以上維持することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models based on softmax scaled-dot-product attention are constrained by their training sequence length: as the key-value sequence grows, softmax probability mass can dilute across a wider distribution, inducing activation shift and long-context performance collapse. Moreover, long-context language modeling faces a structural tension: a sliding-window attention core maintains a bounded local representation and low perplexity but is blind to long-range dependencies, while full-context attention preserves global recall but suffers from out-of-distribution perplexity explosion. To resolve these limitations, we introduce ATMA, a hybrid convolutional-attention architecture that integrates a novel three-channel attention mechanism. ATMA factorizes the attention mixing step into: (1) a count-blind, unit-vector direction channel, (2) a bounded magnitude channel driven by the participation ratio of effective matches over an extreme-value-corrected null sink, and (3) a long-term recurrent compression memory optimized via a gated-delta fast-weights rule. Neither the Polar Attention core nor the recurrent memory is sufficient alone; their combination enables monotonic perplexity reduction and high-fidelity long-range retrieval simultaneously. We evaluate ATMA using a 100-run factorial ablation sweep, demonstrating that the combined Polar + memory model maintains induction needle-in-a-haystack retrieval accuracy above 90% out to 64K tokens (32 times the training length of 2K) while its document perplexity improves monotonically, outperforming softmax-based memory baselines which collapse at extreme context lengths. Code: https://github.com/kreasof-ai/atma
- Abstract(参考訳): 鍵値列が大きくなるにつれて、ソフトマックス確率質量はより広い分布にわたって希薄になり、アクティベーションシフトと長コンテキスト性能の崩壊を引き起こす。
さらに、長期コンテキスト言語モデリングは、構造的な緊張に直面している。スライディングウィンドウアテンションコアは、局所的な境界表現と低いパープレキシティを維持しているが、長距離依存に盲目であり、フルコンテクストアテンションはグローバルリコールを保存するが、分布外パープレキシティの爆発に悩まされる。
これらの制約を解決するために,新しい3チャンネルアテンション機構を組み込んだハイブリッド畳み込みアテンションアーキテクチャであるATMAを導入する。
ATMAは、(1)カウントブレンド、単位ベクトル方向チャネル、(2)極値補正されたヌルシンク上の有効マッチの参加率によって駆動される境界等級チャネル、(3)ゲートデルタ高速ウェイトルールにより最適化された長期再帰圧縮メモリに注意混合ステップを分解する。
ポラリアテンションコアもリカレントメモリも単独では不十分であり、その組み合わせによって単調なパープレキシティの低減と高忠実な長距離検索が同時に実現される。
我々は,100ランの係数アブレーションスイープを用いてATMAの評価を行い,Polal+メモリモデルが最大で90パーセント以上64Kトークン(2Kのトレーニング長の32倍)のインダクションニードル・イン・ア・ヘイスタック検索精度を維持する一方で,文書の難易度は単調に向上し,極+メモリモデルが極端文脈長で崩壊するソフトマックスベースのメモリベースラインよりも優れていることを示した。
コード:https://github.com/kreasof-ai/atma
関連論文リスト
- Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Adaptive Memory Decay for Log-Linear Attention [1.0099625992507715]
シーケンスモデルは、メモリ容量と計算効率の根本的なトレードオフに直面している。
ログ線形の注意は、Fenwickツリー階層をまたいでメモリを整理することで、このトレードオフをナビゲートする。
我々は、軽量な2層構造を用いて入力から直接学習し、位置よりもコンテンツに適応する、トーケン毎のレベル減衰を生成することを提案する。
論文 参考訳(メタデータ) (2026-05-07T21:05:28Z) - CAWN: Continuous Acoustic Wave Networks for Autoregressive Language Modeling [46.16066322190728]
完全連続配列混合アーキテクチャであるCAWN(Continuous Acoustic Wave Network)を導入する。
CAWNは離散行列ベースの注意を代わりに、多面体複素ドメインファサーに隠された状態を計画している。
超長コンテキスト上での信号劣化を防止するため,デュアルゲート選択位相共振機構を導入する。
論文 参考訳(メタデータ) (2026-04-05T20:13:22Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models [44.28116882776357]
textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
論文 参考訳(メタデータ) (2026-01-06T08:47:16Z) - Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models [8.059385582452112]
FOCUS(Feature-Oriented Compression for Ultra-long Self-attention)は、事前訓練されたDNA LLMに挿入できるプログレッシブ・コンテクスト・圧縮モジュールである。
ホールドアウトヒト染色体では、FOCUSはほぼ無数の忠実性を達成する。
圧縮のないベースラインと比較して、FOCUSはKVキャッシュメモリを削減し、O(N2)からニア線形O(N)への効果的な推論スケーリングを変換する。
論文 参考訳(メタデータ) (2025-11-18T17:29:39Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。