論文の概要: Long-Context Modeling via GSS-Transformer Hybrid Architecture with Learnable Mixing
- arxiv url: http://arxiv.org/abs/2606.16093v1
- Date: Mon, 15 Jun 2026 01:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.028006
- Title: Long-Context Modeling via GSS-Transformer Hybrid Architecture with Learnable Mixing
- Title(参考訳): 学習可能な混合を伴うGAS-Transformerハイブリッドアーキテクチャによる長期モデリング
- Authors: Kuzey Torlak, Hüseyin Arda Arslan, Anıl Dervişoğlu, Beyza Nur Deniz, Onur Boyar,
- Abstract要約: PHAは、学習可能な混合メカニズムによって融合された独立した並列ブランチとして、Gated State Spaces、Grouped Query Attention、Feed-Forward Networksを実行する。
WikiText-103では、PHAは125Mパラメータで16.51 PPLを獲得し、Hedgehog (16.70) と H3-125M (23.70) を上回っている。
180Mパラメータへのスケーリングでは16.42 PPLが生成される。
- 参考スコア(独自算出の注目度): 2.9360071145551068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling long-range dependencies remains a central challenge in natural language processing. Transformer architectures achieve strong performance via self-attention but scale quadratically ($O(N^2)$) with sequence length, while State Space Models (SSMs) scale linearly ($O(N)$) but suffer from a selective recall bottleneck, struggling to retrieve precise information from compressed states. This creates a fundamental tradeoff between efficiency and perplexity. To tackle these challenges, we propose the \textit{Parallel Hybrid Architecture (PHA)}, which runs Gated State Spaces (GSS), Grouped Query Attention (GQA), and Feed-Forward Networks (FFNs) as independent parallel branches fused by a learnable mixing mechanism. Instead of forcing SSMs to approximate attention or serializing the two paradigms, PHA allows each branch to specialize: GSS captures global context, while attention performs selective retrieval, with FFN providing complementary processing. On WikiText-103, PHA achieves 16.51 PPL at 125M parameters, outperforming Hedgehog (16.70) and H3-125M (23.70). Scaling to 180M parameters yields 16.42 PPL, which gives comparable results with the pure attention baseline while delivering 24\% higher throughput and up to 40\% lower memory usage at long contexts. On OpenWebText, our 125M model achieves 19.72 PPL, outperforming standard Transformers (20.60) and GSS hybrid baselines (19.80). These results demonstrate that separating sequence modeling paradigms into parallel specialists enables Transformer-level perplexity with substantially improved efficiency for long-context language modeling.
- Abstract(参考訳): 長距離依存関係のモデリングは、自然言語処理において依然として中心的な課題である。
トランスフォーマーアーキテクチャは、自己アテンションによって強いパフォーマンスを達成するが、シーケンス長で2次スケール(O(N^2)$)、ステートスペースモデル(SSM)は線形スケール(O(N)$)、しかし、選択的リコールボトルネックに悩まされ、圧縮された状態から正確な情報を取得するのに苦労する。
これにより効率性と難易度の間に根本的なトレードオフが生じます。
これらの課題に対処するため,学習可能な混合機構で融合した独立並列ブランチとして,Ged State Spaces (GSS)、Grouped Query Attention (GQA)、Feed-Forward Networks (FFN) を運用する \textit{Parallel Hybrid Architecture (PHA) を提案する。
GSSはグローバルコンテキストを捉え、注目は選択的検索を行い、FFNは補完的な処理を提供する。
WikiText-103では、PHAは125Mパラメータで16.51 PPLを獲得し、Hedgehog (16.70) と H3-125M (23.70) を上回っている。
180Mパラメータへのスケーリングは16.42 PPLを出力し、これは純粋なアテンションベースラインで同等の結果を与えると同時に、24\%高いスループットと40\%の長いコンテキストでのメモリ使用率を提供する。
OpenWebTextでは、125Mモデルは19.72 PPLを達成し、標準トランスフォーマー(20.60)とGASハイブリッドベースライン(19.80)を上回ります。
これらの結果は、シーケンスモデリングのパラダイムを並列スペシャリストに分離することで、長文言語モデリングの効率を大幅に改善したトランスフォーマーレベルのパープレキシティを実現することを実証している。
関連論文リスト
- Para-B&B: Load-Balanced Deterministic Parallelization of Solving MIP [50.917107318582715]
MIP(Mixed-integer Programming)は、連続型と整数型の両方の決定変数を組み込むことで線形プログラミングを拡張する。
本稿では,高性能MIPソルバであるHiGHSに対して,決定論的並列分岐結合の完全なオープンソース実装を初めて提案する。
本手法では,ワーカスレッド間で完全なソルバ状態を複製することにより,厳密な決定性を保証する新しいデータ並列アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-02-10T14:17:53Z) - Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding [19.42637769220759]
本稿では,Transformer層とSSM層を協調的に統合したハイブリッドアーキテクチャであるTransXSSMを紹介する。
4Kで、TransXSSMは標準のTransformerモデルと比較して、それぞれ42.3%と29.5%のトレーニング速度と推論速度を示す。
この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-06-11T08:26:51Z) - Hunyuan-TurboS: Advancing Large Language Models through Mamba-Transformer Synergy and Adaptive Chain-of-Thought [196.74837065805488]
Hunyuan-TurboSは、Transformer-Mamba Mixture of Expertsの大型ハイブリッドモデルである。
高いパフォーマンスと効率のバランスを保ち、推論コストを低く抑えている。
論文 参考訳(メタデータ) (2025-05-21T12:11:53Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Efficiently Modeling Long Sequences with Structured State Spaces [15.456254157293836]
本稿では,基本状態空間モデルに対する新しいパラメータ化に基づく新しいシーケンスモデルを提案する。
S4は、(i)データ拡張や補助損失を伴わないシーケンシャルCIFAR-10での91%の精度を含む、より大規模な2次元ResNetと同等の、さまざまな確立されたベンチマークで強力な実験結果を得る。
論文 参考訳(メタデータ) (2021-10-31T03:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。