論文の概要: On Subquadratic Architectures: From Applications to Principles
- arxiv url: http://arxiv.org/abs/2606.12364v1
- Date: Wed, 10 Jun 2026 17:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.594548
- Title: On Subquadratic Architectures: From Applications to Principles
- Title(参考訳): サブクワッドラティックアーキテクチャについて:応用から原則へ
- Authors: Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter,
- Abstract要約: サブクワッドラティックアーキテクチャは、Transformerに代わるスケーラブルな代替手段を提供する。
xLSTM、Mamba-2、Gated DeltaNetの3つの主要なアプローチを比較した。
以上の結果から, 複雑なタスクにおけるxLSTMの利得は, 堅牢な状態追跡と蓄積に起因することが示唆された。
- 参考スコア(独自算出の注目度): 22.49059700270806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers dominate modern sequence modeling, but their quadratic attention incurs substantial computational cost. Subquadratic architectures offer a scalable alternative. However, it remains unclear which designs yield the most effective sequence models. We compare three leading approaches: xLSTM, Mamba-2, and Gated DeltaNet. We evaluate these models on tasks with complex dependencies: (1) code-model pre-training, (2) distillation of code models from large language models, and (3) pre-training of time-series foundation models. Across these settings, xLSTM delivers the strongest overall performance. To explain xLSTM's advantage, we present a unified formulation and analyze the underlying architectural mechanisms, focusing on state tracking and memory dynamics. Our results show that xLSTM enables more flexible and stable memory correction via its gating scheme. We corroborate these findings on controlled synthetic length-generalization tasks. Overall, our findings indicate that xLSTM's gains on complex tasks stem from robust state tracking and accumulation.
- Abstract(参考訳): トランスフォーマーは現代のシーケンスモデリングを支配しているが、その二次的な注意は計算コストを大幅に上回っている。
サブクワッドラティックアーキテクチャはスケーラブルな代替手段を提供する。
しかし、どの設計が最も効果的なシーケンスモデルを生成するかは定かではない。
xLSTM、Mamba-2、Gated DeltaNetの3つの主要なアプローチを比較した。
1)コードモデル事前学習,(2)大規模言語モデルからのコードモデルの蒸留,(3)時系列基礎モデルの事前学習。
これらの設定全体で、xLSTMは全体的なパフォーマンスが最も高い。
xLSTMの利点を説明するために、我々は統一的な定式化と基礎となるアーキテクチャメカニズムの解析を行い、状態追跡とメモリダイナミクスに焦点を当てた。
その結果、xLSTMはゲーティング方式により、より柔軟で安定したメモリ修正を可能にすることがわかった。
制御された合成長一般化タスクについて,これらの知見を裏付ける。
以上の結果から, 複雑なタスクにおけるxLSTMの利得は, 堅牢な状態追跡と蓄積に起因することが示唆された。
関連論文リスト
- Sketch2Simulation: Automating Flowsheet Generation via Multi Agent Large Language Models [0.0]
プロセススケッチを実行可能なシミュレーションモデルに変換することは、プロセスシステム工学において依然として大きなボトルネックとなっている。
生成AIの最近の進歩は、エンジニアリングダイアグラムの解釈とフローシートの生成の両方を改善してきたが、これらはほとんど接続されていない。
本稿では,プロセス図を直接実行可能なAspen HYSYSフローシートに変換する,エンドツーエンドのマルチエージェント大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2026-03-25T03:36:46Z) - xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity [22.40851170527]
スケーリング法則は、大規模言語モデルの成功において中心的な役割を果たす。
xLSTMのような最近の選択肢は、コンテキスト長に関する線形複雑性を提供する。
xLSTMの利点は、トレーニングと推論のコンテキストが大きくなるにつれて拡大します。
論文 参考訳(メタデータ) (2025-10-02T17:14:34Z) - A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning [57.727084580884075]
モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:27:03Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - StoxLSTM: A Stochastic Extended Long Short-Term Memory Network for Time Series Forecasting [20.120876019697445]
拡張長短期記憶(exended Long Short-Term Memory, xLSTM)ネットワークは、様々な時系列アプリケーションにおいて複雑な時間的依存関係をモデル化する能力の強化により、広く研究の関心を集めている。
我々はxLSTMと呼ばれるxLSTMを提案し、xLSTM内に潜伏変数を組み込むことで、元のアーキテクチャを状態空間モデリングフレームワークに改良する。
複数の研究コミュニティから公開されているベンチマークデータセットの実験では、StoxLSTMは、より堅牢でより強力な一般化能力を備えた最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-01T07:11:05Z) - xLSTMAD: A Powerful xLSTM-based Method for Anomaly Detection [0.794682109939797]
フルエンコーダ・デコーダxLSTMアーキテクチャを統合した最初の異常検出手法であるxLSTMADを提案する。
実世界の17のデータセットにまたがる包括的TSB-AD-Mベンチマークを用いて,本手法の評価を行った。
以上の結果から、xLSTMは最先端の精度を示し、23の異常検出基準を上回りました。
論文 参考訳(メタデータ) (2025-06-28T10:39:09Z) - A Deep Learning Framework for Sequence Mining with Bidirectional LSTM and Multi-Scale Attention [11.999319439383918]
本稿では、複雑なシーケンスデータにおける潜在パターンのマイニングとコンテキスト依存のモデル化の課題に対処する。
Bidirectional Long Short-Term Memory (BiLSTM) とマルチスケールアテンション機構を組み合わせたシーケンスパターンマイニングアルゴリズムを提案する。
BiLSTMはシーケンスの前方および後方の依存関係をキャプチャし、グローバルなコンテキスト構造を知覚するモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-21T16:53:02Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。