論文の概要: MiniMax Sparse Attention
- arxiv url: http://arxiv.org/abs/2606.13392v2
- Date: Fri, 12 Jun 2026 09:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.698625
- Title: MiniMax Sparse Attention
- Title(参考訳): MiniMax スパース注意
- Authors: Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou, Pengyu Zhao,
- Abstract要約: MiniMax Sparse Attention (MSA)は、Grouped Query Attention (GQA)上に構築されたブロックワイズスパースアテンションである。
軽量インデックスブランチはキー値ブロックをスコアし、GQAグループ毎にTop-kサブセットを独立に選択する。
メインブランチは、選択されたブロックのみに対して正確なブロックスパースアテンションを実行する。
- 参考スコア(独自算出の注目度): 16.750980846187343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over hundreds of thousands to millions of tokens, yet the quadratic cost of softmax attention makes this untenable at deployment scale. We introduce MiniMax Sparse Attention (MSA), a blockwise sparse attention built upon Grouped Query Attention (GQA). A lightweight Index Branch scores key-value blocks and independently selects a Top-k subset for each GQA group, enabling group-specific sparse retrieval while maintaining efficient block-level execution; the Main Branch then performs exact block-sparse attention over only the selected blocks. Designed around a principle of simplicity and scalability, MSA is deliberately streamlined, making it straightforward to deploy efficiently across a broad range of GPUs. To translate sparsity into practical speedups, we co-design MSA with a GPU execution path that uses exp-free Top-k selection and KV-outer sparse attention to improve tensor-core utilization under block-granular access. On a 109B-parameter model with native multimodal training, MSA performs on par with GQA while reducing per-token attention compute by 28.4x at 1M context. Paired with our co-designed kernel, MSA achieves 14.2x prefill and 7.6x decoding wall-clock speedups on H800. Our inference kernel is available at: https://github.com/MiniMax-AI/MSA. A production-grade natively multimodal model powered by MSA has been publicly released at: https://huggingface.co/MiniMaxAI/MiniMax-M3.
- Abstract(参考訳): エージェントワークフロー、リポジトリスケールのコード推論、永続メモリはすべて、数十万から数百万のトークンを共同で受け入れる必要がある。
我々は、GQA(Grouped Query Attention)上に構築されたブロックワイズスパースアテンションであるMiniMax Sparse Attention(MSA)を紹介する。
軽量インデックスブランチはキー値ブロックをスコアし、GQAグループ毎にTop-kサブセットを独立に選択し、効率的なブロックレベルの実行を維持しながらグループ固有のスパース検索を可能にする。
シンプルさとスケーラビリティの原則に基づいて設計されたMSAは、意図的に合理化されており、幅広いGPUにわたって効率的にデプロイすることができる。
スパーシリティを実用的なスピードアップに変換するために, exp-free Top-k selectionとKV-outer sparse attentionを用いたGPU実行パスを併用して, MSAを設計し, ブロックグラニュラーアクセス時のテンソルコア利用を改善する。
ネイティブなマルチモーダルトレーニングを備えた109Bパラメータモデルでは、MSAはGQAと同等に動作し、1Mコンテキストでの注意計算を28.4倍削減する。
MSAは、我々の設計したカーネルと組み合わせて、H800上で14.2倍のプリフィルと7.6倍のデコード速度を達成する。
私たちの推論カーネルは、https://github.com/MiniMax-AI/MSAで利用可能です。
MSAを使用したプロダクショングレードのネイティブマルチモーダルモデルがhttps://huggingface.co/MiniMaxAI/MiniMax-M3で公開された。
関連論文リスト
- dMoE: dLLMs with Learnable Block Experts [71.572316901001]
単純なブロックレベルのMoEフレームワークであるdMoEを提案する。
また,dMoEは,推論中に一意に活性化される専門家の数を著しく減少させることを示した。
また、メモリ使用量を76.64%から79.84%に減らし、1.14$times$から1.66$times$エンドツーエンドのレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2026-05-29T06:03:50Z) - The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence [161.9185072343856]
MiniMax-M2はMixture-of-Experts言語モデルのファミリーである。
旗艦M2は合計229.9Bのパラメータを持ち、トークン当たりのアクティベートは9.8Bのみである。
論文 参考訳(メタデータ) (2026-05-26T03:16:11Z) - Measuring Maximum Activations in Open Large Language Models [60.3514350516308]
集中度, MoE, 視覚言語, 中間訓練, 命令調整型変異にまたがる8つのオープンファミリーから27個のチェックポイントで, グローバルおよび階層的に最大値を測定した。
最大アクティベーションサイズは、単純なサイズの副産物ではなく、ファミリー、アーキテクチャ、トレーニングステージに結びついているモデル特性である、と結論付けます。
論文 参考訳(メタデータ) (2026-05-15T03:31:51Z) - GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding [5.930949606554186]
Group-Query Latent Attention (GQLA)はMulti-head Latent Attention (MLA)の最小限の変更である
Group-Query Latent Attention (GQLA)はMulti-head Latent Attention (MLA)の最小限の変更である
論文 参考訳(メタデータ) (2026-05-14T15:50:01Z) - BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding [28.11907989174509]
本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
論文 参考訳(メタデータ) (2025-12-12T23:30:43Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Replacing Softmax Similarity with a Sharpened Angular Similarity: Theory and Practice of Scaling To Billion-Context Attention [21.00061869921723]
我々は、Softmax Attentionの代替として、カーネルにインスパイアされたRSE Attentionを紹介する。
RACE アテンションは指数核を改良した角状(コサイン)類似性に置き換える。
制御されたスケールテストでは、NVIDIA GH200 GPU上で1回の前方通過中に最大1200万のトークンを処理する。
論文 参考訳(メタデータ) (2025-10-05T02:57:40Z) - MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention [90.68287470551311]
MiniMax-M1は、オープンウェイトで大規模なハイブリッドアテンション推論モデルである。
コンテクストの長さは100万トークンで、DeepSeek R1のコンテクストサイズは8倍だ。
MiniMax-M1は大規模強化学習を用いて訓練されている。
論文 参考訳(メタデータ) (2025-06-16T15:08:02Z) - MiniMax-01: Scaling Foundation Models with Lightning Attention [59.38940023647236]
MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。
MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。
私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
論文 参考訳(メタデータ) (2025-01-14T18:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。