論文の概要: Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention
- arxiv url: http://arxiv.org/abs/2606.20945v1
- Date: Thu, 18 Jun 2026 21:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.005027
- Title: Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention
- Title(参考訳): Grouped Query Experts: GQAセルフアテンションに関するMixture-of-Experts
- Authors: Vishesh Tripathi, Abhay Kumar,
- Abstract要約: セルフアテンションはトランスフォーマーのパフォーマンスの中心であり、長いコンテキストでトランスフォーマーの最も高価な部分であることが多い。
標準的な集中型注意は、トークンの難易度や情報内容に関わらず、すべてのトークンに同じ注意を向ける。
我々は、グループクエリアテンション(GQA)の上に、エキスパートの混合層であるGrouped Query Experts (GQE)を提案する。
- 参考スコア(独自算出の注目度): 0.8307668828380428
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Self-attention is central to Transformer performance and is often the most expensive part of the Transformer at long context lengths because its pairwise token interactions scale quadratically with sequence length. Standard dense attention also applies the same set of attention heads to every token regardless of token difficulty or information content. This uniform activation can waste compute, especially as sequences grow longer and attention cost increases rapidly. We propose Grouped Query Experts (GQE), a mixture-of-experts layer on top of grouped-query attention (GQA). Within each GQA group, a router selects k query-head experts per token while all key-value (KV) heads remain dense and unchanged. Thus, GQE keeps the KV cache benefits of GQA and reduces only the active query-head computation. On a fixed 30B token budget at the 250M parameter scale, GQE matches the all-active GQA baseline in downstream accuracy while activating half the query heads per token.
- Abstract(参考訳): セルフアテンションはトランスフォーマーのパフォーマンスの中心であり、長いコンテキストでトランスフォーマーの最も高価な部分であることが多い。
また、トークンの難易度や情報内容に関わらず、すべてのトークンに同じ注意を向ける。
この均一な活性化は、特にシーケンスが長くなり、注目コストが急速に増加するにつれて、計算を無駄にする可能性がある。
我々は,グループクエリアテンション(GQA)の上に,エキスパートの混合層であるGrouped Query Experts (GQE)を提案する。
各GQAグループ内では、ルータがトークンごとにk個のクエリヘッドエキスパートを選択し、キー値(KV)のヘッドはすべて密度が高く変化しない。
したがって、GQEはGQAのKVキャッシュの利点を維持し、アクティブなクエリヘッド計算のみを削減する。
250Mパラメータスケールで固定された30Bトークン予算では、GQEは全アクティブなGQAベースラインを下流の精度で一致させ、トークンあたりのクエリヘッドの半分を活性化する。
関連論文リスト
- Route Experts by Sequence, not by Token [58.92918003265283]
Mixture-of-Experts (MoE)アーキテクチャは、トークンごとに専門家のサブセットだけを活性化することによって、大きな言語モデル(LLM)をスケールする。
標準的なTopKルーティングは、すべてのトークンに同じ固定数の専門家を割り当てる。
トークンレベルからシークエンスレベルにシフトする最小限の修正であるシークエンスレベルTopK(SeqTopK)を提案する。
論文 参考訳(メタデータ) (2025-11-09T18:36:07Z) - Causal Attention with Lookahead Keys [52.63961482746826]
標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを導入する。
論文 参考訳(メタデータ) (2025-09-09T00:15:23Z) - CompressKV: Semantic Retrieval Heads Know What Tokens are Not Important Before Generation [7.119276797399788]
キー値(KV)キャッシュサイズの増加は、メモリと実行効率に重大な課題をもたらす。
ほとんどのKVキャッシュ圧縮手法は、GQA (Grouped Query Attention) ベースの LLM において、すべてのアテンションヘッドを用いたトークンの排除に依存している。
我々は階層適応型KVキャッシュ割り当て戦略を導入し、様々なメモリ予算下での最先端のアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-04T13:26:16Z) - Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query [48.52389201779425]
KVキャッシュメモリの使用は、長いテキストシーケンスで大幅に増加する。
プリフィルステージアテンションスコアを用いた既存のKVキャッシュ消去手法Pruneトークン
Lookahead Q-Cacheは、真のデコードステージクエリをよりよく近似するために、低コストの疑似ルックアヘッドクエリを生成する。
論文 参考訳(メタデータ) (2025-05-24T10:34:38Z) - Beyond Uniform Query Distribution: Key-Driven Grouped Query Attention [3.3457276841127315]
トランスフォーマーアーキテクチャは、自己認識機構を通じてディープラーニングに革命をもたらした。
Grouped Query Attention (GQA)は、クエリをグループ化し、対応するキー値ヘッドを平均プールすることでこの問題に対処する。
グループ化の静的な性質から逸脱する2つの新しいアプローチに焦点を当てたGQAの拡張を導入する。
論文 参考訳(メタデータ) (2024-08-15T23:34:04Z) - QCQA: Quality and Capacity-aware grouped Query Attention [5.121164018825873]
キー・アンド・バリュー機能(KV-cache)の過剰なメモリ要件は、大規模言語モデル(LLM)の自動回帰推論において重大な課題をもたらす。
本稿では,QCQA(Quality and Aware Grouped Query Attention)を提案する。
論文 参考訳(メタデータ) (2024-06-08T07:49:55Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - Self-Calibrated Cross Attention Network for Few-Shot Segmentation [65.20559109791756]
我々は、パッチベースの効率的なアテンションのために、自己校正型クロスアテンション(SCCA)ブロックを設計する。
SCCAは、同じクエリイメージからのパッチと、サポートイメージからのアライメントパッチをK&Vとしてグループ化する。
このようにして、クエリBG機能はFGをサポートするBG機能と混同され、前述の問題が軽減される。
論文 参考訳(メタデータ) (2023-08-18T04:41:50Z) - GQA: Training Generalized Multi-Query Transformer Models from Multi-Head
Checkpoints [25.154477500940626]
本稿では,既存のマルチヘッド言語モデルのチェックポイントを MQA モデルにアップトレーニングする手法を提案する。
トレーニングされたGQAはMQAに匹敵する速度でマルチヘッドで品質を向上することを示す。
論文 参考訳(メタデータ) (2023-05-22T17:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。