論文の概要: Gated Bidirectional Linear Attention for Generative Retrieval
- arxiv url: http://arxiv.org/abs/2606.07317v2
- Date: Mon, 08 Jun 2026 08:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.074258
- Title: Gated Bidirectional Linear Attention for Generative Retrieval
- Title(参考訳): 生成検索のための二方向二方向線形アテンション
- Authors: Artem Matveev, Vladislav Tytskiy, Sergei Makeev, Sergei Liamaev,
- Abstract要約: Gated Bidirectional Linear Attention (GBLA) は、カーネル化された線形アテンションを3つの軽量コンポーネントで拡張する線形時間双方向アテンション層である。
GBLAは、FlashAttention-v3と比較して、最大8.2倍の1層スピードアップで32768の履歴を持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recommender systems, generative retrieval typically uses an encoder-decoder setup: an encoder processes a user interaction history, and an autoregressive decoder then generates recommended items. In large-scale streaming services, active users accumulate very long histories over time. As histories grow, the encoder becomes a major latency bottleneck because softmax attention scales quadratically with sequence length. In our experiments, using bidirectional attention in the encoder substantially improves quality. However, most sub-quadratic attention methods focus on causal attention. We propose Gated Bidirectional Linear Attention (GBLA), a linear-time bidirectional attention layer that extends kernelized linear attention with three lightweight components: local causal mixing (Conv1D), sequence-level key gating for soft forgetting, and a gated RMSNorm output. On a large-scale Yandex Music dataset, a hybrid encoder that interleaves self-attention (SA) and GBLA in a 1:2 ratio (one SA block followed by two GBLA blocks) matches bidirectional self-attention quality. On H100 GPUs, GBLA reaches up to an $8.2\times$ single-layer speedup at a history length of 32768, compared to FlashAttention-v3. Finally, we show that the same hybrid design generalizes beyond our proprietary setting, consistently preserving self-attention retrieval quality on public Amazon benchmarks.
- Abstract(参考訳): 推薦システムでは、生成検索は通常、エンコーダとデコーダのセットアップを使用し、エンコーダはユーザーインタラクション履歴を処理し、自動回帰デコーダは推奨アイテムを生成する。
大規模ストリーミングサービスでは、アクティブユーザは時間とともに非常に長い履歴を蓄積します。
歴史が成長するにつれて、エンコーダは、ソフトマックスアテンションがシークエンスの長さと2次にスケールするため、大きな遅延ボトルネックとなる。
実験では,エンコーダにおける双方向の注意による品質向上について検討した。
しかし、ほとんどの準四分法的注意法は因果的注意に焦点を当てている。
本稿では, 局所因果混合(Conv1D), ソフトリフレッシュのためのシーケンシャルレベル鍵ゲーティング, ゲートRMSNorm出力の3つの軽量コンポーネントを用いて, カーネル化された線形注意を拡大する線形時間双方向注意層であるGated Bidirectional Linear Attention (GBLA)を提案する。
大規模なYandex Musicデータセットでは、自己注意(SA)とGBLAを1:2の比率でインターリーブするハイブリッドエンコーダ(SAブロックと2つのGBLAブロック)が双方向の自己注意品質と一致する。
H100 GPUでは、GBLAはFlashAttention-v3と比較して最大8.2\times$32768の1層スピードアップに達する。
最後に、同じハイブリッド設計が我々のプロプライエタリな設定を超えて一般化し、パブリックなAmazonベンチマーク上で常に自己注意検索品質を保っていることを示す。
関連論文リスト
- Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - SinkRouter: Sink-Aware Routing for Efficient Long-Context Decoding in Large Language and Multimodal Models [30.198844053934675]
本研究では,アテンションシンク現象が,トレーニング中に構築された安定かつ到達可能で,誤差制御可能な固定点に対応することを示す。
Sinkは、シンク信号とスキップを検知し、そうでなければニアゼロ出力を生成する訓練不要な選択的ルーティングフレームワークである。
論文 参考訳(メタデータ) (2026-04-18T07:23:22Z) - FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation [86.55349738440087]
FuXi-Linearは、効率的なロングシーケンスレコメンデーションのために設計された線形複雑度モデルである。
提案手法では, 時間的データを用いて周期的注意重みを独立に計算し, 時間的信号と意味的信号のクロストークを防ぐ時間的保持チャネルと, 学習可能なカーネルを介して線形複雑度内で位置情報を統合する線形位置決めチャネルの2つの重要な要素を紹介する。
論文 参考訳(メタデータ) (2026-02-27T04:38:28Z) - Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - Hardware-Efficient Attention for Fast Decoding [13.958883001629644]
Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。
最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文 参考訳(メタデータ) (2025-05-27T17:54:07Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。
我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文 参考訳(メタデータ) (2024-03-07T17:35:58Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。