論文の概要: Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering
- arxiv url: http://arxiv.org/abs/2606.10896v1
- Date: Tue, 09 Jun 2026 14:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.539862
- Title: Flash-GMM: A Memory-Efficient Kernel for Scalable Soft Clustering
- Title(参考訳): Flash-GMM: スケーラブルなソフトクラスタリングのためのメモリ効率の良いカーネル
- Authors: Gal Bloch, Ariel Gera, Matan Orbach, Ohad Eytan, Assaf Toledo,
- Abstract要約: Flash-GMM は、既存の実装に対する textbf20$times$ Speedup を達成する。
ソフトなGMMクラスタリングが現在,$k$-meansの代替として実現可能であることを示す。
- 参考スコア(独自算出の注目度): 3.845089876398699
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present \textbf{Flash-GMM}, a fused Triton kernel for efficient computation of Gaussian Mixture Models (GMMs) over large-scale data in a single GPU pass. By eliminating the need to materialize the full responsibility matrix in GPU memory, Flash-GMM achieves a \textbf{20$\times$} speedup over existing implementations and enables training on datasets more than \textbf{100$\times$} larger than previously feasible on one device. To demonstrate its impact, we integrate Flash-GMM into the IVF coarse quantizer for approximate nearest-neighbor (ANN) search. We show that soft GMM clustering is now a viable drop-in replacement for $k$-means, and that GMM responsibilities can be leveraged to assign border vectors to multiple clusters. Our approach reaches fixed recall targets with up to $1.7\times$ fewer distance computations, or equivalently, yields $+2$--$12$ recall@10 at matched computational cost. We release the kernel as an open-source project.
- Abstract(参考訳): 本稿では,ガウス混合モデル(GMM)を1つのGPUパスで大規模データ上で効率的に計算するための,融合トリトンカーネルである‘textbf{Flash-GMM} を提案する。
GPUメモリの完全な責任行列を具体化する必要をなくすことで、Flash-GMMは既存の実装に対する \textbf{20$\times$} のスピードアップを実現し、これまであるデバイスで実現可能だったより大きい \textbf{100$\times$} 以上のデータセットでのトレーニングを可能にする。
また,Flash-GMMをIVF粗い量子化器に統合し,近接近傍探索(ANN)について検討した。
ソフトなGMMクラスタリングは、現在、$k$-meansの代替として実行可能なものであり、GMMの責務を利用して複数のクラスタに境界ベクトルを割り当てることができることを示す。
我々の手法は、最大1.7\times$より少ない距離計算で固定されたリコール目標に達するか、あるいは同等の計算コストで$2$-12$リコール@10を得る。
カーネルをオープンソースプロジェクトとしてリリースしています。
関連論文リスト
- On Efficient Scaling of GNNs via IO-Aware Layers Implementations [1.0262304700896199]
グラフニューラルネットワーク(GNN)は不規則なメモリアクセスによってボトルネックとなる。
広く使われているレイヤは、SpMMベースの畳み込み、還元ベースのアグリゲーション、注意ベースの3つのカーネルファミリーに分類される。
各ファミリーは、データ移動を減らし、局所性を向上し、現実的なグラフをまたいで堅牢なカーネルを開発する。
論文 参考訳(メタデータ) (2026-05-29T16:22:45Z) - Stochastic Sparse Attention for Memory-Bound Inference [19.301894658575502]
SANTA(Additive No-mult Attention)は,ソフトマックス後の分布から$S ll n_k$インデックスをサンプリングすることで,値キャッシュアクセスを分散する手法である。
また、スコアステージをスパース化するための補完手法としてBernoulli $qKmathsfT$サンプリングを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:44:14Z) - FlashSampling: Fast and Memory-Efficient Exact Sampling [62.5203057469482]
FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
論文 参考訳(メタデータ) (2026-03-16T19:37:08Z) - SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations [54.303301888915406]
混合エキスパートモデル(MoE)は、計算コストを大幅に増加させることなく、言語モデルをスケールアップするためのデファクトアーキテクチャとして登場した。
最小のアクティベーションキャッシングでMoEの前後パスを計算するメモリ効率のアルゴリズムを提案する。
また,グループ化されたGEMMカーネルのパディングによる無駄計算を最小限に抑える新しい「トークンラウンドリング」手法を提案する。
論文 参考訳(メタデータ) (2025-12-16T04:39:10Z) - FlashMoE: Fast Distributed MoE in a Single Kernel [1.866526462692252]
FlashMoEは、専門家の計算とGPU間通信を単一の永続GPUカーネルに融合する、完全にGPU対応のMoE演算子である。
我々は、FlashMoEがGPU利用率を最大9倍、レイテンシを6倍、スループットを5.7倍、オーバーラップ効率を最先端のベースラインに比べて4倍向上することを示した。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - Sublinear Variational Optimization of Gaussian Mixture Models with Millions to Billions of Parameters [5.429282997550318]
約1億の画像に対して100億以上のパラメータを持つGMMをトレーニングし、1つの最先端CPU上で約9時間のトレーニング時間を観察する。
提案アルゴリズムは,繰り返し毎のランタイムの複雑性を$mathcalO(NCD2)$から$D$で線形にスケーリングし,定数w.r.tを継続する複雑性に著しく低減する。
概念実証として、約1億の画像に対して100億以上のパラメータを持つGMMをトレーニングし、1つの最先端CPU上で約9時間のトレーニング時間を観察する。
論文 参考訳(メタデータ) (2025-01-21T17:11:25Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Giga-scale Kernel Matrix Vector Multiplication on GPU [19.663081364196778]
Kernel matrix-vector multiplication (KMVM) は、機械学習と科学計算の基礎となる演算である。
KMVMはメモリと時間の両方で二次的にスケールする傾向があるため、アプリケーションはしばしばこれらの計算制約によって制限される。
本稿では,これらのスケーリング問題に対処するため,textitFaster-Fast and Free Memory Method(f30,000m$)という新しい近似手法を提案する。
論文 参考訳(メタデータ) (2022-02-02T15:28:15Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。