論文の概要: Mixed-Precision Communication-Avoiding SGD for Generalized Linear Models on GPUs
- arxiv url: http://arxiv.org/abs/2606.18463v1
- Date: Tue, 16 Jun 2026 20:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.885275
- Title: Mixed-Precision Communication-Avoiding SGD for Generalized Linear Models on GPUs
- Title(参考訳): GPU上の一般化線形モデルに対する混合精度通信回避SGD
- Authors: Aditya Devarakonda, Irene Simó Muñoz, Giulia Guidi,
- Abstract要約: 分散勾配降下(SGD)は計算よりも通信によって制限される。
通信回避SGD(CA-SGD)は、$s$連続するAllReducesを単一のAllReduceに置き換えることで、$s$反復以上の通信を再生する。
行列ハードウェアと縮小精度のフォーマットを備えた最新のGPUは、Gram GEMMを加速し、BF16トラフィックを縮小することでこれを相殺する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Distributed stochastic gradient descent (SGD) is limited by communication rather than computation, since each iteration requires an AllReduce across processes. Communication-avoiding SGD (CA-SGD) amortizes communication over $s$ iterations by replacing $s$ consecutive AllReduces with a single AllReduce of an $sb\times sb$ Gram matrix, trading more computation and bandwidth for fewer synchronization points. Modern GPUs with matrix hardware and reduced-precision formats offset this by accelerating the Gram GEMM and shrinking BF16 traffic. We study mixed-precision CA-SGD for generalized linear models on NVIDIA GPUs. Our finite-precision analysis decomposes the local rounding error of one CA-SGD outer iteration into nine independent precision choices, depending on the hardware only through its low-precision unit roundoffs, so the resulting recipes transfer in principle across GPU generations. The recipe stores the input matrix and margin vector in low precision, computes the Gram matrix from low-precision inputs with high-precision accumulation, communicates it in high precision, and performs the inner recurrence and weight updates in high precision. On NERSC Perlmutter A100 GPUs, mixed-precision CA-SGD matches FP32 SGD loss within $0.5\%$ on logistic, linear, and Poisson problems and reaches $5.1$--$6.8\times$ speedup over FP32 SGD on epsilon, SUSY, HIGGS, synth, and Poisson-synth. Our software is available at https://doi.org/10.5281/zenodo.20448273
- Abstract(参考訳): 分散確率勾配勾配(SGD)は計算よりも通信によって制限される。
通信回避 SGD (CA-SGD) は、$s$連続するAllReducesを$sb\times sb$gram行列の1つのAllReduceに置き換え、より少ない同期ポイントでより多くの計算と帯域幅を交換することで、$s$反復以上の通信を補正する。
行列ハードウェアと縮小精度のフォーマットを備えた最新のGPUは、Gram GEMMを加速し、BF16トラフィックを縮小することでこれを相殺する。
NVIDIA GPU上での一般化線形モデルに対する混合精度CA-SGDについて検討した。
有限精度解析では、1つのCA-SGD外部繰り返しの局所的な丸め誤差を9つの独立した精度選択に分解する。
本発明のレシピは、入力行列とマージンベクトルを低精度に保存し、高精度な蓄積を伴う低精度入力からグラハム行列を計算し、高精度で通信し、内部の再発と重み更新を高精度に行う。
NERSC Perlmutter A100 GPU では、混合精度 CA-SGD は FP32 SGD の損失を、ロジスティック、リニア、ポアソン問題で0.5$% の範囲でマッチングし、epsilon, SUSY, HIGGS, Synth, Poisson-synth で FP32 SGD よりも5.1$-6.8\times$スピードアップする。
私たちのソフトウェアはhttps://doi.org/10.5281/zenodo.20448273で利用可能です。
関連論文リスト
- Hierarchical Transformer Preconditioning for Interactive Physics Simulation [28.137076331332413]
階層型トランスフォーマープレコンディショナー(Hierarchical Transformer Preconditioner)は、弱い許容率のH行列分割に固定されたニューラルプレコンディショナーである。
ネットワークは低ランクの遠距離因子を通して逆をモデル化する。
高速道路の接続を利用して、奥行きを隔ててコンテキストを伝播する。
論文 参考訳(メタデータ) (2026-05-13T11:02:27Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - ReSplat: Learning Recurrent Gaussian Splats [98.14472247275512]
ReSplatはフィードフォワードリカレントガウシアンスプラッティングモデルであり、明示的に勾配を計算せずに3Dガウシアンを反復的に洗練する。
我々は16倍のサブサンプル空間で動作するコンパクトな再構成モデルを導入し、以前のピクセルごとのガウスモデルよりも16倍のガウスモデルを生成する。
提案手法は,ガウス数を大幅に削減し,レンダリング速度を向上させるとともに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-10-09T17:59:59Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Accelerating SGD for Highly Ill-Conditioned Huge-Scale Online Matrix
Completion [10.65673380743972]
実世界の行列補完は、しばしば大規模な最適化問題である。
SGDは大規模で行列補完を解くことができる数少ないアルゴリズムの1つである。
本稿では,大規模なオンライン最適化のために,SGDの実用的特性をすべて保存した事前条件付きSGDを提案する。
論文 参考訳(メタデータ) (2022-08-24T00:56:52Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。