論文の概要: Clipping Makes Distributed and Federated Asynchronous SGD Robust to Stragglers
- arxiv url: http://arxiv.org/abs/2606.13287v1
- Date: Thu, 11 Jun 2026 12:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.79316
- Title: Clipping Makes Distributed and Federated Asynchronous SGD Robust to Stragglers
- Title(参考訳): Clippingは、分散およびフェデレーションされた非同期SGDロバストをストラグラーに
- Authors: Samuel Erickson, Mikael Johansson,
- Abstract要約: 訓練の並列化は 規模を拡大するための重要な戦略です
一定のステップサイズでASGDの収束は、更新の遅延が大きいため、遅い作業者によって負の影響を受ける。
期待の収束を示し、非同期最適化において初めて、高い確率で収束を示す。
- 参考スコア(独自算出の注目度): 8.286183477962203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern machine learning, parallelization of training is an important strategy for increasing scale. Asynchronous stochastic gradient descent (ASGD), which maximizes the utilization of available hardware by avoiding waiting for slow workers. However, with constant step sizes, the convergence of ASGD is nonetheless affected negatively by slow workers due to large delays in updates. At the same time, it has been empirically observed in asynchronous training of deep learning models that gradient clipping "stabilizes" training. In this work, we provide a theoretical justification for this behavior, as we show that clipping removes the dependence of the maximum delay in the oracle complexity. We employ a sub-Weibull model of gradient noise which generalizes sub-Gaussian and sub-exponential distributions to more heavy-tailed distributions, motivated by empirical observations in deep learning. We show convergence in expectation, and the first time in asynchronous optimization, convergence with high probability.
- Abstract(参考訳): 現代の機械学習では、訓練の並列化は規模を拡大するための重要な戦略である。
非同期確率勾配降下(ASGD)は、遅い作業者を待つことを避けることで、利用可能なハードウェアの利用を最大化する。
しかし、一定のステップサイズでASGDの収束は、更新の遅延が大きいため、遅い作業者によって負の影響を受ける。
同時に、勾配クリッピングが"安定化"する深層学習モデルの非同期トレーニングでも実証的に観察されている。
本研究は, クリッピングがオラクル複雑性の最大遅延依存性を除去することを示すため, この挙動を理論的に正当化するものである。
我々は,より重み付き分布に準指数分布を一般化する勾配雑音のWeibullモデルを用いて,深層学習における経験的観察を動機とした。
期待の収束を示し、非同期最適化において初めて、高い確率で収束を示す。
関連論文リスト
- Mitigating Staleness in Asynchronous Pipeline Parallelism via Basis Rotation [6.710608163117798]
非同期パイプライン並列処理は、同期実行に固有のパイプラインバブルを排除し、ハードウェア利用を最大化する。
この効率向上は勾配安定度によって損なわれ、遅延勾配による即時モデル更新は最適化プロセスにノイズをもたらす。
本稿では,アライメント問題を効果的に緩和し,非同期設定における収束を著しく促進することを示す,ベースローテーションの利用を提案する。
論文 参考訳(メタデータ) (2026-02-03T13:31:51Z) - Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。
具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。
我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文 参考訳(メタデータ) (2025-05-02T08:23:29Z) - Ordered Momentum for Asynchronous SGD [12.810976838406193]
本稿では,ASGDのための運動量(OrMo)と呼ばれる新しい手法を提案する。
OrMo では、運動量は指数に基づいて順に勾配を整理することで ASGD に組み込まれる。
実験結果から,OrMoはASGDに比べてコンバージェンス性能がよいことが示された。
論文 参考訳(メタデータ) (2024-07-27T11:35:19Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - Towards Understanding the Generalizability of Delayed Stochastic Gradient Descent [63.43247232708004]
非同期で実行される勾配降下は、大規模機械学習モデルのトレーニングにおいて重要な役割を果たす。
既存の一般化誤差境界は悲観的であり、非同期遅延と一般化の相関を明らかにすることはできない。
我々の理論的結果は、非同期遅延は遅延SGDアルゴリズムの一般化誤差を低減することを示唆している。
論文 参考訳(メタデータ) (2023-08-18T10:00:27Z) - Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。
非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。
本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文 参考訳(メタデータ) (2020-03-23T23:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。