論文の概要: Unifying Local Communications and Local Updates for LLM Pretraining
- arxiv url: http://arxiv.org/abs/2606.11081v1
- Date: Tue, 09 Jun 2026 16:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.619052
- Title: Unifying Local Communications and Local Updates for LLM Pretraining
- Title(参考訳): LLMプレトレーニングにおけるローカルコミュニケーションの統合とローカルアップデート
- Authors: Pietro Cagnasso, Eugene Belilovsky, Edouard Oyallon,
- Abstract要約: LLMの通信効率のよい事前学習は、クラスタに分散した計算にトレーニングの引き金がかかっているため、ますます重要になっている。
本稿では,コミュニケーションアクセラレーションの概念を一般化し,実践的なゴシップベースのトレーニングフレームワークであるGASLoCを紹介する。
我々は,GASLoCが複数のトポロジに対して,通信単位の単一ステップで最先端の分散アルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 22.321729036377846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication-efficient pre-training of LLMs is increasingly important as training draws on compute distributed across clusters, data centers, and lower-bandwidth links. Many practical methods reduce communication frequency but still rely on synchronous All-Reduce operations that maintain identical model states and tie progress to global collectives. This can become a bottleneck when bandwidth or worker speed is heterogeneous. We introduce GASLoC, a novel decentralized pre-training algorithm that generalizes the notion of communication acceleration to the recently popular "outer optimizer" to allow a practical gossip-based training framework that is compatible with adaptive optimizers, allows for local optimizer steps, and can utilize sparse randomized peer communication. Empirically, on a number of standard LLM training tasks, we demonstrate that GASLoC outperforms state-of-the-art decentralized algorithms in single step per communication setting for a number of topologies and, unlike existing decentralized methods in the LLM setting, it allows to obtain performance competitive with DiLoCo when utilizing multiple local steps. In the heterogeneous bandwidth setting we demonstrate the advantage of GASLoC showing that it can significantly outperform DiLoCo.
- Abstract(参考訳): LLMの通信効率の高い事前トレーニングは、クラスタ、データセンター、低バンド幅リンクに分散した計算をトレーニングする上でますます重要である。
多くの実用的な手法は通信周波数を減少させるが、同じモデル状態を維持し、グローバルな集合に進行を結びつける同期のAll-Reduce演算に依存している。
これは帯域幅やワーカの速度が不均一である場合にボトルネックになる可能性がある。
本稿では,適応型オプティマイザと互換性のある実践的なゴシップベースのトレーニングフレームワークを実現するために,通信アクセラレーションの概念を最近普及した「アウターオプティマイザ」に一般化する新しい分散事前学習アルゴリズムであるGASLoCを紹介する。
実験では,複数の標準LLMトレーニングタスクにおいて,GASLoCが複数のトポロジの通信設定毎の1ステップ当たりの最先端の分散化アルゴリズムよりも優れており,複数のローカルステップを利用する場合,従来の分散化手法と異なり,DiLoCoと競合する性能が得られることを示した。
ヘテロジニアス帯域幅設定では、GASLoCの利点がDiLoCoを著しく上回ることを示す。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Communication Efficient LLM Pre-training with SparseLoCo [13.326450941764099]
我々は,Large Language Models(LLMs)のための通信効率のよい学習アルゴリズムであるSparseLoCoを紹介する。
SparseLoCoは、Top-kスペーシフィケーションと2ビット量子化によるエラーフィードバックを効果的に活用して、極端なスペーシリティを1-3%まで低くする。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
論文 参考訳(メタデータ) (2025-08-21T16:48:19Z) - ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [22.940404796500985]
分散学習LLMのためのメモリ効率最適化アルゴリズムを提案する。
新しい処理を計算しながら遅延勾配を同期することにより、ACCOはGPUアイドル時間を短縮し、異種ハードウェアをサポートする。
ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [52.13056951033747]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
FLにおける重要なボトルネックは通信コストです。
我々の研究は、FLにおける通信複雑性の低減を推進した革新的なScaffnewアルゴリズムにインスパイアされている。
我々はFedComLocを導入し、実用的で効果的な圧縮をScaffnewに統合し、通信効率をさらに高める。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - DiLoCo: Distributed Low-Communication Training of Language Models [32.15083548875492]
大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。
LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。
本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
論文 参考訳(メタデータ) (2023-11-14T12:05:45Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。