論文の概要: FlashCP: Load-Balanced Communication-Efficient Context Parallelism for LLM Training
- arxiv url: http://arxiv.org/abs/2606.08476v1
- Date: Sun, 07 Jun 2026 06:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.131359
- Title: FlashCP: Load-Balanced Communication-Efficient Context Parallelism for LLM Training
- Title(参考訳): FlashCP:LLMトレーニングのためのロードバランシング通信効率の良いコンテキスト並列処理
- Authors: Zheng Wang, Eric Liu, Linan Jiang, Zhongkai Yu, Zaifeng Pan, Yue Guan, Yuke Wang, Yufei Ding,
- Abstract要約: コンテキスト並列性は、大規模で長いコンテキスト言語モデルのトレーニングに不可欠である。
既存のCPメソッドは、ワークロードの不均衡、非効率なカーネル、冗長な通信に悩まされている。
本稿では,負荷バランスと通信効率を両立させるフレームワークであるFlashCPについて述べる。
- 参考スコア(独自算出の注目度): 11.152759887356014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context parallelism (CP) is essential for training large-scale, long-context language models, as it partitions sequences to reduce memory overhead. However, existing CP methods suffer from workload imbalance, inefficient kernels, and redundant communication due to static sequence sharding and key-value (KV) tensor communication. We present FlashCP, a load-balanced and communication-efficient framework for CP training. FlashCP introduces a sharding-aware communication mechanism to eliminate redundant KV communication and proposes a novel Whole-Doc sharding strategy that maximizes communication savings while maintaining balanced workloads. To efficiently combine Whole-Doc and Per-Doc sharding, FlashCP further designs a heuristic algorithm to search for near-optimal sharding plans. Extensive experiments show that FlashCP achieves up to 1.63x speedup over state-of-the-art CP frameworks across diverse datasets.
- Abstract(参考訳): コンテキスト並列性(CP)は、メモリオーバーヘッドを減らすためにシーケンスを分割するため、大規模で長いコンテキスト言語モデルのトレーニングに不可欠である。
しかし、既存のCP手法は、静的シークエンスシャーディングとキー値テンソル通信による負荷不均衡、非効率カーネル、冗長な通信に悩まされている。
本稿では,負荷バランスと通信効率を両立させるフレームワークであるFlashCPについて述べる。
FlashCPは冗長なKV通信を排除するためのシャーディング対応通信機構を導入し、バランスの取れたワークロードを維持しながら通信の節約を最大化する新しいWhole-Docシャーディング戦略を提案する。
Whole-Doc と Per-Doc シャーディングを効率的に組み合わせるために、FlashCP はさらに、最適に近いシャーディング計画を探すためのヒューリスティックアルゴリズムを設計した。
大規模な実験により、FlashCPはさまざまなデータセットにわたる最先端のCPフレームワークよりも最大1.63倍のスピードアップを実現している。
関連論文リスト
- ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training [21.144281084668346]
コミュニケーションは、大規模な言語モデルの分散トレーニングにおいて、重要なボトルネックとして現れてきた。
本稿では,学習用集合体の圧縮通信ライブラリZipCCLを紹介する。
ZipCCLは通信時間を最大1.35$times$に短縮し、エンドツーエンドのトレーニング速度を最大1.18$times$に向上する。
論文 参考訳(メタデータ) (2026-04-30T13:29:59Z) - Decoupled DiLoCo for Resilient Distributed Pre-training [19.201912399584813]
ロックステップ同期障壁を壊すように設計されたDiLoCoフレームワークの進化であるDecoupled DiLoCoを紹介した。
我々は,グローバルダウンタイムを厳格にゼロとした数百万のシミュレートされたチップを用いて,障害発生環境におけるトレーニング効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-23T08:45:38Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - DiffCP: Ultra-Low Bit Collaborative Perception via Diffusion Model [44.23276350463173]
コラボレーティブ・インテリジェンス(CP)は、スタンドアローン・インテリジェンスの本質的な限界に対する有望な解決策として浮上している。
DiffCPは、特殊な拡散モデルを用いて協調者の知覚情報を効率的に圧縮する新しいCPパラダイムである。
DiffCPは,最先端のアルゴリズムと同じ性能を維持しつつ,通信コストを14.5倍に削減できることを示す。
論文 参考訳(メタデータ) (2024-09-29T07:19:54Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [52.13056951033747]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
FLにおける重要なボトルネックは通信コストです。
我々の研究は、FLにおける通信複雑性の低減を推進した革新的なScaffnewアルゴリズムにインスパイアされている。
我々はFedComLocを導入し、実用的で効果的な圧縮をScaffnewに統合し、通信効率をさらに高める。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。