論文の概要: Piper: A Programmable Distributed Training System
- arxiv url: http://arxiv.org/abs/2606.11169v1
- Date: Tue, 09 Jun 2026 17:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.656638
- Title: Piper: A Programmable Distributed Training System
- Title(参考訳): Piper: プログラム可能な分散トレーニングシステム
- Authors: Megan Frisella, Shubham Tiwari, Andy Ruan, Yi Pan, Parker Gustafson, Mat Jacob, Gilbert Bernstein, Stephanie Wang,
- Abstract要約: 実行時実装から戦略を分離する,ユーザ制御可能な分散トレーニングシステムであるPiperを紹介する。
本稿では,ZeROのような一般的な戦略において,統合されたシステムでは性能が同等であることを示す。
- 参考スコア(独自算出の注目度): 7.183434086052732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale model training increasingly relies on composing multiple parallelism strategies, such as data, pipeline, and expert parallelism, together with memory-saving optimizations like ZeRO. Deployed systems for foundation model pretraining often rely on human experts to manually design a high-level parallelism strategy then implement the corresponding low-level execution strategy, making it difficult to adapt the system to new strategies. Meanwhile, many general-purpose frameworks are more flexible but their implementations are still tied to a fixed set of common parallelism strategies, making it challenging to integrate state-of-the-art strategies. We present Piper, a user-controllable distributed training system that decouples the strategy from the runtime implementation. Piper allows users to declare a comprehensive distributed training strategy with a small set of model annotations and scheduling directives. Each directive applies a transformation on Piper's intermediate representation (IR), a unified global training DAG that represents all computation and communication. Using this IR, Piper compiles per-device execution plans and executes them with a distributed runtime agnostic to the strategy. We show that the combined system maintains performance parity on commonly available strategies such as ZeRO, while also enabling additional performance and memory efficiency gains through joint scheduling of compute and communication in composed parallelism strategies such as DeepSeek-V3's DualPipe.
- Abstract(参考訳): 大規模なモデルトレーニングは、ZeROのようなメモリ節約最適化とともに、データやパイプライン、専門家の並列処理といった複数の並列処理戦略の構築にますます依存しています。
基礎モデルの事前訓練のためのデプロイシステムは、しばしば人間の専門家に頼って、高レベルの並列化戦略を手動で設計し、それに対応する低レベルの実行戦略を実装し、新しい戦略にシステムを適応させることが困難になる。
一方、多くの汎用フレームワークはより柔軟だが、それらの実装は依然として固定化された並列化戦略に結びついているので、最先端の戦略を統合することは困難である。
実行時実装から戦略を分離する,ユーザ制御可能な分散トレーニングシステムであるPiperを紹介する。
Piperでは、モデルアノテーションとスケジューリングディレクティブの小さなセットで、総合的な分散トレーニング戦略を宣言することができる。
各命令は、全ての計算と通信を表す統一されたグローバルトレーニングDAGであるPiperの中間表現(IR)に変換を適用する。
このIRを使用して、Piperはデバイス毎の実行計画をコンパイルし、戦略に依存しない分散ランタイムで実行する。
本稿では,ZeRO などの一般的な戦略と同等性能を維持しつつ,DeepSeek-V3 の DualPipe などの並列処理戦略における計算と通信の協調スケジューリングにより,さらなる性能向上とメモリ効率向上を実現していることを示す。
関連論文リスト
- Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism [1.0130502379786543]
HPCプラットフォーム上でのMoEモデルのトレーニングは、大きなメモリフットプリント、異種ネットワーク間の大規模通信の頻繁な増加、厳しいワークロードの不均衡によって妨げられている。
我々は,様々な並列化スキームの下で,MoE構成のメモリ,計算,通信要求を定量化する数学的モデルを開発した。
我々は、リソースモデリングを活用して、ターゲットHPCプラットフォーム上でのMoEモデルの効率的なトレーニング戦略を特定するフレームワークであるPiperを紹介する。
論文 参考訳(メタデータ) (2026-05-06T15:47:14Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。
これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。
制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文 参考訳(メタデータ) (2025-12-10T07:30:13Z) - Experience-Guided Adaptation of Inference-Time Reasoning Strategies [49.954515048847874]
Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。
EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
論文 参考訳(メタデータ) (2025-11-14T17:45:28Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Automap: Towards Ergonomic Automated Parallelism for ML Models [2.469997094590327]
本稿では,既存のコンパイラと既存ユーザをシームレスに統合する自動パーティショナのプロトタイプを提案する。
我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。
帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。
論文 参考訳(メタデータ) (2021-12-06T12:09:38Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。