論文の概要: Decentralised AI Training and Inference with BlockTrain
- arxiv url: http://arxiv.org/abs/2606.24722v1
- Date: Tue, 23 Jun 2026 15:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.043804
- Title: Decentralised AI Training and Inference with BlockTrain
- Title(参考訳): BlockTrainによる分散AIトレーニングと推論
- Authors: Peter Toth,
- Abstract要約: Spheroid BlockTrainは、モデルを独立したトレーニング可能なブロックに分割する分散トレーニングプロトコルである。
共有6人のブロックトレーニングランがCE 1.385に到達し、同じブロックの更新を1つの組立モデルに平均化する。
- 参考スコア(独自算出の注目度): 0.29733311661143863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI training is increasingly shaped by access to dense, centrally controlled accelerator clusters. This creates a structural advantage for hyperscalers and large centralized laboratories, and makes open or independent AI efforts depend on scarce capital, privileged infrastructure, and data-center geography. We present Spheroid BlockTrain, a decentralized training protocol in which a model is partitioned into independently trainable blocks, each optimized on a local objective derived from the same global target and composed at inference into one model. On byte-level WikiText, BlockTrain reaches cross entropy 1.359 (perplexity 3.89), within about 0.04 CE of a same-setup end-to-end Transformer reference, while each active worker trains only one block and avoids full-model optimizer state. A shared six-worker block training run reaches CE 1.385 by averaging same-block updates into one assembled model. HTTP/TCP transport experiments move real serialized checkpoints and updates, including a public-IP three-host run that improves CE from 5.580 to 1.811 while moving 15.22 GB. For inference, the current BlockTrain path uses one block-stack traversal per full output and serves over direct TCP across three public-network GPU hosts up to a 75.80B-parameter logical fp16 shape, outperforming a matched plain-autoregressive TCP pipeline baseline because it emits a full sequence per WAN pipeline traversal rather than one token per traversal.
- Abstract(参考訳): フロンティアAIトレーニングは、密集した中央制御されたアクセラレータクラスタへのアクセスによって、ますます形作られています。
これにより、ハイパースケーラや大規模な中央研究所の構造上のアドバンテージが生まれ、資本不足や特権的なインフラストラクチャ、データセンタの地理に依存する、オープンあるいは独立したAIの取り組みが実現される。
本稿では,Spheroid BlockTrainを提案する。Spheroid BlockTrainは,モデルが独立にトレーニング可能なブロックに分割され,それぞれが同一のグローバルターゲットから派生したローカルな対象に最適化され,推論時に1つのモデルに合成される分散トレーニングプロトコルである。
バイトレベルのWikiTextでは、BlockTrainがクロスエントロピー 1.359 (perplexity 3.89)に到達し、同じセットアップのエンドツーエンドのTransformer参照の約0.04 CE内で、各アクティブワーカーは1ブロックのみをトレーニングし、フルモデルオプティマイザ状態を回避する。
共有6人のブロックトレーニングランがCE 1.385に到達し、同じブロックの更新を1つの組立モデルに平均化する。
HTTP/TCPトランスポート実験は、CEを5.580から1.811に改善し、15.22GBを移動しながら、実際のシリアライズされたチェックポイントとアップデートを移動させる。
現在のBlockTrainパスは、完全な出力毎に1つのブロックスタックトラバーサルを使用し、75.80Bパラメータの論理的なfp16形状の3つの公開ネットワークGPUホストをまたいだ直接TCPを提供し、WANパイプライントラバーサル当たりの完全なシーケンスを出力するため、マッチしたプレーンオートレグレッシブなTCPパイプラインベースラインよりも優れている。
関連論文リスト
- Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training [54.43685601795611]
分散環境における通信効率のよいコンテキスト並列化のための圧縮手法を提案する。
我々の重要な洞察は、アクティベーション出力の本質的な低ランク構造を、学習されたサブスペースの混合に動的に拘束することで活用することである。
論文 参考訳(メタデータ) (2026-06-15T08:17:13Z) - GradMAP: Gradient-Based Multi-Agent Proximal Learning for Grid-Edge Flexibility [0.9940728137241214]
GradMAPは、パラメータを共有することなく、各エージェントに対して独立したニューラルネットワークポリシーをトレーニングする。
オフライントレーニング中、GradMAPは3相交流パワーフローモデルをプリマルデュアル学習ループに組み込む。
トレーニングを高速化するため、GradMAPは信頼領域内の近位代理を通して高価な環境勾配を再利用する。
論文 参考訳(メタデータ) (2026-04-27T14:43:02Z) - PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning [62.55836470496192]
PaCoReは、現代の言語モデルの中心的な制限を克服するために設計されたトレーニングと推論のフレームワークである。
PaCoReは、複数のラウンドでメッセージパッシングアーキテクチャを介して調整された巨大な並列探索を通じてTTCを駆動することで、従来のシーケンシャルパラダイムから逸脱する。
大規模で結果に基づく強化学習を備えたエンドツーエンドで訓練されたモデルでは、PaCoReに必要な合成能力を習得し、コンテキスト制限を超えることなく、数百万の効果的なTTCにスケールする。
論文 参考訳(メタデータ) (2026-01-09T07:24:43Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Incentivised Orchestrated Training Architecture (IOTA): A Technical Primer for Release [0.0]
IOTAはSN9のかつて孤立していたライバルを単一の協力ユニットに変換する。
検証者は各採掘者の貢献を測り、トークンの排出量を比例的に割り当てる。
モデルブートネックを用いて、アクティベーションの通信帯域幅を最大128倍に削減する。
論文 参考訳(メタデータ) (2025-07-16T15:16:21Z) - DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster [7.597885871452736]
そこで我々は,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。
パイプライン並列性と、通信とローカルトレーニングのデュアルステップ遅延オーバーラップと、適応的なグラディエント圧縮スキームを組み合わせる。
本研究では,DiLoCoXがモデル収束の無視可能な劣化を維持しつつ,分散トレーニングにおいて357倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2025-06-26T13:45:04Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Heterogeneity-Aware Coordination for Federated Learning via Stitching Pre-trained blocks [5.621750660969172]
フェデレートラーニング(FL)は複数のデバイスをコーディネートして、データのプライバシを保持しながら共有モデルを協調的にトレーニングする。
我々は,事前学習ブロックを用いた不均一なフェデレーション学習のための階層的協調フレームワークであるFedStitchを提案する。
論文 参考訳(メタデータ) (2024-09-11T11:47:50Z) - DiPaCo: Distributed Path Composition [31.686642863608558]
本稿では,機械学習モデルのためのモジュールアーキテクチャとトレーニングアプローチを提案する。
トレーニング中、DiPaCoは共有モジュールのセットを通じてパスで配布する。
推論時には、モデル圧縮を必要とせずに、各入力に対して1つのパスだけを実行する必要がある。
論文 参考訳(メタデータ) (2024-03-15T18:26:51Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。