Fugu-MT 論文翻訳(概要): FlowTrain: Flow-Based Decoupled Training for Industrial-Grade Vision-Language Models

論文の概要: FlowTrain: Flow-Based Decoupled Training for Industrial-Grade Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.23087v1
Date: Mon, 22 Jun 2026 09:33:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 21:20:19.273881
Title: FlowTrain: Flow-Based Decoupled Training for Industrial-Grade Vision-Language Models
Title（参考訳）: FlowTrain: インダストリアルグレードビジョンランゲージモデルのためのフローベースデカップリングトレーニング
Authors: Zhida Jiang, Zhaolong Xing, Yang Pei, Xiaolong Chen, Yuanhang Xiao, Chengzhi Huang, Xiyu Liu, Haopeng Liu, Qingyuan Sang, Lingfeng Zhou, Jiaxing Wang, Zicheng Zhang, Wenzhe Wang, Xinyu Liu, Yan Li, Zhen Chen, Ke Zhang,
Abstract要約: FlowTrainは、視覚言語計算モデルのためのフローベースの分離されたトレーニングフレームワークである。 VLMトレーニングを、統一メモリプールを介して調整されたプロデューサとコンシューマのデータフローとして再構成する。実世界のワークロードの実験では、FlowTrainは50%MFU以上、最大1.7倍のスループット改善を実現している。
参考スコア（独自算出の注目度）: 31.501910341506164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Industrial-grade distributed training of vision-language models (VLMs) remains far less efficient than that of unimodal LLMs. Existing solutions either follow a monolithic design that assigns uniform parallelism to heterogeneous modules or adopt a disaggregated deployment that separates modules while executing them as a batch-synchronized pipeline. In this paper, we highlight that the above solutions are still not sufficient, and VLM training can be further decoupled. To this end, we present FlowTrain, a flow-based decoupled training framework that reformulates VLM training as a producer-consumer dataflow coordinated through a unified memory pool. The encoder and backbone can progress independently over a global virtual address space. Since this execution decoupling fundamentally changes the optimization objective of allocation and scheduling, FlowTrain further introduces a heterogeneous parallel allocator that assigns module-specific parallelism strategies by solving a throughput matching problem. The dynamic packing scheduler is used to construct balanced microbatches at runtime according to the actual LLM-side computation cost. Extensive experiments on real-world workloads show that FlowTrain achieves over 50% MFU and up to 1.7x throughput improvement, narrowing the efficiency gap to LLM-only training.
Abstract（参考訳）: 産業レベルの視覚言語モデル(VLM)の分散訓練は、単調なLLMよりもはるかに効率的である。既存のソリューションは、均一な並列性を異種モジュールに割り当てるモノリシックな設計に従うか、モジュールをバッチ同期パイプラインとして実行しながら分離する分離配置を採用するかのいずれかである。本稿では、上記のソリューションがまだ不十分であり、VLMトレーニングをさらに切り離すことができることを強調する。この目的のために、フローベースの非結合型トレーニングフレームワークであるFlowTrainを紹介し、統一メモリプールを介して調整された生産者/消費者データフローとしてのVLMトレーニングを再構成する。エンコーダとバックボーンは、グローバルな仮想アドレス空間上で独立して進行することができる。この実行分離は、アロケーションとスケジューリングの最適化目標を根本的に変えるため、FlowTrainはさらに、スループットマッチング問題を解決することでモジュール固有の並列化戦略を割り当てる異種並列アロケータを導入している。動的パッキングスケジューラは、実際のLCM側の計算コストに応じて、実行時にバランスの取れたマイクロバッチを構築するために使用される。実世界のワークロードに関する大規模な実験によると、FlowTrainは50%以上のMFUを達成し、最大1.7倍のスループット向上を実現している。

関連論文リスト

FLARE: Diffusion for Hybrid Language Model [72.60770374799634]
FLAREは、ハイブリッドアテンションな大規模言語モデルのための体系的な変換フレームワークである。トークン平等なAR/拡散目標、ハードウェア対応カーネル、統一推論を組み合わせることで、ひとつのチェックポイントがARスタイルの検証された復号化と拡散スタイルの並列復号化の両方をサポートすることができる。この結果から,実際のdLLMは復号化アルゴリズムだけでなく,データ品質や現在のブロック拡散目標のトレーニング非効率によって制限されていることが示唆された。
論文参考訳（メタデータ） (2026-06-01T06:58:15Z)
Rollout-Training Co-Design for Efficient LLM-Based Multi-Agent Reinforcement Learning [21.32826098306222]
既存のトレーニングフレームワークは、マルチエージェント強化学習におけるユニークなシステムレベルの課題に対処できない。私たちはFlexMARLを提案します。FlexMARLは、ロールアウト、トレーニング、およびそれらのオーケストレーションを均等に最適化する最初のエンドツーエンドのトレーニングフレームワークです。 FlexMARLは、既存のフレームワークと比較して最大7.3倍のスピードアップを実現し、ハードウェア利用率を最大5.6倍改善することを示す。
論文参考訳（メタデータ） (2026-02-10T09:27:03Z)
DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving [9.719456684859606]
本稿では,VLAモデルであるWAM-Flowを紹介し,Ego-trajectory Planningをトークン空間上の離散フローマッチングとして利用する。 WAM-Flowは完全に並列で双方向のデノゲーションを実行し、調整可能な計算精度トレードオフによる粗い微細化を可能にする。これらの結果は、エンド・ツー・エンド・エンドの自律運転に期待できる新しいパラダイムとして離散フローマッチングが確立される。
論文参考訳（メタデータ） (2025-12-05T19:36:46Z)
AdaPtis: Reducing Pipeline Bubbles with Adaptive Pipeline Parallelism on Heterogeneous Models [59.7059443712562]
AdaPtisは、適応パイプライン並列性をサポートする大規模言語モデル(LLM)のトレーニングシステムである。大規模な実験により、AdaPtisはMegatron-LM I-1F1Bよりも平均1.42倍(最大2.14倍)のスピードアップを達成した。
論文参考訳（メタデータ） (2025-09-28T08:05:13Z)
CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。 CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文参考訳（メタデータ） (2025-09-24T07:54:01Z)
Adaptive Policy Synchronization for Scalable Reinforcement Learning [0.0]
ClusterEnvは、分散環境実行のための軽量インターフェースである。オンプレミスとオフラインの両方をサポートし、最小限の変更で既存のトレーニングコードに統合され、クラスタ上で効率的に実行される。
論文参考訳（メタデータ） (2025-07-15T05:07:12Z)
AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。