論文の概要: Online Dynamic Batching with Formal Guarantees for LLM Training
- arxiv url: http://arxiv.org/abs/2606.19989v1
- Date: Thu, 18 Jun 2026 09:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.765207
- Title: Online Dynamic Batching with Formal Guarantees for LLM Training
- Title(参考訳): LLMトレーニングのための形式的保証付きオンライン動的バッチ
- Authors: Dian Li, Zekun Wang, Yaoru Wang, Jiahong Yan,
- Abstract要約: Online Dynamic Load (ODB)は、バッチ生成をDDPステップアライメントを維持しながら、この正確な可観測性ポイントに移行する。
ODBは、細調整のためのオンライン/ドロップインのレギュレーションを占有している。Standard-comparable Qualityでの大きなスループット向上、公式なDGAP保証、長さキャッシュ前またはカーネルの書き直しがない。
- 参考スコア(独自算出の注目度): 8.212620761644663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLM training breaks a core assumption behind offline batch samplers: the true training cost of a sample is only observable after preprocessing, augmentation, templating, tokenization, and multimodal visual-token expansion. Unless one pays for a preprocessing- and augmentation-dependent length cache, batch construction is therefore blind to the quantity that determines padding, memory use, and GPU saturation. We introduce Online Dynamic Batching (ODB), a DataLoader-side drop-in system that moves batch formation to this point of accurate observability while preserving DDP step alignment. We formalize this synchronization requirement as the Distributed Group Alignment Problem and prove deadlock-free bounded termination with default join-mode identity coverage and opt-in non-join sample-quota closure. ODB requires no model, optimizer, or attention-kernel changes and is released as online-dynamic-batching with lightweight trainer adapters. Across public 2B/8B Qwen3-VL runs on UltraChat/LLaVA/ShareGPT4o, ODB improves literal emitted-sample throughput vs. fixed-batch Standard by 1.58-2.51x on single-node Full FT/LoRA and 1.71-3.78x on two-node Full FT, with Standard-comparable quality; production MM-Mix reaches 4.43x. Against GMT/BMT offline token-budget oracles, ODB is within 15% on UltraChat/LLaVA and faster on high-CV ShareGPT4o: 2.24-2.39x single-node Full FT/LoRA and 3.06-3.69x two-node Full FT. Together, ODB occupies the online/drop-in regime for high-heterogeneity LLM fine-tuning: large throughput gains at Standard-comparable quality, formal DGAP guarantees, and no length-cache precompute or kernel rewrites.
- Abstract(参考訳): サンプルの真のトレーニングコストは、前処理、拡張、テンプレート化、トークン化、マルチモーダルな視覚的トーケン展開の後にのみ観測可能である。
プリプロセッシングと拡張依存の長さキャッシュを支払わない限り、バッチ構成は、パディング、メモリ使用、GPU飽和を決定する量に盲目である。
データローダ側のドロップインシステムであるOnline Dynamic Batching (ODB)を導入する。
我々は、この同期要求を分散グループアライメント問題として形式化し、デフォルトのジョインモードIDカバレッジとオプトイン非ジョインサンプルクォータクロージャによるデッドロックのない有界終端を証明する。
ODBはモデル、オプティマイザ、アテンションカーネルの変更を必要としない。
2B/8B Qwen3-VLはUltraChat/LLaVA/ShareGPT4o上で動作し、単一ノードのフルFT/LoRAで1.58-2.51x、2ノードのフルFTで1.71-3.78x、標準互換品質で生産MM-Mixは4.43xに達する。
GMT/BMTのオフライントークン・バッジ・オラクルに対して、ODBはUltraChat/LLaVAでは15%以内であり、ハイCV共有GPT4oでは2.24-2.39xシングルノードフルFT/LoRAと3.06-3.69x2ノードフルFTで高速である。
ODBは、高均一性LLMファインチューニングのためのオンライン/ドロップインのレギュレーションを共に占めており、Standard-comparable Qualityにおける大きなスループット向上、正式なDGAP保証、長さキャッシュのプリコンプリートやカーネルのリライトがない。
関連論文リスト
- Different Prompts, Different Ranks: Prompt-aware Dynamic Rank Selection for SVD-based LLM Compression [3.291633155351422]
PARSE は $textbfP$rompt-$textbfA$ware $textbfR$ank $textbfS$election as $textbfE$xperts in SVD-compressed LLMs のトレーニング後のフレームワークである。
LLaMA-7Bの圧縮比0.6で平均タスク精度を最大10%改善し、2.5$times$プリフィルと2.4$times$ネイティブSVD実行によるデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2026-05-09T00:02:33Z) - Fast Byte Latent Transformer [73.03308456251764]
我々は,BLT拡散(BLT-D)という新しいモデルを導入し,次世代の予測損失と並行して,ブロック単位の拡散目標を訓練した。
第二に、この速度の一部を高い世代品質で交換する投機的復号法にインスパイアされた2つの拡張を提案する。
全ての方法は、生成タスクにおけるBLTよりも50%以上低いメモリ帯域幅のコストを達成することができる。
論文 参考訳(メタデータ) (2026-05-08T17:35:27Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Diffusion Language Models are Super Data Learners [61.721441061210896]
ユニークなデータが限られている場合、拡散言語モデル(DLM)は、よりエポックなトレーニングによって、常に自己回帰モデル(AR)を上回ります。
本研究の目的は,(1) 任意の次数モデリング,(2) 反復的双方向 denoising からの超高次計算,(3) モンテカルロ増分という3つの複合的要因に起因する。
論文 参考訳(メタデータ) (2025-11-05T08:17:42Z) - L2T-Tune:LLM-Guided Hybrid Database Tuning with LHS and TD3 [18.974774698881085]
我々は,新しいハイブリッドデータベースチューニングフレームワークであるL2T-Tuneを提案する。
ステージ1は温かいスタートを実行し、knob空間全体で均一なサンプルを同時に生成する。
ステージ2は大きな言語モデルを利用して、マニュアルやコミュニティドキュメントからのヒントをマイニングし、優先順位付けします。
ステージ3では、ウォームスタートサンプルプールを使用して、ノブと状態特徴の次元を減らし、Twin Delayed Deep Deterministic Policy Gradientアルゴリズムで設定を微調整する。
論文 参考訳(メタデータ) (2025-11-03T14:04:22Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - FlexLLM: Token-Level Co-Serving of LLM Inference and Finetuning with SLO Guarantees [19.58773369944074]
タスク適応には、大規模な言語モデル(LLM)の微調整が不可欠だが、今日のサービススタックは、推論と個別のGPUクラスタ上での微調整を分離している。
本稿では,LLM推論とPEFTに基づく共通GPUのファインタニングをトークンレベルで融合した最初のシステムであるFlexLLMを紹介する。
実行時に、新しいトークンレベルの微調整機構がハイブリッドトークンスケジューラと組み合わせて、共用イテレーション毎に推論とトレーニングトークンを動的にインターリーブする。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。