論文の概要: BluTrain: A C++/CUDA Framework for AI Systems
- arxiv url: http://arxiv.org/abs/2606.24780v1
- Date: Tue, 23 Jun 2026 16:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.076015
- Title: BluTrain: A C++/CUDA Framework for AI Systems
- Title(参考訳): BluTrain: AIシステムのためのC++/CUDAフレームワーク
- Authors: Adhitya Charan, Adwaid Suresh, Anuj Kumar, Aparna A, Dhanakumar K, Dharun M S, Dinesh G, Goutham Kumar Reddy K, Harshini V M, Jenifa D, Jona Delcy C A, Kathirvel S, Killi Uma Maheswara Rao, Kiruthik Kanna M, Kurra Vishnu Sai, Madhumithaa G K, Navin Kumar, Ram Charan Golla, Revathi T, Rishikkanth R, Sanjay Krishna M, Surendra Vendra,
- Abstract要約: BluTrainは、標準C++とコアプログラミングモデルにおける、堅牢で軽量、アーキテクチャ全般的なトレーニングフレームワークである。
正式な評価では、BluTrainはスループットとメモリ効率の両方において業界標準ベースラインを上回っている。
すべてのレイヤがネイティブチューニングに明示的にオープンになっているため、パフォーマンスの天井は、フレームワークが挙げるべきものなのです。
- 参考スコア(独自算出の注目度): 2.79727705929128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Progress in deep learning is, at scale, more a matter of systems engineering than of modelling: the behaviour of a model in training (its throughput, its memory footprint, and the numerical fidelity of the result) is determined less by the architecture itself than by how that architecture is expressed on the hardware. To achieve absolute control over this hardware expression while abstracting away systems complexity to make modelling seamless and eliminating the need for repetitive orchestration logic, BluTrain was architected from first principles as a robust, lightweight, and architecture-general training framework in standard C++ and the core CUDA programming model. Every layer is implemented natively: a typed tensor module with reverse-mode autograd, a linear-algebra library, a caching allocator, a multi-mode distributed-execution module, and an MLIR-based deep-learning compiler. In formal evaluations training a 124M-parameter GPT-2 baseline in FP32 on an 8-GPU 6000 Ada system, BluTrain outperforms industry-standard baselines in both throughput (sustaining an average of 407K tokens/s versus PyTorch's 395K tokens/s) and memory efficiency (achieving up to a 22% footprint reduction), while strictly preserving numerical fidelity and converging to a marginally lower final validation loss. With every layer explicitly open to native tuning, the performance ceiling is the framework's own to raise.
- Abstract(参考訳): ディープラーニングの進歩は、モデリングよりもシステムエンジニアリングの問題である: トレーニングにおけるモデルの振る舞い(スループット、メモリフットプリント、結果の数値忠実度)は、そのアーキテクチャがハードウェア上でどのように表現されるかよりも、アーキテクチャ自体によって決定される。
このハードウェア表現の絶対的な制御を実現するため、システムの複雑さを抽象化してモデリングをシームレスにし、反復的なオーケストレーションロジックを不要にするため、BluTrainは、標準C++とコアCUDAプログラミングモデルにおける堅牢で軽量でアーキテクチャ全般的なトレーニングフレームワークとして、第一原理から設計されている。
すべてのレイヤがネイティブに実装されている:リバースモードオートグレードを備えた型付きテンソルモジュール、線形代数ライブラリ、キャッシュアロケータ、マルチモード分散実行モジュール、MLIRベースのディープラーニングコンパイラ。
8GPU 6000 Adaシステム上でFP32で124MパラメータのGPT-2ベースラインをトレーニングする正式な評価では、BluTrainはスループット(平均407Kトークン/sとPyTorchの395Kトークン/s)とメモリ効率(最大22%のフットプリント削減)の両方において、業界標準ベースラインよりも優れ、数値忠実さを厳密に保ち、最終的な検証損失をわずかに低く抑える。
すべてのレイヤがネイティブチューニングに明示的にオープンになっているため、パフォーマンスの天井は、フレームワークが挙げるべきものなのです。
関連論文リスト
- LIDARLearn: A Unified Deep Learning Library for 3D Point Cloud Classification, Segmentation, and Self-Supervised Representation Learning [1.2599533416395765]
3次元の3次元クラウド解析は、自律運転やロボット工学から林業や生態モニタリングまで幅広い応用の中心となっている。
libは統合されたPyTorchライブラリで、29の教師付きアーキテクチャ、7つのSSL事前トレーニングメソッド、5つのPEFT戦略を含む55以上のモデル構成を統合している。
libは、標準化されたトレーニングランナー、階層化された$K$-fold分割によるクロスバリデーション、自動化/CSVテーブル生成、厳密なマルチモデル比較のための臨界差図を用いたFriedman/Nemenyi統計テスト、200以上の自動テストを備えた総合的なテストスイートを提供する。
論文 参考訳(メタデータ) (2026-04-12T19:10:12Z) - Scalable Training of Mixture-of-Experts Models with Megatron Core [26.9162079065285]
MOE(Scaling Mixture-of-Experts)トレーニングでは、密集したモデルに欠けているシステムの課題が導入されている。
各トークンは専門家のサブセットのみを活性化するため、このスパーシリティにより、トータルパラメータはトーケン計算よりもはるかに高速に成長できる。
メモリ(微細な再計算,オフロード,通信,計算)の統合最適化により,MoEトレーニングにおけるこれらの課題に対処する。
論文 参考訳(メタデータ) (2026-03-08T15:42:43Z) - Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。