論文の概要: ASTRA-sim 3.0: Next-Level Distributed Machine Learning Simulations via High-Fidelity GPU and Infrastructure Modeling
- arxiv url: http://arxiv.org/abs/2606.10440v1
- Date: Tue, 09 Jun 2026 05:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.33746
- Title: ASTRA-sim 3.0: Next-Level Distributed Machine Learning Simulations via High-Fidelity GPU and Infrastructure Modeling
- Title(参考訳): ASTRA-sim 3.0: 高速GPUとインフラストラクチャモデリングによる次世代分散機械学習シミュレーション
- Authors: William Won, Jinsun Yoo, Tuan Ta, Moumita Dey, Andy Balogh, Pradosh Datta, Furkan Eris, Conor Green, Winston Liu, Changhai Man, Kingshuk Mandal, Amos Rai, Vinay Ramakrishnaiah, Ruchi Shah, David Sidler, Harsh Sikhwal, Hanjiang Wu, Tushar Krishna, Bradford M. Beckmann,
- Abstract要約: 分散機械学習(ML)は、今日の大規模人工知能アプリケーションにとって重要なパラダイムである。
我々は、有望なオープンソースコミュニティ主導のシミュレータASTRA-simを再考する。
InfraGraphは、分散MLネットワークインフラストラクチャを詳細にキャプチャするための標準化された表現である。
- 参考スコア(独自算出の注目度): 4.001628457251908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed machine learning (ML) is a key paradigm for today's large-scale artificial intelligence applications. As model inference arises as an important use case, faithful modeling of latency-sensitive collective communication has never been more important. Capturing the device architecture and modeling control and data paths at high fidelity is therefore a necessity today. Having a common, detailed representation for distributed ML infrastructure is also crucial. We revisit the promising open-source, community-driven simulator: ASTRA-sim. In this work, we identify limitations of the current ASTRA-sim simulator and augment it with new features. To this end, we enable fine-grained, high-fidelity simulation with a standardized infrastructure representation, opening new design space exploration opportunities. We propose the simulation at cache-line-sized load-store granularity, with a detailed graphics processing unit (GPU) execution model, to balance simulation scalability and fidelity. We also introduce InfraGraph, a standardized representation to capture distributed ML network infrastructure in detail. Using the updated ASTRA-sim 3.0 simulator, we showcase interesting design space explorations for designing optimized collective algorithms, network requirements, and GPU architectures.
- Abstract(参考訳): 分散機械学習(ML)は、今日の大規模人工知能アプリケーションにとって重要なパラダイムである。
モデル推論が重要なユースケースとして出現するにつれて、レイテンシに敏感な集団コミュニケーションの忠実なモデリングがより重要になることはなかった。
したがって、デバイスアーキテクチャとモデリング制御とデータパスを高い忠実度で取得することは、今日では必要である。
分散MLインフラストラクチャの共通かつ詳細な表現も重要です。
我々は、有望なオープンソースコミュニティ主導のシミュレータASTRA-simを再考する。
本研究では,現在のASTRA-simシミュレータの限界を特定し,新機能で拡張する。
この目的のために、我々は、標準化されたインフラストラクチャー表現によるきめ細かい高忠実度シミュレーションを可能にし、新しい設計空間探索の機会を開放する。
本稿では,シミュレーションのスケーラビリティと忠実さのバランスをとるために,GPU(GPU)実行モデルを用いたキャッシュラインサイズ負荷ストアの粒度シミュレーションを提案する。
また、分散MLネットワークインフラストラクチャを詳細にキャプチャするための標準化された表現であるInfraGraphも導入しています。
更新されたASTRA-sim 3.0シミュレータを用いて、最適化された集合アルゴリズム、ネットワーク要求、GPUアーキテクチャを設計するための興味深い設計空間探索を紹介する。
関連論文リスト
- IR-SIM: A Lightweight Skill-Native Simulator for Navigation, Learning, and Benchmarking [59.6657632820611]
IR-SIMは、迅速なシナリオ構築、ベンチマーク、ロボット学習のために設計された、スキルネイティブなナビゲーションシミュレータである。
シナリオは、モバイルロボットキネマティクス、幾何学的衝突チェック、LiDARセンシング、可視化、行動モジュールを指定するYAML設定ファイルで完全に定義されている。
実験では、複数のタスクにおいてIR-SIMの利便性と汎用性を示す。
論文 参考訳(メタデータ) (2026-06-07T16:55:37Z) - NVIDIA Isaac Sim: Enabling Scalable, GPU-Accelerated Simulation for Robotics [16.974627651296498]
この調査はNVIDIA Isaac Simをシステムとアプリケーションの観点からレビューし、アーキテクチャの概要と広く使われているシミュレータと比較する。
我々は5つの主要領域にわたる研究を分析し、特にデータ生成と高忠実度シミュレーションにおける一般的な利用パターンを要約する。
また、物理のオープンワールド学習、シミュレーション中心のトレーニング、実用的なユーザビリティ制約など、今後の重要な方向性と課題についても概説する。
論文 参考訳(メタデータ) (2026-06-02T12:12:27Z) - LychSim: A Controllable and Interactive Simulation Framework for Vision Research [13.971578506119647]
Unreal Engine 5上に構築された高度に制御可能でインタラクティブなシミュレーションフレームワークであるLychSimを紹介します。
LychSimは、(1)エンジンの複雑さを抽象化するPython APIの合理化、(2)様々なアウト・オブ・ディストリビューション(OOD)による多様な高忠実な環境を生成可能なプロシージャデータパイプライン、(3)エージェントLLMを推論するためにシミュレータを動的にクローズループグラウンドに変換するModel Context Protocol(MCP)のネイティブな統合、の3つの主要な設計に基づいて構築されている。
論文 参考訳(メタデータ) (2026-05-12T17:40:38Z) - GAMMS: Graph based Adversarial Multiagent Modeling Simulator [15.681127447904322]
GAMMS(Graph based Adrial Multiagent Modeling Simulator)は軽量かつスケーラブルなシミュレーションフレームワークである。
GAMMSはスケーラビリティ、使いやすさ、統合ファーストアーキテクチャ、高速な視覚化フィードバック、現実世界の接地という5つの目標を強調している。
都市道路網や通信システムといった複雑な領域の効率的なシミュレーションを可能にする。
論文 参考訳(メタデータ) (2026-02-04T22:38:51Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z) - Tao: Re-Thinking DL-based Microarchitecture Simulation [8.501776613988484]
既存のマイクロアーキテクチャシミュレータは、異なる側面で優れ、不足している。
ディープラーニング(DL)ベースのシミュレーションは驚くほど高速で、精度は極めて高いが、適切な低レベルのマイクロアーキテクチャのパフォーマンス指標を提供することができない。
本稿では,3つの主要な貢献により,DLに基づくシミュレーションを再設計するTAOを紹介する。
論文 参考訳(メタデータ) (2024-04-16T21:45:10Z) - Bridging the Sim-to-Real Gap with Bayesian Inference [53.61496586090384]
データからロボットダイナミクスを学習するためのSIM-FSVGDを提案する。
我々は、ニューラルネットワークモデルのトレーニングを規則化するために、低忠実度物理プリエンスを使用します。
高性能RCレースカーシステムにおけるSIM-to-realギャップのブリッジ化におけるSIM-FSVGDの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T11:29:32Z) - Using Machine Learning at Scale in HPC Simulations with SmartSim: An
Application to Ocean Climate Modeling [52.77024349608834]
We demonstrate the first climate-scale, numerical ocean Simulations improve through distributed, online inference of Deep Neural Networks (DNN) using SmartSim。
SmartSimは、従来のHPCシミュレーションのためのオンライン分析と機械学習(ML)を可能にするためのライブラリです。
論文 参考訳(メタデータ) (2021-04-13T19:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。