論文の概要: AoiZora: Topology-Aware Auto-Parallel Optimization for Inference of Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2606.17566v1
- Date: Tue, 16 Jun 2026 06:12:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.30389
- Title: AoiZora: Topology-Aware Auto-Parallel Optimization for Inference of Diffusion Transformers
- Title(参考訳): AoiZora:拡散変圧器推定のためのトポロジーを考慮した自動並列最適化
- Authors: Kaijian Wang, Yuanyuan Xu, Fanjiang Ye, Ye Cao, Jingwei Zuo, T. S. Eugene Ng, Yarong Mu, Yuke Wang,
- Abstract要約: AoiZoraは、TPUサブスライス上での低世代ビデオ推論のために開発されたコンパイラ生成トポロジープランナである。
AoiZoraはWan 2.1のワンステップ遅延を既存のソリューションと比較して最大1.22倍削減する。
TPU v5e サブスライスでは、AoiZora は Wan 2.1 の1ステップの遅延を既存のソリューションと比較して 1.42 倍削減する。
- 参考スコア(独自算出の注目度): 9.55682836490436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion has quickly grown into a key generative serving workload, yet producing each clip demands many denoising iterations over large spatio-temporal latents, which puts low-latency inference out of reach on a single device. A denoising step is therefore typically distributed across multiple accelerators, and TPU sub-slices have become an attractive and practical fabric for doing so. Current auto-parallel systems, however, search almost exclusively over logical device meshes and disregard how a chosen sharding is actually laid out on the physical TPU interconnect -- an oversight that leaves large, topology-dependent performance on the table. We address this gap with AoiZora, a compiler-mediated topology planner built for low-latency video diffusion inference on TPU sub-slices. Its guiding principle is to reconnect logical sharding with physical placement by drawing on different points in the compilation flow: AoiZora first eliminates weak sharding candidates from inexpensive pre-compilation IRs, then compiles only the ones that survive and orders their physical placements using compiled HLO together with a topology-aware communication model. The winning plan is realized along the ordinary compiler path, leaving model code, compiler lowering, collective kernels, and network routing entirely intact. On TPU v5e sub-slices, AoiZora reduces Wan 2.1 one-step denoising latency by as much as 1.42x relative to existing solutions.
- Abstract(参考訳): ビデオ拡散は、すぐに重要な生成サービスワークロードへと成長したが、各クリップを生成するには、大きな時空間ラテントに対して多くのデノイングを繰り返し、単一のデバイスに低遅延推論を適用できないようにする必要がある。
したがって、デノナイジングステップは一般的に複数の加速器に分散し、TPUサブスライスは魅力的な実用的ファブリックとなっている。
しかし、現在の自動並列システムは、論理的なデバイスメッシュをほぼ独占的に検索し、選択されたシャーディングが物理的なTPUインターコネクトに実際にレイアウトされていることを無視している。
我々は,TPUサブスライス上での低遅延ビデオ拡散推論のために構築されたコンパイラによるトポロジプランナであるAoiZoraとのギャップに対処する。
AoiZoraはまず、安価なプリコンパイルIRから弱いシャーディング候補を排除し、次に、コンパイル済みのHLOとトポロジ対応の通信モデルを用いて、物理配置をコンパイルし注文する。
勝利計画は通常のコンパイラパスに沿って実現され、モデルコード、コンパイラの低下、集合カーネル、ネットワークルーティングは完全に無傷である。
TPU v5e サブスライスでは、AoiZora は Wan 2.1 の1ステップの遅延を既存のソリューションと比較して 1.42 倍削減する。
関連論文リスト
- Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators [8.493759841403682]
CPU/GPUと新興技術(HBM/DRAM)の異種チップレットベースシステムによるスケール向上
しかし、このパッケージ上のデアグリゲーションはNetwork-on-Interposer(NoI)に遅延をもたらす
論文 参考訳(メタデータ) (2025-10-28T06:36:44Z) - STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs [14.137795556562686]
本稿では,拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
提案手法は,エンド・ツー・エンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
論文 参考訳(メタデータ) (2025-09-05T00:25:40Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [26.365397387678396]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。