論文の概要: Toward Compiler World Models: Learning Latent Dynamics for Efficient Tensor Program Search
- arxiv url: http://arxiv.org/abs/2606.09312v1
- Date: Mon, 08 Jun 2026 10:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.924204
- Title: Toward Compiler World Models: Learning Latent Dynamics for Efficient Tensor Program Search
- Title(参考訳): コンパイラワールドモデルに向けて:効率的なテンソルプログラム探索のための潜時ダイナミクスの学習
- Authors: Haolin Pan, Lianghong Huang, Xvlin Zhou, Mingjie Xing, Yanjun Wu,
- Abstract要約: 本稿では,プログラム状態に対する動作条件付き潜在ダイナミクスとしての評価をスケジュールする評価器を提案する。
提案手法は,GPUで1.37$times$,CPUで1.54$times$,Ansorで64-trial budgetで1.37$times$の改善を行う。
また、PyTorch/PyTorch-opt(cuDNN)に対するフルモデル推論を4.61$times$/3.67$times$ometric meanで高速化する。
- 参考スコア(独自算出の注目度): 9.85275171877854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tensor program optimization is essential for modern machine learning systems, but its search space is enormous. Existing auto-schedulers reduce measurement cost with learned cost models, yet they usually evaluate each candidate as a static code snapshot, ignoring the schedule trajectory that produced it. This makes them insensitive to action dependencies and vulnerable to superficial code variations. We propose a \emph{world-model-inspired} evaluator that models schedule evaluation as action-conditioned latent dynamics over program states. Starting from the initial program, it rolls out scheduling actions in a continuous latent space with a lightweight transition model, avoiding expensive AST mutation and repeated code encoding. The final dynamic representation is combined with action and hardware features to rank candidates. Implemented in TVM AutoScheduler, our method improves representative-subgraph latency over Ansor by 1.37$\times$ on GPU and 1.54$\times$ on CPU under the same 64-trial budget. It also matches Ansor-10K within 2.2% geometric mean using 10$\times$ fewer measurements, and accelerates full-model inference over PyTorch/PyTorch-opt(cuDNN) by 4.61$\times$/3.67$\times$ geometric mean.
- Abstract(参考訳): テンソルプログラムの最適化は現代の機械学習システムには不可欠であるが、その探索空間は巨大である。
既存の自動スケジューリングは、学習したコストモデルによる測定コストを削減するが、彼らは通常、各候補を静的コードスナップショットとして評価し、それを生成したスケジュール軌跡を無視している。
これにより、アクション依存に敏感になり、表面的なコードのバリエーションに脆弱になる。
本稿では,プログラム状態に対する動作条件付き潜在ダイナミクスとしてスケジュール評価をモデル化する,emph{world-model-inspired}評価器を提案する。
最初のプログラムから始まり、軽量なトランジションモデルで連続的な潜伏空間でスケジューリングアクションをロールアウトし、高価なAST突然変異や繰り返しコードエンコーディングを避ける。
最後の動的表現は、候補をランク付けするためのアクションとハードウェアの機能と組み合わせられる。
提案手法はTVM AutoSchedulerで実装され,Ansor上での代用サブグラフレイテンシをGPUで1.37$\times$,CPUで1.54$\times$で改善する。
また、Ansor-10Kは10$\times$より少ない測定値を用いて2.2%の幾何学平均で一致し、PyTorch/PyTorch-opt(cuDNN)上のフルモデル推論を4.61$\times$/3.67$\times$幾何平均で加速する。
関連論文リスト
- Learning-Augmented Scalable Linear Assignment Problem Optimization via Neural Dual Warm-Starts [19.540758462427878]
最適性と最悪の保証を維持しつつ、正確な代入解決を高速化する学習強化フレームワークを提案する。
グラフベースのモデルのメモリボトルネックを$mathcalO(N2)$で回避する軽量な行独立アーキテクチャであるRowDualNetを紹介します。
論文 参考訳(メタデータ) (2026-05-10T07:15:49Z) - Form Follows Function: Recursive Stem Model [0.0]
本稿では,計算量とNP問題を解くためにRecursive Stem Model (RSM)を導入する。
RSMは、初期イテレーションを分離された"ウォームアップ"ステップとして扱い、最終ステップでのみ損失を適用します。
Sudoku-Extremeでは、RSMはテスト時間計算で精度97.5%に達する。
論文 参考訳(メタデータ) (2026-03-03T00:55:00Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。
7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2025-03-11T15:15:54Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning [11.139231636612479]
プログラムチューニングを高速化するために,Pruner と MoA-Pruner を提案する。
Prunerはスケジュール探索を高速化する"Draft-then-Verify"探索メカニズムである。
MoA-Prunerは、クロスプラットフォームのオンライン無意識に対処するためのMomentumオンライン適応戦略を導入した。
論文 参考訳(メタデータ) (2024-02-04T06:11:12Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。