論文の概要: AgentCompile: An LLM-Guided Compiler for Direct CUDA Inference
- arxiv url: http://arxiv.org/abs/2606.07665v1
- Date: Thu, 04 Jun 2026 03:49:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.258505
- Title: AgentCompile: An LLM-Guided Compiler for Direct CUDA Inference
- Title(参考訳): AgentCompile: 直接CUDA推論のためのLLMガイドコンパイラ
- Authors: Xuanzhe Li, Ziyan Weng, Zhiyu Zhu, Junhui Hou,
- Abstract要約: 本稿では,LDM出力をアドバイザリ検索メタデータとしてのみ使用するLDM誘導型推論コンパイラであるAgentCompileを提案する。
コンパイラ由来の領域要約と境界付き候補空間が与えられた後、LLMはセマンティックラベル、候補優先順位、パラメータヒント、リスクアノテーションを提案する。
AgentCompileは、グラフテンプレートを通じて候補を実体化し、インターフェースとハードウェアの制約をチェックし、試験的に候補を検証する。
エンドツーエンドの自動回帰生成では、AgentCompileはQwen3-1.7B上のPyTorch上で平均5.66x、4.05x、4.26xのスピードアップを行う。
- 参考スコア(独自算出の注目度): 58.285369364699
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer inference increasingly depends on specialized compiler and runtime support, but real model graphs still require semantic decisions about which regions are worth specializing and which CUDA implementation families are plausible. We present AgentCompile, an LLM-guided CUDA inference compiler that uses LLM outputs only as advisory search metadata. Given compiler-derived region summaries and bounded candidate spaces, the LLM proposes semantic labels, candidate priorities, parameter hints, and risk annotations; the compiler materializes CUDA candidates through templates, checks interface and hardware constraints, validates candidates empirically, selects implementations by measured latency, and falls back when specialization is unsupported or unprofitable. In end-to-end autoregressive generation, AgentCompile averages 5.66x, 4.05x, and 4.26x speedup over PyTorch eager on Qwen3-1.7B, Qwen3-4B, and Llama-3.2-1B-Instruct, respectively, across five representative workloads. We will open-source the project.
- Abstract(参考訳): トランスフォーマー推論は、コンパイラとランタイムのサポートにますます依存しているが、実際のモデルグラフは、どの領域に特化に値するか、どのCUDA実装ファミリが妥当かという意味的な決定を必要とする。
本稿では,LCM 出力をアドバイザリ検索メタデータとしてのみ使用する LLM 誘導 CUDA 推論コンパイラである AgentCompile を提案する。
コンパイラはテンプレートを通じてCUDA候補を実体化し、インターフェースとハードウェアの制約をチェックし、試験的に候補を検証する。
エンドツーエンドの自動回帰生成では、AgentCompileの平均は5.66x、4.05x、4.26xで、それぞれQwen3-1.7B、Qwen3-4B、Llama-3.2-1B-Instructに熱心な。
私たちはそのプロジェクトをオープンソース化します。
関連論文リスト
- SCDBench: A Benchmark for LLM-Based Smart Contract Decompilers [55.39407031861402]
本稿では,スマートコントラクトデコンパイルのためのデータセットとベンチマーク手法であるSCDBenchを紹介する。
データセットには600の現実のSolidityコントラクトと、ペア化されたバイトコード入力、地味なソースコード、再生可能なセマンティックチェックポイントが含まれている。
我々は,GLM-5の変種を含むゼロショット逆コンパイル設定において,Claude Opus 4.7,GPT-5.3-Codex,GLM-5を評価した。
論文 参考訳(メタデータ) (2026-05-27T20:08:47Z) - ARGUS: Agentic GPU Optimization Guided by Data-Flow Invariants [12.49256588033198]
LLMベースのコーディングエージェントは、機能的に正しいGPUカーネルを生成することができるが、その性能は、重要な計算に関する手動最適化ライブラリよりもはるかに低いままである。
データフロー不変量を通じてこの問題に対処するエージェントフレームワークであるArgusを紹介します。
我々は、GEMM、フラッシュアテンション、MoEカーネルにわたるAMD MI300X GPU上でArgusを評価する。
論文 参考訳(メタデータ) (2026-04-16T15:49:31Z) - A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation [20.174394305112198]
低リソース環境下でコンパクトで実行可能なドメイン固有LLMを構築するためのフレームワークを提案する。
半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証
1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTはSDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成した。
論文 参考訳(メタデータ) (2026-01-15T07:13:34Z) - nncase: An End-to-End Compiler for Efficient LLM Deployment on Heterogeneous Storage Architectures [7.460240094212613]
さまざまなターゲットに対して最適化を統合するために設計された、エンドツーエンドのコンパイルフレームワークであるnncaseを提示する。
nncaseは、異種コンピューティングユニットに適応するためのAuto Vectorize、並列戦略を検索するためのAuto Distribution、オンチップキャッシュのローカリティを最大化するAuto Scheduleの3つの重要なモジュールを統合している。
論文 参考訳(メタデータ) (2025-12-25T08:27:53Z) - SLICEMATE: Accurate and Scalable Static Program Slicing via LLM-Powered Agents [11.069304685402642]
SliceMateはLarge Language Model (LLM)エージェントを利用した新しい静的プログラムスライシングソリューションである。
明示的な依存グラフ構築の必要性を回避し、より優れたスライシング精度を実現する。
厳密な評価のために,2200のJavaプログラムとPythonプログラムを手動でアノテートした新しい高品質ベンチマークであるSliceBenchを構築した。
論文 参考訳(メタデータ) (2025-07-25T04:51:47Z) - CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - ACPO: AI-Enabled Compiler Framework [1.752593459729982]
本稿では,AI-Enabled Compiler FrameworkのACPOについて述べる。
LLVMには、さまざまな最適化パスにMLモデルを使用するメリットを享受する、シンプルで包括的なツールが提供されている。
LLVMのO3と比較すると,ACPOはPolybenchで4.5%,Cbenchで2.4%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-15T17:49:24Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。