論文の概要: From Human Guidance to Autonomy: Agent Skill System for End-to-End LLM Deployment on Spatial NPUs
- arxiv url: http://arxiv.org/abs/2606.07586v2
- Date: Tue, 09 Jun 2026 13:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.747574
- Title: From Human Guidance to Autonomy: Agent Skill System for End-to-End LLM Deployment on Spatial NPUs
- Title(参考訳): 人間指導から自律へ:空間的NPUへのLLM展開のためのエージェントスキルシステム
- Authors: Jiajie Li, Erwei Wang, Zhiru Zhang, Samuel Bayliss,
- Abstract要約: 本稿では,AMD XDNA 2 NPUを用いた2段階の手法を提案する。
第1段階では、Llama-3.2-1Bの基準展開を人為的なエージェント支援によって行う。
その結果、プリフィルで2.2倍、手動最適化ベースライン上でデコードで4.0倍のスピードアップを実現した。
エージェントスキルシステムを使用することで,さらに8つのデコーダのみのLLMを自律的にデプロイする。
- 参考スコア(独自算出の注目度): 8.565916665783307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial neural processing units (NPUs) provide an energy-efficient platform for edge LLM inference, but efficiently deploying an LLM end-to-end on such hardware remains labor-intensive. Although AI coding agents have begun to lower this cost, existing studies have largely focused on single-kernel optimization rather than end-to-end LLM deployment on resource-constrained spatial NPUs. We present a two-stage methodology, instantiated on the AMD XDNA 2 NPU, that progresses from human-guided development to agent autonomy. In the first stage, we develop a reference deployment of Llama-3.2-1B through human-guided agent assistance. The resulting implementation achieves a speedup of 2.2x on prefill and 4.0x on decode over the hand-optimized baseline, with the optimization trajectory and its lessons recorded as structured documentation throughout. In the second stage, we distill the documentation into an agent skill system consisting of eight phases, orchestrating the optimization and debugging skill sets, with numerical correctness strictly enforced at each phase. Using our agent skill system, we autonomously deploy eight additional decoder-only LLMs (Llama-3.2-3B, SmolLM2-1.7B, Qwen2.5-{0.5B, 1.5B, 3B}, Qwen3-{0.6B, 1.7B, 4B}) end-to-end on the AMD XDNA 2 NPU using the open-source compiler stack. To our knowledge, these models have not previously been deployed on AMD NPUs via any open-source software stack. Each deployment completes in 0.5-4 hours of agent wall time with almost no human guidance, and passes the numerical-correctness gates, demonstrating functional generalization to previously unencountered LLMs. Three of the eight match or exceed the sustained performance of our Llama-3.2-1B reference deployment, suggesting that the resulting implementations can be competitive without additional model-specific human engineering.
- Abstract(参考訳): 空間ニューラルプロセッシングユニット(NPU)はエッジLLM推論のためのエネルギー効率のよいプラットフォームを提供するが、そのようなハードウェア上でLLMをエンドツーエンドに効率的にデプロイすることは、労働集約的のままである。
AIコーディングエージェントはこのコストを削減し始めているが、既存の研究はリソース制約された空間的NPUにエンドツーエンドのLLMを配置するよりも、シングルカーネル最適化に重点を置いている。
本稿では,AMD XDNA 2 NPUを用いた2段階の手法を提案する。
第1段階では、Llama-3.2-1Bの基準展開を人為的なエージェント支援によって行う。
その結果、プリフィルで2.2倍、手動最適化ベースライン上でのデコードで4.0倍のスピードアップを実現し、最適化軌道とそのレッスンを構造化ドキュメントとして記録した。
第2段階では、文書を8つのフェーズからなるエージェントスキルシステムに蒸留し、最適化とデバッグのスキルセットを編成し、各フェーズに厳密な数値的正確性を持たせる。
エージェントスキルシステムを用いて,オープンソースコンパイラスタックを用いて,AMD XDNA 2 NPU上に8つのデコーダのみのLCM(Llama-3.2-3B, SmolLM2-1.7B, Qwen2.5-{0.5B, 1.5B, 3B}, Qwen3-{0.6B, 1.7B, 4B})を自動デプロイする。
我々の知る限り、これらのモデルは今までもオープンソースソフトウェアスタックを通じてAMD NPUにデプロイされていませんでした。
各配備は、人的ガイダンスがほとんどなく、0.5-4時間のエージェントウォールタイムで完了し、数値的正確性ゲートを通過し、以前は未公表のLCMに関数的一般化を示す。
8つのうち3つがLlama-3.2-1B参照デプロイメントの持続的な性能と一致しているか、あるいは超えているため、結果として得られた実装は、追加のモデル固有のヒューマンエンジニアリングなしで競争可能であることが示唆されている。
関連論文リスト
- Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - XAMBA: Enabling Efficient State Space Models on Resource-Constrained Neural Processing Units [0.6063137165121326]
状態空間モデル(SSM)は、シーケンシャルなデータタスクのためのトランスフォーマーの効率的な代替手段として登場した。
XAMBAは、商用オフザシェルフ(COTS)のSOTA(State-of-the-art)NPU上でSSMを有効にし、最適化する最初のフレームワークである。
XAMBAはCumBAとReduBAを使用して鍵ボトルネックを緩和し、シーケンシャルなCumSumとReduceeSumを行列ベースの計算に置き換える。
論文 参考訳(メタデータ) (2025-02-10T17:33:30Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。