論文の概要: CREST: Deployment-Realistic Hardware-in-the-Loop NAS for Embedded Sensing Systems
- arxiv url: http://arxiv.org/abs/2606.15004v1
- Date: Fri, 12 Jun 2026 22:48:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.569946
- Title: CREST: Deployment-Realistic Hardware-in-the-Loop NAS for Embedded Sensing Systems
- Title(参考訳): CREST: 組み込みセンシングシステムのためのデプロイリアリスティックなハードウェア・イン・ザ・ループNAS
- Authors: Joseph Q. Zales, Pragya Sharma, Mani Srivastava,
- Abstract要約: ニューラルアーキテクチャサーチ(NAS)のためのデプロイリアリスティックなハードウェア・イン・ザ・ループフレームワークを提案する。
CREST (Cross-platform Evaluation and Search Tool)
我々は,3つのArm Cortex-Mターゲットにおける慣性音韻法と音声分類のCRESTを評価する。
慣性オドメトリーでは、測定エネルギーのHILサーチにより、FLOPsベースの選択に対して中央値の参照エネルギーが41.7%減少し、同じ誤差で41.7%減少する。
- 参考スコア(独自算出の注目度): 2.2395603134367446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying neural networks on low-power microcontrollers (MCUs) requires selecting model architectures under tight memory, latency, and energy constraints. Existing workflows often simplify this process along one or more axes: static proxy costs such as FLOPs or parameters, treating one MCU as representative, and continuous-inference tests instead of deployed sensing schedules. These assumptions can mis-rank Pareto-front candidates, miss infeasible deployments, and obscure schedule-dependent energy. We present CREST (Cross-platform Runtime Evaluation and Search Tool), a deployment-realistic hardware-in-the-loop (HIL) neural architecture search (NAS) framework for MCU sensing systems. CREST keeps the optimizer, HIL measurement boundary, logging, and replay workflow fixed while exposing workload, model family, target backend, schedule, quantization, and scoring policy as configurable axes. This makes deployment effects experimentally separable within one reusable workflow. We evaluate CREST on inertial odometry and audio classification across three Arm Cortex-M targets. For inertial odometry, measured-energy HIL search reduces median per-inference energy by 41.7% versus FLOPs-based selection and 40.8% versus memory-traffic-based selection at similar error. FLOPs-based selection also chooses infeasible deployments on memory-constrained targets. On the STM32 N657 target, continuous-inference and duty-cycled searches produce different Pareto frontiers. For audio classification, the same application-level policy selects different DS-CNN architectures on different boards, and cross-board replay changes deployment cost substantially. Overall, CREST shows that deployment-realistic MCU NAS must jointly optimize model architecture, target platform, runtime schedule, and deployment policy rather than relying only on static proxy costs or continuous-inference measurements.
- Abstract(参考訳): 低消費電力マイクロコントローラ(MCU)にニューラルネットワークをデプロイするには、厳密なメモリ、レイテンシ、エネルギー制約の下でモデルアーキテクチャを選択する必要がある。
既存のワークフローは、FLOPやパラメータなどの静的プロキシコスト、ひとつのMCUを代表として扱うこと、デプロイされたセンシングスケジュールの代わりに継続的推論テストなど、このプロセスを1つ以上の軸に沿って単純化することが多い。
これらの仮定は、Pareto-frontの候補を間違えたり、実現不可能なデプロイメントを見逃したり、スケジュールに依存しないエネルギを損なう可能性がある。
CREST(Cross-platform Runtime Evaluation and Search Tool)は,MCUセンシングシステムを対象とした,HIL(Hardware-in-the-loop)ニューラルアーキテクチャサーチ(NAS)フレームワークである。
CRESTは、ワークロード、モデルファミリー、ターゲットバックエンド、スケジュール、量子化、スコアリングポリシを設定可能なxとして公開しながら、オプティマイザ、HIL計測境界、ロギング、リプレイワークフローを固定する。
これにより、再利用可能なワークフロー内で、デプロイメントエフェクトを実験的に分離できる。
我々は,3つのArm Cortex-Mターゲットにおける慣性音韻法と音声分類のCRESTを評価する。
慣性オドメトリーでは、測定エネルギーHILサーチは、FLOPsベースの選択に対して41.7%、同じ誤差でメモリトラヒックベースの選択に対して40.8%減少する。
FLOPsベースの選択では、メモリ制限されたターゲットに対する実行不可能なデプロイメントも選択される。
STM32 N657ターゲットでは、連続推論とデューティサイクル検索がパレートフロンティアを異なるものにしている。
オーディオ分類では、同じアプリケーションレベルポリシーが異なるボード上で異なるDS-CNNアーキテクチャを選択する。
全体として、CRESTは、デプロイリアリスティックなMCU NASが静的プロキシコストや継続的推論測定にのみ依存するのではなく、モデルアーキテクチャ、ターゲットプラットフォーム、ランタイムスケジュール、デプロイメントポリシを共同で最適化する必要があることを示している。
関連論文リスト
- DIRECT: When and Where Should You Allocate Test-Time Compute in Embodied Planners? [57.585275546688116]
VLM(Vision-Language Models)は、エンボディエージェントの高レベルプランナーとしてますます普及している。
テストタイムの計算をいつ、どこで使うかを選択することは、実際の世界にフロンティアパフォーマンスをもたらす中心である、と私たちは主張する。
我々はマルチモーダルシーンコンテキストを用いてプロンプト毎に計算を割り当てるルーティングフレームワークであるDIRECTを紹介した。
論文 参考訳(メタデータ) (2026-06-10T17:58:49Z) - How Far Can Disaggregation Go? A Design-Space Exploration of Attention-FFN Disaggregation for Efficient MoE LLM Serving [14.552785121277529]
本研究では,デバイス上でのカーネル計測と高忠実度ネットワークシミュレーションを融合したフレームワークを用いて,AFD(Attention-FFN Disaggregation)のメリットと限界について検討する。
厳格なTTFT/TPOT SLOの下では、AFDはチャット、コーディング、エージェントコーディングのワークロード間でDeepSeek-V3.2で約4kトークン/秒のシステムスループットを維持できる。
論文 参考訳(メタデータ) (2026-05-27T10:55:57Z) - Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI [0.0]
この研究は、エネルギーと遅延の測定を統合する代替のベンチマーク手法を導入する。
設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。
その結果,コア電圧とクロック周波数の低減により,前処理と後処理の効率が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-21T15:12:14Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - POMONAG: Pareto-Optimal Many-Objective Neural Architecture Generator [4.09225917049674]
Transferable NASが登場し、データセット依存からタスク依存への探索プロセスを一般化した。
本稿では多目的拡散プロセスを通じて拡散NAGを拡張するPOMONAGを紹介する。
結果は、NAS201とMobileNetV3の2つの検索スペースで検証され、15の画像分類データセットで評価された。
論文 参考訳(メタデータ) (2024-09-30T16:05:29Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Combining Multi-Objective Bayesian Optimization with Reinforcement Learning for TinyML [4.2019872499238256]
多目的ベイズ最適化(MOBOpt)に基づくマイクロコントローラ(TinyML)にディープニューラルネットワークをデプロイするための新しい戦略を提案する。
本手法は,DNNの予測精度,メモリ要求,計算複雑性のトレードオフを効率的に検出することを目的としている。
論文 参考訳(メタデータ) (2023-05-23T14:31:52Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。