論文の概要: ANEForge: Python for direct computation on the Apple Neural Engine
- arxiv url: http://arxiv.org/abs/2606.17090v1
- Date: Fri, 12 Jun 2026 21:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.046804
- Title: ANEForge: Python for direct computation on the Apple Neural Engine
- Title(参考訳): ANEForge: Apple Neural Engine上での直接計算のためのPython
- Authors: Spencer H. Bryngelson,
- Abstract要約: ANEForgeは、最近のすべてのAppleデバイスでApple Neural Engine(ANE)をコンパイルするPythonパッケージである。
ANEForgeは58の融合演算子と19のネイティブブリッジ演算子から構築された遅延グラフをコンパイルする。
各リリースは、記録され、スパースされたANEコンパイラバージョンに対して検証される。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: ANEForge is a Python package that programs the Apple Neural Engine (ANE), the fixed-function neural accelerator on every recent Apple device, directly and without CoreML. In production the engine is reachable only through CoreML, which treats it as a scheduling option: no configuration requires the ANE, and a model can silently run on the CPU or GPU instead. ANEForge compiles a lazy tensor graph, built from 58 fused operators and 19 native bridge operators, into a single ANE program. The program is dispatched through the same ANE daemon and kernel-driver stack as Apple's internal framework. Beyond inference, the package reaches the engine's native fused attention, streams int8, int4, and sparse weights, keeps decoder and optimizer state resident across steps, and runs the forward pass, backward pass, and optimizer update of training on the engine. A small fused program completes a call in about 90us, near the engine's 70us per-program dispatch floor, and a pretrained ResNet-18 forward runs end-to-end in 0.33ms. ResNet-18, a sentence encoder, and a Vision Transformer run end-to-end against framework references, and a Stable Diffusion U-Net validates its forward pass. ANEForge targets Apple Silicon under macOS 14 and later. Each release is verified against a recorded macOS and ANE-compiler version.
- Abstract(参考訳): ANEForgeは、Apple Neural Engine(ANE)をプログラムするPythonパッケージである。
実運用環境では、エンジンはCoreML経由でのみ利用可能であり、スケジューリングオプションとして扱う:ANEを必要としない構成で、モデルがCPUやGPU上でサイレントに実行できる。
ANEForgeは58の融合演算子と19のネイティブブリッジ演算子から構築された遅延テンソルグラフを1つのANEプログラムにコンパイルする。
プログラムはAppleの内部フレームワークと同じANEデーモンとカーネルドライバスタックを通じて発行される。
推論の他に、パッケージはエンジンのネイティブ・フューズド・アテンションに到達し、int8、int4、sparse weightsをストリームし、デコーダとオプティマイザ・ステートをステップにわたって保持し、エンジンのトレーニングの前方パス、後方パス、オプティマイザ・アップデートを実行する。
小型の融合プログラムは、エンジンの70us毎のディスパッチフロア近くの約90usで呼び出しを完了し、事前訓練されたResNet-18フォワードは0.33msでエンドツーエンドに走る。
ResNet-18、文エンコーダ、ビジョントランスフォーマーはフレームワーク参照に対してエンドツーエンドで実行し、安定拡散U-Netはその前方パスを検証する。
ANEForgeはmacOS 14以降のApple Siliconをターゲットにしている。
各リリースは、記録されたmacOSとANEコンパイラバージョンに対して検証される。
関連論文リスト
- Mojo: A Promising Tool for Scalable Financial AI Efficiency [3.731168012111834]
この記事では、資本市場エンジニアリングに対する構造的応答として、Modularの2026 Pythonのようなシステム言語であるMojoを調査します。
Mojoはネイティブな相互運用性と、ビットエクサクティヴな決定論的カーネルを構築するために必要な低レベルのシステム制御を組み合わせる。
モンテカルロオプションの価格設定、LCMの感情推論、マルチアセットのバックテスト、リスクのポートフォリオの4つの中核的な金融AIワークロードをベンチマークします。
論文 参考訳(メタデータ) (2026-06-14T23:18:58Z) - SNN-MLIR: An MLIR Dialect for Compiling Neuromorphic SNNs from NIR to Bare-Metal C [45.88028371034407]
スパイキングニューラルネットワーク(SNN)は、それぞれ独自のモデルフォーマットで、幅広いフレームワークでトレーニングされている。
ニューロモルフィック中間表現(NIR)は、訓練されたSNNモデルを交換するための共通のフレームワークに依存しないフォーマットを提供することによって、この断片化に対処する。
Snn-mlirは、NIR-MLIR-Cコンパイルブリッジと共にSNNのアウトオブツリーMLIR方言である。
論文 参考訳(メタデータ) (2026-06-08T08:47:48Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks [0.00815557531820863]
Litespark-InferenceはHugging-Faceと直接統合され、9.2倍高速、52倍高速、14倍メモリ削減を実現している。
実装であるLitespark-Inferenceは、pipインストール可能で、Hugging-Faceと直接統合され、9.2倍高速なタイム・ツー・ファースト・トークン、52倍高いスループット、14倍のメモリ削減を実現しています。
論文 参考訳(メタデータ) (2026-05-07T16:07:39Z) - Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference [3.151184728006369]
ニューラル処理ユニット(NPU)を搭載した20億以上のAppleデバイス - Apple Neural Engine(ANE)
AppleのパブリックMLフレームワークであるCoreMLは、直接的なANEプログラミングを防止し、デバイス上でのトレーニングをサポートしない不透明な抽象化を課している。
我々はOrionについて,直接ANE実行,コンパイラパイプライン,単一ネイティブランタイムでのチェックポイント再開による安定したマルチステップトレーニングを組み合わせた,最初のエンドツーエンドシステムについて紹介する。
論文 参考訳(メタデータ) (2026-03-06T03:03:41Z) - Apple Intelligence Foundation Language Models: Tech Report 2025 [230.86919268176976]
AppleのデバイスやサービスにまたがってAppleのインテリジェンス機能を駆動する2つの基礎言語モデルを紹介します。
どちらのモデルも、責任あるWebクローリングを通じてソースされる大規模なマルチリンガルデータセットとマルチモーダルデータセットに基づいてトレーニングされている。
新しいSwift中心のFoundation Modelsフレームワークでは、ガイド付き生成、制約付きツール呼び出し、LoRAアダプタの微調整が公開されている。
論文 参考訳(メタデータ) (2025-07-17T23:37:19Z) - No Saved Kaleidosope: an 100% Jitted Neural Network Coding Language with Pythonic Syntax [0.8408735228878615]
我々は,C++,LLVM,Cudaを用いてニューラルネットワークを学習するためのjittedコンパイラを開発した。
オブジェクト指向の特徴、強い型付け、データ前処理のための並列ワーカー、式のためのピソニック構文、PyTorchのようなモデル宣言、自動微分などが特徴である。
論文 参考訳(メタデータ) (2024-09-17T23:15:39Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。