論文の概要: Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU
- arxiv url: http://arxiv.org/abs/2606.12765v1
- Date: Thu, 11 Jun 2026 00:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.509675
- Title: Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU
- Title(参考訳): Rigel:Apple M4 Max GPU上でのMetal 4.1テンソルコンピュートパスのリバースエンジニアリング
- Authors: Ramchand Kumaresan,
- Abstract要約: 我々は、Apple M4 Maxのこのパスを実証的に特徴づけるRigelを紹介します。
私たちは不透明な8x8コラボレーティブ_tensorのフラグメントレイアウトを再構築します。
キャラクタリゼーションにより、GEMM + bias + GELUカーネルはキャッシュ抵抗状態において分解されたパスを+6.5-12.9%上回る。
- 参考スコア(独自算出の注目度): 3.151184728006369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Apple's Metal 4.1 exposes a tensor compute path: the Metal Performance Primitives (MPP) matmul2d operation over cooperative_tensor fragments, whose interface is documented but whose hardware behavior is deliberately hidden. The specification states which data-type rows are supported, never whether they are hardware-accelerated, where the operation physically executes, what its accumulator width is, or how it partitions matrix fragments across threads. We present Rigel, an empirical characterization of this path on a single Apple M4 Max (a pre-neural-accelerator generation). Using a checksum-gated, provenance-tracked microbenchmark harness, Rigel recovers eleven facts the v4.1 specification hides or contradicts. The headline finding: the Metal 4.1 fp8 (E4M3) matmul2d is emulated, not accelerated: it sustains 0.94x the throughput of fp16 despite reading half the operand bytes, so on M4 it is a memory-footprint feature, not a performance feature. We further show, via a three-signal triangulation (throughput ceiling, comparison against simdgroup_matrix, and per-rail power attribution), that matmul2d executes entirely on the GPU shader cores with no dedicated matrix datapath and no evidence of Apple Neural Engine routing; that it accumulates in >=fp32; and we reconstruct the opaque 8x8 cooperative_tensor fragment layout Apple documents nowhere. Acting on the characterization, a hand-fused GEMM + bias + GELU kernel beats the decomposed path by +6.5-12.9% in the cache-resident regime. All findings are reproducible from committed MIT-licensed code and per-cell CSVs.
- Abstract(参考訳): AppleのMetal 4.1はテンソル計算パスを公開している。Metal Performance Primitives (MPP) matmul2dは、コラボレーティブ_tensorフラグメント上の操作で、インターフェースはドキュメント化されているが、ハードウェアの振る舞いは意図的に隠されている。
仕様では、どのデータ型行がサポートされているか、ハードウェアアクセラレーション、操作が物理的に実行される場所、アキュムレータの幅、スレッド間でマトリックスフラグメントをどのように分割するか、などについて述べています。
我々は、Apple M4 Max(前神経加速器世代)のこの経路を実証的に特徴づけるRigelを紹介します。
チェックサム付き、証明追跡されたマイクロベンチマークハーネスを使用して、Rigelは、v4.1仕様が隠または矛盾している11の事実を復元する。
ヘッドラインの発見:Metal 4.1 fp8 (E4M3) matmul2dはエミュレートされ、性能上の特徴ではなくメモリフットプリント機能であるにもかかわらずfp16のスループットは0.94倍である。
さらに、三信号三角測量(スループット天井、simdgroup_matrixとの比較、レールあたりのパワー属性)を通して、mamul2dは専用の行列データパスがなく、Apple Neural Engineルーティングの証拠もないGPUシェーダコア上で完全に実行されることを示し、>=fp32に蓄積されることを示し、不透明な8x8コラボレーティブ_tensorフラグメントレイアウトを再構築する。
キャラクタリゼーションにより、GEMM + bias + GELUカーネルはキャッシュ抵抗状態において分解されたパスを+6.5-12.9%上回る。
すべての発見は、MITライセンスのコミットコードと細胞ごとのCSVから再現可能である。
関連論文リスト
- FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Scoring [2.159285655678094]
Flash-MaxSimは、テンソルを作らずに全く同じスコアを計算するIO対応カーネルである。
一致した精度ではPyTorchよりもA100では最大3.9倍高速で、推論メモリは最大16倍、トレーニングメモリは28倍高速である。
論文 参考訳(メタデータ) (2026-05-28T07:38:27Z) - PySIFT: GPU-Resident Deterministic SIFT for Deep Learning Vision Pipelines [0.22940141855172033]
DSPマルチスケールプールを用いた古典SIFTは,神経記述子や配向置換よりも優れていた。
In this present PySIFT, a first fully GPU-resident SIFT, implemented in CuPy/Numba kernels with DLPack zero-copy handoff to downstream DL framework。
論文 参考訳(メタデータ) (2026-05-18T05:24:55Z) - A Controlled Study of Memory Hierarchy Transitions in Quantum Circuit Simulation on Apple M4 Pro Unified Memory Architecture [0.0]
状態ベクトル量子回路シミュレーションはメモリ帯域境界である。
Apple M4 Pro Unified Memory Architectureを使ってこの問題に対処する。
ピークストリーミング帯域幅は、連続しないメモリアクセスパターンのシミュレーションスピードアップを予測できないことを示す。
論文 参考訳(メタデータ) (2026-05-09T08:22:55Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - FlashSampling: Fast and Memory-Efficient Exact Sampling [62.5203057469482]
FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
論文 参考訳(メタデータ) (2026-03-16T19:37:08Z) - RFX: High-Performance Random Forests with GPU Acceleration and QLORA Compression [0.0]
RFX (Random Forests X) は、X が圧縮または量子化の略であり、Python で Breiman と Cutler の Random Forest 分類方法論のプロダクション対応の実装を提供する。
RFX v1.0は完全な分類を提供する:out-of-bagエラー推定、総合的および局所的重要度測定、QLORA圧縮による近接行列、ケースワイズ分析、インタラクティブ可視化(rfviz)。
回帰、教師なし学習、CLIQUEの重要性、RF-GAP近接はv2.0で計画されている。
論文 参考訳(メタデータ) (2025-11-23T12:00:33Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [58.056251480151104]
大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - MIB: A Mechanistic Interpretability Benchmark [77.35046700898326]
4つのタスクと5つのモデルにまたがる2つのトラックを持つメカニスティック解釈可能性ベンチマークMIBを提案する。
MIBを用いて、帰属とマスク最適化の手法が回路のローカライゼーションにおいて最適であることがわかった。
因果変数の局在化では、教師付きDAS法がニューロンより優れているが、SAEの特徴はニューロンより優れている。
論文 参考訳(メタデータ) (2025-04-17T17:55:45Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。