論文の概要: MonaVec: A Training-Free Embedded Vector Search Kernel for Edge and Offline AI Systems
- arxiv url: http://arxiv.org/abs/2606.19458v1
- Date: Wed, 17 Jun 2026 18:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.465925
- Title: MonaVec: A Training-Free Embedded Vector Search Kernel for Edge and Offline AI Systems
- Title(参考訳): MonaVec:エッジとオフラインAIシステムのためのトレーニング不要な埋め込みベクトル検索カーネル
- Authors: Oğuzhan Yenen,
- Abstract要約: MonaVecはエッジとオフラインAIのための決定論的、組み込みベクター検索カーネルである。
デバイス上のRAG,オフラインの組込み検索 -- リレーショナルデータのニッチ – をターゲットとしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MonaVec, a deterministic, embedded vector-search kernel for edge and offline AI -- settings where server infrastructure, network connectivity, and training data are all unavailable. Existing vector-search systems assume a persistent server, gigabytes of RAM, or a training pass over the corpus; MonaVec instead targets the deployment profile of SQLite: one file, one function call, runs anywhere. Its quantization core is training-free by default and data-oblivious: a Randomized Hadamard Transform (RHDH) conditions any input distribution toward N(0,1), so precomputed Lloyd-Max tables quantize to 4 bits (8x smaller) with no learned codebook and no data pass. The index persists as a single .mvec file whose embedded ChaCha20 rotation seed makes results reproducible across architectures and byte-identical within a build -- a determinism guarantee that parallel-build graph libraries cannot offer. On semantic embeddings (AG News, 45K x 1024-dim BGE-M3, cosine), MonaVec 4-bit BruteForce reaches 0.960 Recall@10 in 27 MB -- leading float32 FAISS-IVF and 8-bit usearch on recall -- while trading peak throughput for byte-identical determinism. A single-pass global standardization (fit()) extends the same data-oblivious pipeline to magnitude-sensitive L2 data, and optional IvfFlat and HNSW backends carry it to million-vector corpora. MonaVec is implemented in pure Rust with Python bindings and runtime SIMD dispatch (AVX-512/AVX2/NEON/scalar). It targets on-device RAG, offline agents, and embedded retrieval -- the niche SQLite occupies for relational data: one file, one call, runs anywhere.
- Abstract(参考訳): 私たちは、エッジとオフラインAIのための決定論的で組み込みベクタ検索カーネルであるMonaVecを紹介します。
既存のベクター検索システムは、永続サーバ、RAM、またはコーパス上のトレーニングパスを前提としています。
RHDH (Randomized Hadamard Transform) は N(0,1) に対して任意の入力分布を条件付けているので、事前計算された Lloyd-Max テーブルは、学習コードブックが無く、データパスも無い4ビット (8 倍小さい) まで量子化する。
インデックスは 1 つの . として持続する。
組み込みのChaCha20ローテーションシードを持つmvecファイルは、ビルド内のアーキテクチャやバイト単位の成果を再現する -- 並列ビルドグラフライブラリが提供できないことを決定論的に保証する。
セマンティック埋め込み(AG News, 45K x 1024-dim BGE-M3, cosine)では、MonaVec 4-bit BruteForceが0.960 Recall@10 in 27 MBに達した。
シングルパスグローバル標準化(fit())は、同じデータ公開パイプラインをグレードに敏感なL2データに拡張し、オプションのIvfFlatとHNSWバックエンドはそれを100万ベクタコーパスに転送する。
MonaVecは、PythonバインディングとランタイムSIMDディスパッチ(AVX-512/AVX2/NEON/scalar)を備えた、純粋なRustで実装されている。
デバイス上のRAG、オフラインエージェント、組み込み検索をターゲットとしています -- ニッチなSQLiteはリレーショナルデータを占有しています。
関連論文リスト
- Rigel: Reverse-Engineering the Metal 4.1 Tensor Compute Path on the Apple M4 Max GPU [3.151184728006369]
我々は、Apple M4 Maxのこのパスを実証的に特徴づけるRigelを紹介します。
私たちは不透明な8x8コラボレーティブ_tensorのフラグメントレイアウトを再構築します。
キャラクタリゼーションにより、GEMM + bias + GELUカーネルはキャッシュ抵抗状態において分解されたパスを+6.5-12.9%上回る。
論文 参考訳(メタデータ) (2026-06-11T00:10:23Z) - Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism [0.0]
形式的ニューラルネットワーク検証は、実際にはGPUメモリによって境界付けられている。
大規模なモデルトレーニングのために開発された2つのテクニックをauto_LiRPA / $,$-CROWN 検証フレームワークに適用する。
フルシャードデータ並列(FSDP)シャードは、層ごとのAllGatherで重量行列のみをシャードし、単一GPUベースラインとビット単位で同一のバウンドを生成する。
論文 参考訳(メタデータ) (2026-06-08T11:56:29Z) - FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Scoring [2.159285655678094]
Flash-MaxSimは、テンソルを作らずに全く同じスコアを計算するIO対応カーネルである。
一致した精度ではPyTorchよりもA100では最大3.9倍高速で、推論メモリは最大16倍、トレーニングメモリは28倍高速である。
論文 参考訳(メタデータ) (2026-05-28T07:38:27Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [110.90283601829724]
ペタバイトレベルのテキストコーパスを検索可能にするシステムであるinfini-gram miniを提案する。
FMインデックスデータ構造に基づいて,本システムはコーパスの44%の大きさのインデックスを生成する。
ベンチマーク汚染の大規模解析において重要なユースケースが1つある。
論文 参考訳(メタデータ) (2025-06-13T21:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。