論文の概要: The Clustering Strikes Back: Building Cost-Effective and High-Performance ANNS at Scale with Helmsman
- arxiv url: http://arxiv.org/abs/2606.13145v1
- Date: Thu, 11 Jun 2026 10:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.720232
- Title: The Clustering Strikes Back: Building Cost-Effective and High-Performance ANNS at Scale with Helmsman
- Title(参考訳): クラスタリングが後退 - Helmsman氏によるコスト効果と高性能ANNSの構築
- Authors: Yuchen Huang, Baiteng Ma, Yiping Sun, Yang Shi, Xiao Chen, Xiaocheng Zhong, Zhiyong Wang, Yao Hu, Erci Xu, Chuliang Weng,
- Abstract要約: グローバルなソーシャルネットワークプラットホームRedNoteは、近くにある近くの検索(ANNS)を利用して、検索、レコメンデーション、広告サービスを動かしている。
我々は、ANNS指向のユーザ空間ストレージスタック、レベリング学習モジュール、GPUアクセラレーションパイプラインを組み合わせた高性能で費用対効果の高いクラスタリングベースのANNSシステムであるHELMSMANを提案する。
- 参考スコア(独自算出の注目度): 22.82889680385777
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: RedNote (a.k.a., Xiaohongshu, a global-scale social network platform) widely adopts approximate nearest neighbor search (ANNS) to power its search, recommendation, and advertising services. Due to the demanding Service Level Agreements (SLAs), we have to rely on in-memory graph-based ANNS (i.e., HNSW) to provide high throughput and low latency. However, the ever-growing user base and content volume have led to an explosive increase in memory footprint and consequently huge CapEx and OpEx. After exploring various alternatives, we find that building a clustering-based ANNS on top of all-flash servers can be promising. Yet, we still experience severe overheads from the kernel I/O stack, a fixed pruning strategy, and slow index construction. We present HELMSMAN, a high-performance and cost-effective clustering-based ANNS system, which combines an ANNS-oriented userspace storage stack, a leveling-learned pruning module, and GPU-accelerated pipelines of construction. HELMSMAN saves over 90% of hardware costs and enables billion-scale index (re)builds within hours. In the current production deployment, operating stably for several months, 40 machines now host ANNS workloads that previously required about 35,000 cores and 0.35 PB DRAM.
- Abstract(参考訳): RedNote(別名、グローバルなソーシャルネットワークプラットフォームXiaohongshu)は、その検索、レコメンデーション、広告サービスのために、近距離検索(ANNS)を広く採用している。
SLA(Service Level Agreements)が要求されるため、高いスループットと低レイテンシを提供するために、インメモリグラフベースのANNS(HNSW)に頼る必要があります。
しかし、成長を続けるユーザベースとコンテンツボリュームは、メモリフットプリントが爆発的に増加し、結果としてCapExとOpExが巨大なものになった。
さまざまな選択肢を探索した結果、すべてのフラッシュサーバ上にクラスタリングベースのANNSを構築することが期待できることがわかった。
しかし、カーネルI/Oスタックや固定プルーニング戦略、インデックス構築の遅さから、依然として大きなオーバーヘッドを経験しています。
我々は、ANNS指向のユーザ空間ストレージスタック、レベリング学習モジュール、GPUアクセラレーションパイプラインを組み合わせた高性能で費用対効果の高いクラスタリングベースのANNSシステムであるHELMSMANを提案する。
HELMSMANはハードウェアコストの90%以上を節約し、時間内に数十億のインデックス(再)ビルドを可能にする。
現在の運用環境では、数ヶ月安定して運用されており、40台のマシンがANNSワークロードをホストしており、約35,000コアと0.35PB DRAMを必要としていた。
関連論文リスト
- CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs [23.15508517135215]
ベクター近傍サーチ(ANNS)は、検索エンジン、レコメンデーションシステム、広告サービスを支える。
ANNSインデックスの最近の進歩により、CPUは数百万スケールのインメモリベクトルサーチに費用対効果がある。
現代のCCDベースのマルチコアCPUは、私たちのサービスで高いスループットのために広くデプロイされています。
論文 参考訳(メタデータ) (2026-05-11T07:09:29Z) - Onyx: Cost-Efficient Disk-Oblivious ANN Search [19.458204311910496]
AIシステムにおける近似近接探索(ANN)は、ますますサードパーティのインフラ上の機密データを処理している。
ORAM(Oblivious RAM)はアクセスパターンを隠蔽するが、既存のディスクベースのANN検索技術と組み合わせることで、リソースの活用を損なう。
我々は2つの新しい設計したコンポーネントを持つコスト効率の高いOnyxアプローチを提案する。
論文 参考訳(メタデータ) (2026-04-22T10:12:19Z) - SLOFetch: Compressed-Hierarchical Instruction Prefetching for Cloud Microservices [1.6182734057301966]
大規模ネットワークサービスは、深いソフトウェアスタックとマイクロサービスオーケストレーションに依存している。
我々は、これらのクラウドワークロードに対する命令プリフェッチを再考し、SLO駆動および自己最適化システムと整合する設計を提案する。
データセンターアプリケーションでは,チップ状態が小さく,EIPのようなスピードアップが維持され,ML時代のネットワークサービスの効率が向上する。
論文 参考訳(メタデータ) (2025-11-06T19:48:53Z) - WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers [4.817548755757474]
ブラウザ内の近接探索(ANNS)は、現代のAIインフラにとって不可欠である。
本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
論文 参考訳(メタデータ) (2025-07-01T07:37:18Z) - LEANN: A Low-Storage Vector Index [70.13770593890655]
LEANNは、リソース制約されたパーソナルデバイスに最適化された、ストレージ効率の近い近接検索インデックスである。
評価の結果,LEANNは原データの5%以下までインデックスサイズを縮小し,標準インデックスの最大50倍のストレージを実現した。
論文 参考訳(メタデータ) (2025-06-09T22:43:30Z) - HiAER-Spike: Hardware-Software Co-Design for Large-Scale Reconfigurable Event-Driven Neuromorphic Computing [0.10753375071491325]
HiAER-Spikeは、再構成可能でイベント駆動型ニューロモルフィックコンピューティングプラットフォームである。
最大1億6000万のニューロンと400億のシナプスを持つ大きなスパイクニューラルネットワークを実行するように設計されている。
論文 参考訳(メタデータ) (2025-03-20T23:54:33Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - Connection Sensitivity Matters for Training-free DARTS: From
Architecture-Level Scoring to Operation-Level Sensitivity Analysis [32.94768616851585]
最近提案されたトレーニングフリーNAS手法は、トレーニングフェーズを放棄し、優れたアーキテクチャを識別するためのスコアとして、さまざまなゼロコストプロキシを設計する。
本稿では, DARTSにおける操作重要度を, パラメータ集中バイアスを回避して, トレーニング不要な方法で適切に測定できるか, という問題を提起する。
ZEROSをNASに活用するための反復的かつデータに依存しない手法を考案することにより、新しい試行は自由微分型アーキテクチャサーチ(FreeDARTS)と呼ばれるフレームワークに繋がる。
論文 参考訳(メタデータ) (2021-06-22T04:40:34Z) - Memory-Efficient Hierarchical Neural Architecture Search for Image
Restoration [68.6505473346005]
メモリ効率の高い階層型NAS HiNAS(HiNAS)を提案する。
単一の GTX1080Ti GPU では、BSD 500 でネットワークを消すのに約 1 時間、DIV2K で超解像構造を探すのに 3.5 時間しかかかりません。
論文 参考訳(メタデータ) (2020-12-24T12:06:17Z) - NPAS: A Compiler-aware Framework of Unified Network Pruning and
Architecture Search for Beyond Real-Time Mobile Acceleration [48.25487285358816]
異なるDNNと異なるプルーニングスキームをサポートするコンパイラ自動コード生成フレームワークを提案する。
また,NPAS,コンパイラ対応統合ネットワークプルーニング,アーキテクチャ検索を提案する。
我々のフレームワークは,市販携帯電話でそれぞれ78.2%,75%(MobileNet-V3レベル),71%(MobileNet-V2レベル)のTop-1精度で6.7ms,5.9ms,3.9msのImageNet推論時間を実現している。
論文 参考訳(メタデータ) (2020-12-01T16:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。