論文の概要: Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism
- arxiv url: http://arxiv.org/abs/2606.09377v2
- Date: Tue, 09 Jun 2026 11:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.817011
- Title: Scaling Neural Network Verification with Tensor Parallelism and Fully Sharded Data Parallelism
- Title(参考訳): テンソル並列と完全シャードデータ並列によるニューラルネットワークのスケーリング検証
- Authors: Sergei Vorobyov, Eugene Ilyushin,
- Abstract要約: 形式的ニューラルネットワーク検証は、実際にはGPUメモリによって境界付けられている。
大規模なモデルトレーニングのために開発された2つのテクニックをauto_LiRPA / $,$-CROWN 検証フレームワークに適用する。
フルシャードデータ並列(FSDP)シャードは、層ごとのAllGatherで重量行列のみをシャードし、単一GPUベースラインとビット単位で同一のバウンドを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Formal neural network verification -- proving that a network satisfies safety properties for *all* inputs in a specified domain -- is bounded in practice by GPU memory: standard implementations of bound-propagation algorithms (IBP, CROWN, $α$-CROWN) require weight and relaxation-coefficient matrices to reside entirely on one accelerator. We adapt two parallelism techniques originally developed for large-scale model training to the auto_LiRPA / $α,β$-CROWN verification framework. Tensor Parallelism (TP) shards both weight and $A$-matrices across GPUs, achieving ${\approx}2\times$ peak-memory reduction at $P{=}2$; soundness is confirmed on VNN-COMP 2022 MNIST-FC benchmarks, though bound tightness degrades with the number of sharded zones due to forced IBP substitution for intermediate bounds inside sharded zones. Fully Sharded Data Parallelism (FSDP) shards only weight matrices with a per-layer AllGather, producing bounds that are bitwise identical to the single-GPU baseline: baseline memory drops by 80--90%, peak memory by 34--39% on wide MLPs. FSDP integrates cleanly with complete verification ($β$-CROWN + Branch-and-Bound) and with convolutional layers (BoundConv); a complete unsat result is obtained for CIFAR-100 ResNet-large (VNN-COMP 2024) under FSDP. Across all experiments the memory bottleneck in $α$-CROWN+BaB mode proves to be per-neuron alpha tensors, not weight matrices, pointing to the key direction for future work.
- Abstract(参考訳): 形式的ニューラルネットワーク検証 -- 指定されたドメインにおける*all*入力の安全性をネットワークが満足していることを証明する -- は、実際にはGPUメモリによってバウンドされている。
大規模なモデルトレーニングのために開発された2つの並列化手法を Auto_LiRPA / $α,β$-CROWN 検証フレームワークに適用する。
Tensor Parallelism (TP)は、GPU間の重量とA$-行列の両方をシャードし、${\approx}2\times$P{=}2$でピークメモリの削減を実現している。
フルシャードデータ並列(FSDP)シャードは1層ごとのAllGatherでのみ重み行列を生成し、単一のGPUベースラインとビット単位で同一のバウンダリを生成する:ベースラインメモリは80-90%減少し、ピークメモリは34-39%広いMLPで減少する。
FSDPは、完全な検証(β$-CROWN + Branch-and-Bound)と畳み込み層(BoundConv)をクリーンに統合し、FSDPの下でCIFAR-100 ResNet-large(VNN-COMP 2024)に対して完全なアンサット結果を得る。
すべての実験において、$α$-CROWN+BaBモードのメモリボトルネックは、重み行列ではなく、ニューロンごとのアルファテンソルであることが証明され、将来の研究の鍵となる方向を指している。
関連論文リスト
- ChunkFT: Byte-Streamed Optimization for Memory-Efficient Full Fine-Tuning [58.54940026861599]
textscChunkFTはメモリ効率の良い微調整フレームワークである。
textscChunkFTは、ネットワークアーキテクチャを変更することなく任意のサブテンソルの勾配計算を可能にする。
textscChunkFTは、既存のメモリ効率のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-20T13:44:44Z) - Hierarchical Transformer Preconditioning for Interactive Physics Simulation [28.137076331332413]
階層型トランスフォーマープレコンディショナー(Hierarchical Transformer Preconditioner)は、弱い許容率のH行列分割に固定されたニューラルプレコンディショナーである。
ネットワークは低ランクの遠距離因子を通して逆をモデル化する。
高速道路の接続を利用して、奥行きを隔ててコンテキストを伝播する。
論文 参考訳(メタデータ) (2026-05-13T11:02:27Z) - LBI: Parallel Scan Backpropagation via Latent Bounded Interfaces [1.8179911892344436]
本稿では,スキャンベースのバックプロパゲーションをトラクタブルにするアルゴリズム式であるLatent Bounded Interfaces (LBI)を紹介する。
LBIは接尾辞再帰を$r倍r$ヤコビアンに還元し、コンビネーション当たりのコストを$O(d3)$から$O(r3)$に削減する。
47-61Mブロックパラメータにおいて,LBIはモデル品質を4つのアーキテクチャ(Mamba-2,Mamba-3,Transformer,Mamba-Transformerハイブリッド)で維持することを示した。
論文 参考訳(メタデータ) (2026-05-09T22:46:46Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。