論文の概要: Can Deep Neural Networks Improve Compression of Very Large Scientific Data?
- arxiv url: http://arxiv.org/abs/2606.14353v1
- Date: Fri, 12 Jun 2026 11:22:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.874782
- Title: Can Deep Neural Networks Improve Compression of Very Large Scientific Data?
- Title(参考訳): ディープニューラルネットワークは超大規模科学データの圧縮を改善するか?
- Authors: Muhannad Alhumaidi, Guozhong Li, Spiros Skiadopoulos, Panos Kalnis,
- Abstract要約: 本稿では,空間的および時間的深層学習モデルを従来の誤り境界圧縮パイプラインに統合するフレームワークを提案する。
VAEformer-based (CRA5)、グラフニューラルネットワーク予測器(GraphCast)、ビジョン変換器予測器(Aurora)の3つの異なるML予測器を評価した。
約1.7TBのデータに対する我々の評価は驚くべき結果である:ML予測器はより正確な予測を生成するが、全体のデータセットレベルの圧縮比は改善しない。
- 参考スコア(独自算出の注目度): 4.2414540423650795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error-bounded lossy compression is a fundamental technique for managing the rapidly growing volumes of scientific data produced by modern simulations and observational instruments. Most state-of-the-art-compressors follow a prediction-residual paradigm, where compression effectiveness depends on the quality of the predictor: more accurate predictions generate smaller residuals that are easier to compress. This observation raises a question: can modern machine learning models serve as superior predictors for scientific data compression? Answering this question directly is challenging because developing compression-specific ML predictors requires substantial resources. Instead, we leverage the climate domain where highly accurate pretrained weather forecasting foundation models already exist, making them an ideal testbed. We present a framework that integrates spatial and temporal deep learning models into a conventional error-bounded compression pipeline. The framework supports auto-regressive forecasting models and avoids error accumulation. Using ERA5 climate data as a representative large-scale scientific dataset, we evaluate three distinct ML predictors: a VAEformer-based codec (CRA5), a graph neural network forecaster (GraphCast), and a vision-transformer forecaster (Aurora), against the state-of-the-art compressor SZ3.1 under identical quantization and entropy-coding backends. Our evaluation over approximately 1.7 TB of data reveals a surprising result: although ML predictors generate more accurate predictions and can improve reconstruction quality by up to 91% while achieving up to 9.6x higher compression ratios for highly predictable variables, they do not improve overall dataset-level compression ratio. We show that prediction accuracy alone is insufficient: the spatial structure of the resulting residuals plays a decisive role in entropy coding efficiency.
- Abstract(参考訳): エラーバウンドの損失圧縮は、現代のシミュレーションや観測機器が生み出す、急速に増大する科学データの量を管理するための基本的な技術である。
ほとんどの最先端圧縮機は予測残留のパラダイムに従っており、圧縮効率は予測器の品質に依存する:より正確な予測は圧縮しやすい小さな残留物を生成する。
現代の機械学習モデルは、科学的データ圧縮の優れた予測器として機能するのか?
圧縮固有のML予測器を開発するには、かなりのリソースを必要とするため、この問題を直接答えることは難しい。
代わりに、高度に正確に事前訓練された天気予報基礎モデルが存在する気候領域を活用し、理想的なテストベッドとなる。
本稿では,空間的および時間的深層学習モデルを従来の誤り境界圧縮パイプラインに統合するフレームワークを提案する。
このフレームワークは自動回帰予測モデルをサポートし、エラーの蓄積を避ける。
大規模科学データセットとしてERA5気候データを用いて,VAEformer-based codec(CRA5),グラフニューラルネットワーク予測器(GraphCast),ビジョントランスフォーマー予測器(Aurora)の3つの異なるML予測器を,同じ量子化およびエントロピー符号化バックエンド下での最先端圧縮器SZ3.1に対して評価した。
ML予測器はより正確な予測を生成でき、高い予測可能な変数に対して最大9.6倍の圧縮比を達成しながら、復元品質を最大91%向上させることができるが、全体のデータセットレベルの圧縮比は改善しない。
得られた残差の空間構造はエントロピー符号化効率において決定的な役割を果たす。
関連論文リスト
- DeepCQ: General-Purpose Deep-Surrogate Framework for Lossy Compression Quality Prediction [4.634179787231294]
圧縮品質の損失予測のための汎用的なディープサロゲートフレームワーク(DeepCQ)を提案する。
我々の結果はフレームワークの異常な予測精度を強調しており、ほとんどの設定で予測エラーは10%以下である。
論文 参考訳(メタデータ) (2025-12-24T21:46:17Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - CompGS++: Compressed Gaussian Splatting for Static and Dynamic Scene Representation [60.712165339762116]
CompGS++はコンパクトガウスプリミティブを活用して正確な3Dモデリングを実現する新しいフレームワークである。
私たちの設計は、プリミティブ間の冗長性をなくすという原則に基づいている。
私たちの実装は、さらなる研究を促進するためにGitHubで公開されます。
論文 参考訳(メタデータ) (2025-04-17T15:33:01Z) - Variable Rate Neural Compression for Sparse Detector Data [9.331686712558144]
本稿では,スパース畳み込みによるキーポイント識別によるTPCデータ圧縮手法を提案する。
BCAE-VSは、以前の最先端モデルよりも圧縮率を10%高め、再構築精度を75%高めている。
論文 参考訳(メタデータ) (2024-11-18T17:15:35Z) - NeurLZ: An Online Neural Learning-Based Method to Enhance Scientific Lossy Compression [34.30562110131907]
NeurLZは、オンライン学習、クロスフィールド学習、堅牢なエラー制御を統合することで、損失圧縮を強化するように設計されたニューラルネットワークである。
最初の5つの学習エポックの間、NeurLZは89%のビットレート削減を実現し、さらなる最適化により、同等の歪みで最大94%の削減が得られる。
論文 参考訳(メタデータ) (2024-09-09T16:48:09Z) - CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding [62.075029712357]
本研究は認知拡散確率モデル(CogDPM)を紹介する。
CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。
我々は,Universal Kindomの降水量と表面風速データセットを用いた実世界の予測タスクにCogDPMを適用した。
論文 参考訳(メタデータ) (2024-05-03T15:54:50Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Learning to Predict Trustworthiness with Steep Slope Loss [69.40817968905495]
本研究では,現実の大規模データセットにおける信頼性の予測問題について検討する。
我々は、先行技術損失関数で訓練された信頼性予測器が、正しい予測と誤った予測の両方を信頼に値するものとみなす傾向があることを観察する。
そこで我々は,2つのスライド状の曲線による不正確な予測から,特徴w.r.t.正しい予測を分離する,新たな急勾配損失を提案する。
論文 参考訳(メタデータ) (2021-09-30T19:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。