論文の概要: Hybrid Compression: Integrating Pruning and Quantization for Optimized Neural Networks
- arxiv url: http://arxiv.org/abs/2606.22935v1
- Date: Mon, 22 Jun 2026 07:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:27:13.803962
- Title: Hybrid Compression: Integrating Pruning and Quantization for Optimized Neural Networks
- Title(参考訳): ハイブリッド圧縮:最適化ニューラルネットワークにおけるプルーニングと量子化の統合
- Authors: Minh-Loi Nguyen, Long-Bao Nguyen, Van-Hieu Huynh, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: 本稿では,2段階のモデル圧縮手法を提案する。
まず, プルーニングや量子化などのモデル圧縮技術を用いて, モデルサイズを大幅に削減する。
次に、Mixture of Expertsを用いて、以前圧縮されたモデルをルーティングし、推論効率のバランスを維持しながら性能を向上させる。
- 参考スコア(独自算出の注目度): 10.505297793600137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks have witnessed remarkable advancements in recent years and have become integral to various applications. However, alongside these developments, training and deployment of neural network models on embedding and edge devices face significant challenges due to limited memory and computational resources. These problems can be addressed with deep neural network compression, which involves a trade-off between model size and performance. In this paper, we propose a novel method for model compression through two phases. First, we utilize model compression techniques, such as pruning and quantization, to significantly reduce the model size. Then, we use Mixture of Experts to route the previously compressed models to enhance performance while maintaining a balance in inference efficiency. MoEs consist of multiple expert models (i.e., compressed models) that are moderately sized and deliver stable performance. Experimental results on several benchmark datasets show that our method successfully compresses CNN models which achieves substantial reductions in FLOPs and parameters with a negligible accuracy drop.
- Abstract(参考訳): 近年、ディープニューラルネットワークは目覚ましい進歩を目の当たりにしており、様々な応用に欠かせないものとなっている。
しかしながら、これらの開発と並行して、組み込みデバイスやエッジデバイスにおけるニューラルネットワークモデルのトレーニングとデプロイは、メモリと計算リソースの制限による重大な課題に直面している。
これらの問題は、モデルサイズとパフォーマンスのトレードオフを伴うディープニューラルネットワーク圧縮に対処することができる。
本稿では,2段階のモデル圧縮手法を提案する。
まず, プルーニングや量子化などのモデル圧縮技術を用いて, モデルサイズを大幅に削減する。
次に、Mixture of Expertsを用いて、以前圧縮されたモデルをルーティングし、推論効率のバランスを維持しながら性能を向上させる。
MoEは複数のエキスパートモデル(圧縮モデル)で構成され、適度にサイズが小さく、安定した性能を提供する。
いくつかのベンチマークデータセットを用いた実験結果から,FLOPとパラメータの大幅な削減を実現するCNNモデルの圧縮に成功し,精度を低下させることができた。
関連論文リスト
- Big2Small: A Unifying Neural Network Framework for Model Compression [14.509737343784913]
我々は,測度理論に基づくモデル圧縮のための統一的な数学的枠組みを構築した。
各モデル圧縮手法は,正規化対象のニューラルネットワークと数学的に等価であることを示す。
本研究では,インプリシトニューラルネットワーク表現(INR)をデータ領域からネットワークパラメータの領域に翻訳する,TextitBig2Smallと呼ばれる,実験的に検証されたデータフリーモデル圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-31T14:09:19Z) - Integrating Pruning with Quantization for Efficient Deep Neural Networks Compression [0.0]
プルーニングと量子化は、モデルのサイズを減らし、処理速度を向上させるために広く使われている圧縮技術である。
本稿では,類似性に基づくフィルタプルーニングとアダプティブ・パワー・オブ・ツー(APoT)量子化を統合し,高い圧縮効率を実現する2つの手法を提案する。
実験により,提案手法は精度の低下を最小限に抑え,効率的なモデル圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-09-04T14:17:28Z) - Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - A priori compression of convolutional neural networks for wave
simulators [0.0]
現在のニューラルネットワークの設計には数百万のパラメータが含まれており、メモリに制限のあるデバイスにそのような複雑なモデルをインストールすることは困難である。
本稿では,ニューラルネットワークのトレーニングに先立って,畳み込み層を圧縮したテンソル形式,先行処理を提案する。
提案手法は,訓練可能なパラメータが少なく,メモリフットプリントも少ない古典的畳み込み層として同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-04-11T04:18:59Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。