論文の概要: EinSort: Sorting is All We Need for Tensorizing LLM
- arxiv url: http://arxiv.org/abs/2606.08565v1
- Date: Sun, 07 Jun 2026 10:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.266254
- Title: EinSort: Sorting is All We Need for Tensorizing LLM
- Title(参考訳): EinSort: LLMのテンソル化に必要なのはSortingだけ
- Authors: Toshiaki Koike-Akino, Jing Liu, Ye Wang,
- Abstract要約: 本稿では,ターゲットテンソルに固有の低ランク構造をインデックス順序で検出する適応的テンソル化手法を提案する。
重量, KV-cache圧縮実験では, ベースラインに比べて再現性が改善された。
- 参考スコア(独自算出の注目度): 20.603753314256704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor networks provide efficient representations for compressing large neural networks. By carefully designing shapes and topologies, they can significantly reduce memory and computational costs. However, identifying implicit low-rank structures in large foundation models remains challenging due to their enormous scale and un-structured weight distributions. We propose an adaptive tensorization method that discovers inherent low-rank structure in a target tensor by index ordering. Experiments on weight and KV-cache compression demonstrate improved reconstruction quality compared to baselines.
- Abstract(参考訳): テンソルネットワークは、大きなニューラルネットワークを圧縮するための効率的な表現を提供する。
形状やトポロジを慎重に設計することで、メモリと計算コストを大幅に削減することができる。
しかし、巨大な基礎モデルにおいて暗黙の低ランク構造を識別することは、その巨大なスケールと非構造的重量分布のために難しいままである。
本稿では,ターゲットテンソルに固有の低ランク構造をインデックス順序で検出する適応的テンソル化手法を提案する。
重量, KV-cache圧縮実験では, ベースラインに比べて再現性が改善された。
関連論文リスト
- Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression [68.1291440835878]
分解は有望な方向として現れ、トランスフォーマーの重み構造に適したコンパクトなパラメータ化を提供する。
既存の研究では、これらの手法を狭い環境で評価しており、大規模展開においてテンソル化が有効かどうかは不明である。
我々は高密度およびMoEのテンソル圧縮を体系的に評価し、経験的解析と理論的解析の両方に基礎を置いた性能トレードオフを確立する。
論文 参考訳(メタデータ) (2026-06-02T10:45:21Z) - tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3037269687250654]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。
ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。
テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文 参考訳(メタデータ) (2025-01-04T08:25:32Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Low-Rank+Sparse Tensor Compression for Neural Networks [11.632913694957868]
本稿では,低ランクテンソル分解とスパースプルーニングを組み合わせることで,圧縮の粗さと微細構造を両立させることを提案する。
我々はSOTAアーキテクチャ(MobileNetv3、EfficientNet、Vision Transformer)の重みを圧縮し、この手法をスパースプルーニングとテンソル分解だけで比較する。
論文 参考訳(メタデータ) (2021-11-02T15:55:07Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Adaptive Learning of Tensor Network Structures [6.407946291544721]
我々はTN形式を利用して汎用的で効率的な適応アルゴリズムを開発し、データからTNの構造とパラメータを学習する。
本アルゴリズムは,任意の微分対象関数を効果的に最適化する少数のパラメータでTN構造を適応的に同定することができる。
論文 参考訳(メタデータ) (2020-08-12T16:41:56Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。