論文の概要: UniRank: Unified Rank Allocation for Low-Rank LLM Compression
- arxiv url: http://arxiv.org/abs/2606.21847v1
- Date: Sat, 20 Jun 2026 03:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:41:30.129854
- Title: UniRank: Unified Rank Allocation for Low-Rank LLM Compression
- Title(参考訳): UniRank:低ランクLLM圧縮のための統一ランクアロケーション
- Authors: Chao Han, Haozhe Hu, Fei Ma, Wei Zhang, Xiaoyu Shen,
- Abstract要約: グローバルな低ランク割当をソート・アンド・トランケーションパイプラインとして定式化する。
高い入力出力コサイン類似度と低い有効ランクとの強い相関性を検証する。
本稿では,分解重みに対して直接LoRAチューニングを行うランク保存ファインチューニングを提案する。
- 参考スコア(独自算出の注目度): 9.742379971053806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-rank decomposition serves as a promising compression paradigm for large language models, however, rank allocation remains challenging: manual rules lack generalizability, and learning-based approaches incur heavy computational overhead. To address these issues, we formulate global low-rank allocation as a sorting-and-truncation pipeline, and score each singular component via dual criteria: \textbf{Local} singular energy ratio that quantifies the intrinsic importance within the decomposed parameter matrix and \textbf{Global} functional importance (measured by input-output cosine similarity) that evaluates the functional significance of decomposed modules. We verify the strong correlation between high input-output cosine similarity and low effective rank through geometric interpretation and experimental validation. Furthermore, we propose rank-preserving fine-tuning, which performs direct LoRA tuning on decomposed weights and avoids extra information loss caused by re-truncation in conventional merging pipelines. Empirical results confirm that our method delivers sustained performance enhancements when combined with models featuring distinct decomposition schemes, model sizes and architectural designs, e.g. in one-shot compression without further fine-tuning, our method reduces perplexity by up to 50\% compared with uniform and heuristic allocation baselines. Code will be available at https://github.com/EIT-NLP/LLM-Pruning.
- Abstract(参考訳): しかし、低ランクの分解は大きな言語モデルにとって有望な圧縮パラダイムとして機能するが、手動ルールには一般化性がなく、学習ベースのアプローチでは計算オーバーヘッドが重いため、ランクの割り当ては難しいままである。
これらの問題に対処するために、グローバルな低ランク割り当てをソート・アンド・トランニケーションパイプラインとして定式化し、2つの基準により各特異成分をスコアリングする: 分解されたパラメータ行列内の内在的重要性を定量化する \textbf{Local} 特異エネルギー比と、分解されたモジュールの機能的重要性を評価する \textbf{Global} 機能的重要性(入力出力コサイン類似度によって測定される)。
本研究では,高入力出力コサイン類似度と低有効ランクとの強い相関関係を幾何学的解釈と実験的検証により検証する。
さらに、分解した重みを直接LoRAチューニングし、従来のマージパイプラインにおける再トラクションによる余分な情報損失を回避するランク保存微調整を提案する。
実験結果から,本手法は,個別の分解スキーム,モデルサイズ,アーキテクチャ設計を特徴とするモデルと組み合わせた場合の持続的性能向上を実現し,例えば,さらなる微調整を伴わないワンショット圧縮では,均一およびヒューリスティックなアロケーションベースラインと比較して,パープレキシティを最大50%低減することを確認した。
コードはhttps://github.com/EIT-NLP/LLM-Pruning.comから入手できる。
関連論文リスト
- Closed-Form Spectral Regularization for Multi-Task Model Merging [96.82449201305234]
モデルマージは、個別に調整された複数の専門家をトレーニングデータなしで単一のマルチタスクモデルに結合する。
State-of-the-art merging method formulate merging as a layer-wise interference problem。
本稿では,逐次降下の勾配-流路に一致するソフト指数フィルタを組み合わせた閉形式手法SWUDIを提案する。
論文 参考訳(メタデータ) (2026-06-05T14:00:47Z) - GRASP: Geometry-aware Residual Alignment for Scalable Pretraining Data Attribution [5.770893169582546]
この研究は、属性をサブセットレベルの反事実的ユーティリティ予測として再定義する。
相互作用を意識したサロゲートであるGRASPを紹介する。
それは、既存のスケーラブルなベースラインを決定的に上回る。
論文 参考訳(メタデータ) (2026-06-05T04:17:50Z) - ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression [5.223477157195793]
中間のロスト」現象は、入力長が大きくなるにつれてランキング品質を低下させる。
推論レイテンシは、シーケンス長と超直線的にスケールし、産業展開において非現実的にリストワイズする。
ResRankは、両方の課題を根本的に解決する統合検索格付けフレームワークである。
論文 参考訳(メタデータ) (2026-04-24T03:11:51Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Simple yet Effective: Low-Rank Spatial Attention for Neural Operators [12.794762297826848]
本稿では,このテンプレートのクリーンかつ直接的なインスタンス化として,LRSA(Low-Rank Spatial Attention)を導入する。
非標準集約や正規化モジュールに依存する従来のアプローチとは異なり、LRSAは標準トランスフォーマープリミティブから純粋に構築されている。
我々の実験では、そのような単純な構成は高い精度を達成するのに十分であり、平均誤差は17%以上である。
論文 参考訳(メタデータ) (2026-04-04T04:15:01Z) - Robust low-rank estimation with multiple binary responses using pairwise AUC loss [0.0]
複数のバイナリ応答は、多くの現代のデータ分析問題に現れる。
低ランクモデルはタスク間の遅延依存をエンコードする自然な方法を提供する。
既存のバイナリデータの方法は概ね可能性ベースであり、ポイントワイズ分類に重点を置いている。
論文 参考訳(メタデータ) (2026-01-13T15:00:10Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
Pivoting Factorization (PIFA) は、任意の低ランク表現のコンパクトな形式を教師なしで学習する新しい低ランク表現である。
PIFAは24.2%のメモリ節約と24.6%の高速化を実現している。
MPIFAは、MとPIFAをエンドツーエンドのフレームワークに統合し、既存の低ランクプルーニング手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2025-01-31T12:36:31Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。