論文の概要: Activation- and Influence-Aware Ranks (AIR): Function-Preserving SVD Compression for LLMs
- arxiv url: http://arxiv.org/abs/2606.19993v1
- Date: Thu, 18 Jun 2026 09:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.768222
- Title: Activation- and Influence-Aware Ranks (AIR): Function-Preserving SVD Compression for LLMs
- Title(参考訳): アクティベーション・アンド・インフルエンス・アウェア・ランク(AIR) : LLMにおける機能保存型SVD圧縮
- Authors: Nico Harder, Daniel Becking, Karsten Mueller, Wojciech Samek,
- Abstract要約: アクティベーション・インフルエンス・アウェア・ランク(AIR)
本稿では,各重み行列の低ランク近似を後方信号の影響度で導出するSVDベースのLLM圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.238380139553685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Activation- and Influence-Aware Ranks (AIR), an SVD-based LLM compression framework that guides each weight matrix's low-rank approximation with a backward-signal influence metric. Starting from the activation-aware optimum of SVD-LLM(W), AIR runs a single closed-form alternating least squares (ALS) sweep that integrates influence element-wise under a monotone-descent guarantee. AIR is layer-local and composes orthogonally with end-to-end methods: alone it exceeds ACIP, and AIR+LoRA outperforms it further. AIR improves perplexity over SVD-LLM(W) by >18% at <=60% parameter retention, matches its quality with ~90% less calibration data, and turns parameter savings into FLOP, peak-memory, and per-token latency gains.
- Abstract(参考訳): SVDベースのLLM圧縮フレームワークである Activation- and Influence-Aware Ranks (AIR) について述べる。
SVD-LLM(W)のアクティベーションを意識した最適化から始め、AIRは1つの閉形式交代最小二乗スイープ(ALS)を実行する。
AIRはレイヤローカルで、エンドツーエンドのメソッドと直交して構成します。
AIRは<=60%のパラメータ保持率で18%以上のSVD-LLM(W)のパープレキシティを改善し、その品質を約90%のキャリブレーションデータと一致させ、パラメータのセーブをFLOP、ピークメモリ、トーケン毎のレイテンシゲインに変換する。
関連論文リスト
- Collaborative Low-Rank Adaptation for Pre-Trained Vision Transformers [24.09620027916443]
低ランク適応(LoRA)は、様々な下流タスクのための微調整済みの視覚変換器において顕著な成功を収めた。
本稿では,協調低ランク適応(CLoRA)と呼ばれる新しいチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-12-31T03:46:49Z) - Timely Parameter Updating in Over-the-Air Federated Learning [45.5660377179285]
我々は,各通信ラウンドにおいて,最も影響のある勾配のサブセットを選択するアルゴリズムであるフレッシュネス・フレッシュネス・mAgnItude awaRe top-k (FAIR-k)を提案する。
本研究では,FAIR-kが新たな(かつ公平な)パラメータの更新を促進し,局所訓練期間を延長することで,全体の訓練効率に大きな影響を及ぼすことなく通信効率を向上させることを示す。
論文 参考訳(メタデータ) (2025-12-22T07:18:13Z) - UAV Individual Identification via Distilled RF Fingerprints-Based LLM in ISAC Networks [60.16924915676577]
無人航空機(UAV)個人識別は、低高度統合センシング通信(ISAC)ネットワークにおける重要なセキュリティ監視戦略である。
UAVID識別のための新しい動的知識蒸留(KD)対応無線周波数指紋大言語モデル(RFF-LLM)を提案する。
実験結果から,提案フレームワークは,0.15万のパラメータと2.74ミリ秒の応答時間で,98.38%のID識別精度を実現していることがわかった。
論文 参考訳(メタデータ) (2025-08-18T03:14:44Z) - AirLLM: Diffusion Policy-based Adaptive LoRA for Remote Fine-Tuning of LLM over the Air [14.089748643405498]
AirLLMは、コミュニケーションを意識したLoRA適応のための階層的な拡散ポリシーフレームワークである。
AirLLMは、送信コストを大幅に削減しつつ、微調整性能を継続的に向上させる。
論文 参考訳(メタデータ) (2025-07-15T17:36:37Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - SIBO: A Simple Booster for Parameter-Efficient Fine-Tuning [10.450910399290818]
初期残基を注入することによりPEFTを増強するSIBOを提案する。
22のベンチマークデータセットに対する大規模な実験により、SIBOは様々な強力なベースラインの性能を著しく向上させ、算術および常識推論タスクにおける既存のPEFTメソッドよりも最大15.7%、23.5%向上した。
論文 参考訳(メタデータ) (2024-02-19T07:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。