論文の概要: Complementary Attention Head Pruning for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2606.19150v1
- Date: Wed, 17 Jun 2026 14:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.218766
- Title: Complementary Attention Head Pruning for Efficient Transformers
- Title(参考訳): 効率的な変圧器のための補足型アテンションヘッドプルーニング
- Authors: Yaniv Livertovsky, Shahar Somin, Gonen Singer,
- Abstract要約: 本稿では,頭部選択をグローバルグラフ理論問題として再定義する新しいフレームワークであるCAHPを紹介する。
CAHPグラフベースのクラスタリングと情報理論距離計を組み合わせることで、注目ヘッドの最も多様なサブセットを特定し保存する。
構造解析の結果,CAHPは勾配式プルーニング手法の「近さバイアス」を回避し,主に出力に近い層で頭部を保存し,その代わりに機能的に重要なアテンションヘッドをモデル中間層に保持する傾向にあることがわかった。
- 参考スコア(独自算出の注目度): 2.2991119948183525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of Transformer-based models in natural language processing stems from architectural scaling, which leads to a large number of parameters and hinders deployment in resource-constrained environments. While structured pruning offers a pathway to compression, existing state-of-the-art methods often rely on gradient-based importance ranking or stochastic gating, which suffer from instability, structural degeneration, and the need for extensive manual hyperparameter tuning. In this paper, we introduce CAHP (Complementary Attention Head Pruning), a novel post-hoc framework that redefines head selection as a global graph-theoretical problem. Rather than evaluating heads in isolation, CAHP utilizes graph-based clustering combined with information-theoretic distance measures to identify and preserve a topologically diverse subset of complementary attention heads. Without requiring a predefined sparsity level or pruning ratio, the framework automatically determines the number of selected attention heads across layers by identifying a diminishing marginal performance curve, where pruning additional heads leads to a sharp degradation in performance, as determined by the chosen polynomial degree. Extensive evaluations on the SST-5 and MNLI benchmarks, across different Transformer model scales, demonstrate that CAHP consistently outperforms competitive baselines, particularly in high-compression regimes. Furthermore, our structural analysis shows that CAHP avoids the "proximity bias" of gradient-based pruning methods, which tend to preserve heads mainly in layers close to the output, and instead retains a functionally critical set of attention heads in the model's intermediate layers.
- Abstract(参考訳): 自然言語処理におけるTransformerベースのモデルの成功は、アーキテクチャのスケーリングに起因する。
構造化プルーニングは圧縮の経路を提供するが、既存の最先端の手法は、不安定性、構造劣化、広範囲な手動ハイパーパラメータチューニングの必要性に悩まされる勾配に基づく重要度ランキングや確率ゲーティングに依存していることが多い。
本稿では,グローバルグラフ理論問題として頭部選択を再定義する新しいポストホックフレームワークであるCAHP(Complementary Attention Head Pruning)を紹介する。
CAHPは、単独で頭部を評価するのではなく、グラフベースのクラスタリングと情報理論距離測定を組み合わせて、相補的な注意ヘッドの位相的に多様なサブセットを特定し保存する。
フレームワークは、予め定義された間隔レベルやプルーニング比を必要とせず、選択された多項式次数によって決定されるように、追加ヘッドのプルーニングが性能の急激な低下につながる辺縁性能曲線を識別することにより、層間における選択された注目ヘッド数を自動的に決定する。
SST-5 と MNLI ベンチマークの広範囲な評価は、トランスフォーマーモデルスケールで、CAHP が競争ベースライン、特に高圧状態において一貫して上回っていることを示している。
さらに, この構造解析により, CAHPは, 主に出力近傍の層に頭部を保持する傾向にあり, モデル中間層に機能的に重要な注意点の集合を保持する勾配式プルーニング手法の「近さバイアス」を回避していることが示された。
関連論文リスト
- Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models [48.385105851598745]
ヘードハンター(HeadHunter)は、ユーザ中心の目標に合わせた注意点を反復的に選択するための体系的なフレームワークである。
ソフトパグ(SoftPAG)は、摂動強度を調整し、アーティファクトを抑える連続したノブである。
大規模なDiTベースのテキスト・ツー・イメージ・モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-06-12T17:59:51Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。