論文の概要: HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization
- arxiv url: http://arxiv.org/abs/2606.20097v1
- Date: Thu, 18 Jun 2026 11:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.816681
- Title: HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization
- Title(参考訳): HydraHead: ヘッドレベル機能的不均一性から特別な注意ハイブリッド化へ
- Authors: Zhentao Tan, Wei Chen, Jingyi Shen, Yao Liu, Xu Shen, Yue Wu, Jieping Ye,
- Abstract要約: 我々はHydraHeadを紹介した。HydraHeadは、フルアテンション(FA)とリニアアテンション(LA)をヘッド軸に沿ってハイブリッド化する新しいアーキテクチャである。
HydraHeadは、検索クリティカルなヘッドを識別し、FAのみを保存する、解釈可能性駆動の選択戦略を備えている。
ベースラインを512Kのコンテキスト長で69%以上改善し、ネイティブコンテキスト長256Kと同等の大きさのモデルであるQwen3.5に近づいた。
- 参考スコア(独自算出の注目度): 54.02338209487246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of attention poses a critical bottleneck for long-context processing, spurring interest in hybrid attention designs. Most open-source hybrid models adopt a layer-wise strategy. Yet, prior work has noted the inherent difficulty of integrating Linear Attention (LA) with Full Attention (FA), suggesting that the design space of attention hybridization remains underexplored. To probe this space, we conduct interpretability analysis and observe that layers exhibit block-wise functional similarity, while individual heads within the same layer display distinct functional specialization despite sharing input features. This head-level heterogeneity suggests that the head dimension provides a natural and principled granularity for fusing heterogeneous attention signals. Building on this insight, we introduce HydraHead, a novel architecture that hybridizes FA and LA along the head axis. HydraHead features two key innovations: (1) an interpretability-driven selection strategy that identifies retrieval-critical heads and preserves FA only for them, and (2) a scale-normalized fusion module that reconciles the distributional gap between FA and LA head outputs. By leveraging a three-stage transfer pipeline with parameter reuse and distillation, we achieve high-performance hybrid models with minimal training overhead. Under a unified training setup, HydraHead outperforms other hybrid designs in long-context tasks while maintaining strong general reasoning. With interpretability-driven head selection, it matches a 3:1 layer-wise hybrid's long-context performance at a 7:1 LA-to-FA ratio. Crucially, trained on only 15B tokens, HydraHead achieves over 69% improvement over the baseline at 512K context length, approaching Qwen3.5, a leading model of comparable size with a native context length of 256K. This highlights the significant scaling potential of head-level hybridization.
- Abstract(参考訳): 注意の二次的な複雑さは、長期コンテキスト処理において重要なボトルネックとなり、ハイブリッドアテンションデザインへの関心を喚起する。
ほとんどのオープンソースハイブリッドモデルはレイヤワイド戦略を採用している。
しかし、以前の研究では、線形注意(LA)と完全注意(FA)を統合することの難しさが指摘されており、注意のハイブリダイゼーションの設計空間はいまだに探索されていないことが示唆されている。
この空間を探索するため,我々は解釈可能性解析を行い,ブロックワイドな機能的類似性を示すのに対して,同一層内の個々の頭部は入力特徴を共有するにもかかわらず機能的特化を示す。
このヘッドレベルの不均一性は、ヘッド次元が不均一な注意信号を拡散するために自然で原則化された粒度を与えることを示唆している。
この知見に基づいて、FAとLAをヘッド軸に沿ってハイブリッド化する新しいアーキテクチャであるHydraHeadを紹介します。
ハイドラヘッドは,(1)検索クリティカルヘッドを識別し,FAのみを保存する解釈可能性駆動選択戦略,(2)FAとLAヘッドの分配ギャップを緩和するスケール正規化融合モジュールの2つの重要なイノベーションを特徴としている。
パラメータ再利用と蒸留を併用した3段階移動パイプラインを利用することで,訓練オーバーヘッドを最小限に抑えた高性能ハイブリッドモデルを実現する。
統一的なトレーニング設定の下では、HydraHeadは、強い一般的な推論を維持しながら、長いコンテキストタスクで他のハイブリッド設計よりも優れている。
解釈可能性駆動型ヘッドセレクションでは、3:1層ワイドハイブリッドの長期コンテキスト性能を7:1LA-to-FA比で一致させる。
重要なことに、たった15BトークンでトレーニングされたHydraHeadは、512Kコンテキスト長のベースラインよりも69%以上改善されている。
これは、ヘッドレベルのハイブリダイゼーションの大幅なスケーリングの可能性を強調します。
関連論文リスト
- Hierarchical Awareness Adapters with Hybrid Pyramid Feature Fusion for Dense Depth Prediction [9.96771578356719]
既存のアプローチは、深度マップを回帰するために、ますます複雑なネットワークアーキテクチャに依存している。
本論文では,Swin Transformerのバックボーン上に構築したマルチレベル条件付きランダムフィールド(CRF)モデルを提案する。
本稿では,Abs Relを0.088ドル(約7.4%)に,RMSEを0.316ドル(約5.4%)に削減し,ほぼ完全なしきい値精度を実現した。
論文 参考訳(メタデータ) (2026-04-03T07:59:26Z) - Functional Component Ablation Reveals Specialization Patterns in Hybrid Language Model Architectures [0.0]
2つのサブ-1Bハイブリッドモデルに適用した機能的コンポーネントアブレーションフレームワークを提案する。
両方のコンポーネントタイプが必須であり、どちらもバイパスされていないことが分かりました。
これらの結果は、ハイブリッドモデル圧縮、アーキテクチャ設計、フォールトトレラントデプロイメントのための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-03-23T18:41:49Z) - Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models [50.45915413315706]
非ハイブリッドモデルに対する基本的な制限の存在を証明する。
我々は,これらの課題を確実に解決する,小さなサイズと作業メモリのハイブリッドモデルを構築した。
さらに,ハイブリッドモデルが非ハイブリッドモデルよりも長大化および分布外堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2026-03-09T19:20:01Z) - VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification [8.232394238006167]
VP-Hypeは、状態空間モデルの線形時間効率と変換器のリレーショナルモデリングを統合することで、HSI分類を再考するフレームワークである。
堅牢な3D-CNNスペクトルフロントエンド上に構築されたVP-Hypeは、従来のアテンションブロックをHybrid Mamba-Transformerバックボーンに置き換える。
トレーニングサンプルの分布は2%に過ぎず、Salinasデータセットで99.69%、Longkouデータセットで99.45%の総合精度(OA)を達成した。
論文 参考訳(メタデータ) (2026-03-01T16:24:09Z) - OD-DEAL: Dynamic Expert-Guided Adversarial Learning with Online Decomposition for Scalable Capacitated Vehicle Routing [2.7864713441393474]
OD-BCCは、ハイブリッド遺伝検索(HGS)とオンラインバリセンタークラスタリング(conquer)分解を統合する大規模な学習フレームワークである。
OD- train graph attention network (GAT) によるミニマックスゲームによる生成ポリシー。
これにより、動的に大規模なデプロイメントを行うために必要な、秒単位のニューラルネットワーク品質推論が可能になる。
論文 参考訳(メタデータ) (2026-01-31T03:16:54Z) - Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - A Systematic Analysis of Hybrid Linear Attention [11.722015123070957]
リニアモデルはしばしばリコール性能の制限に悩まされる。
本研究は, 効率的なハイブリッドモデルとして, 選択的ゲーティング, 階層的再帰, 制御的忘れを重要視する。
私たちのモデルはhttps://huggingface.co/collections/m-hugging-a-p/hybrid-linear-attention-research-686c488a63d609d2f2 0e2b1eでオープンソース化されています。
論文 参考訳(メタデータ) (2025-07-08T23:54:11Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。