論文の概要: Variable-Width Transformers
- arxiv url: http://arxiv.org/abs/2606.18246v1
- Date: Tue, 16 Jun 2026 17:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.598945
- Title: Variable-Width Transformers
- Title(参考訳): 可変幅変圧器
- Authors: Zhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda, Yury Polyanskiy, Yoon Kim,
- Abstract要約: 本稿では,$times$-shaped > former architectureを提案する。
我々の設計は、パラメータフリーの残留リサイズ機構を利用して、中間層を狭めながら、より広い早期層と後期層を維持している。
平均的な層幅を減らすことで、このアーキテクチャは全体のFLOPを少なくし、KVキャッシュメモリを小さくし、I/Oコストを削減できる。
- 参考スコア(独自算出の注目度): 57.07167443557886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling model size, specifically depth and width, has driven significant progress in transformer-based language models. However, most architectures maintain a constant width across all layers, allocating a fixed parameter and computation budget evenly despite different layers potentially playing distinct computational roles. In this work, we empirically investigate nonuniform capacity allocation across network depth by proposing a $\times$-shaped > <former architecture. This design maintains wider early and late layers while narrowing the middle layers, utilizing a parameter-free residual resizing mechanism. Across decoder-only language models ranging from 200M to 2B parameters (dense) and 3B parameters (MoE), our > <former consistently outperforms parameter-matched uniform baselines on language modeling loss. By reducing the average layer width, this architecture also requires fewer overall FLOPs (22% reduction under fitted loss-matched scaling curves) and smaller KV cache memory and I/O cost (15% reduction). In analysis, we show that this bottleneck structure results in qualitatively different representations in residual streams. Overall, our results demonstrate that nonuniform width allocation can result in more resource-optimal scaling of language models.
- Abstract(参考訳): モデルサイズ、特に深さと幅のスケーリングは、トランスフォーマーベースの言語モデルに大きな進歩をもたらした。
しかし、ほとんどのアーキテクチャは全ての層にわたって一定の幅を維持しており、異なる層が異なる計算の役割を担っているにもかかわらず、固定パラメータと計算予算を均等に割り当てている。
本研究では,$\times$-shaped > <former アーキテクチャを提案することにより,ネットワーク奥行きの非均一なキャパシティ割り当てを実証的に検討する。
この設計は、パラメータフリーの残留リサイズ機構を利用して、中間層を狭めながら、より広い早期層と後期層を維持している。
200M から 2B のパラメータ (dense) と 3B のパラメータ (MoE) を含むデコーダのみの言語モデル全体において,<former は言語モデリング損失に基づいてパラメータマッチングした一様ベースラインを一貫して上回っている。
平均層幅を小さくすることで、このアーキテクチャは全体のFLOPを小さくし(22%)、KVキャッシュメモリを小さくし、I/Oコストを15%削減する。
分析では,このボトルネック構造が残留ストリームの定性的に異なる表現をもたらすことを示す。
全体として,不均一幅の割り当ては,言語モデルの資源最適スケーリングをもたらすことが示唆された。
関連論文リスト
- ShishuLM: Lightweight Language Model with Hybrid Decoder-MLP Architecture and Paired Weight Sharing [0.5565728870245015]
本稿では,パラメータカウントとキーバリュー(KV)キャッシュ要求の両方を削減できる,効率的な言語モデルアーキテクチャであるShishuLMを紹介した。
以上の結果から,ShshuLMは最大25%のメモリ要求を削減し,トレーニングと推論の両方で最大40%のレイテンシ向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-13T04:04:54Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。