論文の概要: Tapered Language Models
- arxiv url: http://arxiv.org/abs/2606.23670v1
- Date: Mon, 22 Jun 2026 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:21:36.033862
- Title: Tapered Language Models
- Title(参考訳): テーパー言語モデル
- Authors: Reza Bayat, Ali Behrouz, Aaron Courville,
- Abstract要約: エビデンスによれば、層は最終的な出力に不均一に寄与し、後にそれを変換するのではなく、残基を精製する。
我々の制御された実験は、固定された予算の下で、以前の層により多くのキャパシティを割り当て、後で層を減らせば均一幅のベースライン上でのパープレキシティが向上し、逆アロケーションが悪くなることを示している。
- 参考スコア(独自算出の注目度): 17.586289013051864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models, including transformer, recurrent, and memory-based variants, share a common chassis: a stack of identical layers in which parameters are allocated uniformly across depth. This is a default inherited from the original transformer and largely unchanged since, yet a growing body of evidence suggests that layers contribute non-uniformly to the final output, with later layers refining the residual stream rather than transforming it. We ask whether parameter capacity should reflect this asymmetry. Our controlled experiment shows that, under a fixed budget, allocating more capacity to earlier layers and less to later layers improves perplexity over a uniform-width baseline, while the reverse allocation hurts. Building on this result, we introduce Tapered Language Models (TLMs), an architectural principle in which a parameter-bearing component is monotonically tapered across depth under a fixed total budget. MLPs are the natural site for this instantiation: they dominate parameter count across all modern LM families and expose width as a single, clean axis of variation. Across three model scales and four architectures (Transformer, Gated Attention, Hope-attention, and Titans), tapering MLP width via a smooth cosine schedule consistently improves perplexity and downstream benchmark performance over uniform baselines, at no additional parameter or compute cost. These findings establish depth-aware capacity allocation as a simple, architecture-agnostic axis of language model design, a free lever hidden in plain sight.
- Abstract(参考訳): トランス、リカレント、メモリベースの変種を含む現代の言語モデルは共通のシャーシを共有している。
これは元の変換器から受け継がれたデフォルトであり、それ以来ほとんど変わっていないが、層が最終的な出力に一様ではないことを示唆する証拠が増えている。
パラメータキャパシティがこの非対称性を反映すべきかどうかを問う。
我々の制御された実験は、固定された予算の下で、以前の層により多くのキャパシティを割り当て、後で層を減らせば均一幅のベースライン上でのパープレキシティが向上し、逆アロケーションが悪くなることを示している。
この結果に基づいて、固定された全予算の下でパラメータを持つコンポーネントを一元的にテーピングするアーキテクチャ原理である、テーパー言語モデル(TLM)を導入する。
MLPは、現代のすべてのLMファミリーにまたがるパラメータ数を支配し、幅を1つのきれいな変動軸として表す。
3つのモデルスケールと4つのアーキテクチャ(Transformer、Gated Attention、Hope-Atention、Titans)、スムーズなコサインスケジュールによるMLP幅のテーパリングは、均一なベースライン上でのパープレキシティとダウンストリームベンチマークのパフォーマンスを、追加のパラメータや計算コストなしで一貫して改善する。
これらの結果から,言語モデル設計の単純かつアーキテクチャに依存しない軸として,奥行きを考慮したキャパシティ割り当てが確立された。
関連論文リスト
- Variable-Width Transformers [57.07167443557886]
本稿では,$times$-shaped > former architectureを提案する。
我々の設計は、パラメータフリーの残留リサイズ機構を利用して、中間層を狭めながら、より広い早期層と後期層を維持している。
平均的な層幅を減らすことで、このアーキテクチャは全体のFLOPを少なくし、KVキャッシュメモリを小さくし、I/Oコストを削減できる。
論文 参考訳(メタデータ) (2026-06-16T17:59:03Z) - BA-T: An Iterative Transformer for Two-View Bundle Adjustment [53.16990349592508]
暗黙のトークン空間における繰り返し可能なレイヤとして,BAスタイルの構造化更新を実装した反復変換器であるBA-Tを提案する。
実験により、BA-Tは反復間におけるポーズと再構成の精度を徐々に改善することが示された。
BA-Tは、奥行き重心に対するコンパクトで効率的で構造的な代替手段を提供し、軽量アーキテクチャ内で正確な3D再構成を可能にする。
論文 参考訳(メタデータ) (2026-06-02T07:51:14Z) - Attention Residuals [38.59138244826294]
PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
本稿では,アテンション残余(AttnRes)を提案する。
論文 参考訳(メタデータ) (2026-03-16T09:32:21Z) - Equivalence of Context and Parameter Updates in Modern Transformer Blocks [8.364690240329411]
近年の研究では、バニラ変圧器における文脈の影響は、トークン依存のランク1パッチを重みに形成することで暗黙的に表現できることが判明している。
まず、Gemmaスタイルのトランスフォーマーブロックの正確な解析解を示し、コンテキストの効果をランク1パッチに完全にマッピングできることを証明した。
次に、この結果を一般化し、多層モデルに対する構築的証明とアルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-11-22T01:17:15Z) - Crown, Frame, Reverse: Layer-Wise Scaling Variants for LLM Pre-Training [0.0]
トランスフォーマーベースの言語モデルは伝統的に一様(等方性)のレイヤーサイズを使用するが、異なる深さと計算能力を必要とする様々な機能的役割を無視する。
我々は,Framed,Reverse,Crownの3つの新しい文学版を導入し,事前学習段階において,FFN幅と注目ヘッドを2点または3点線形に再分割する。
5Bトークンでトレーニングされた180Mパラメータの固定予算上で,LWSとその変種に対する最初の体系的アブレーションを示す。
すべてのモデルは同様の損失に収束し、トレーニングを著しく減らすことなく、同じコストの等方的ベースラインよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-08T10:24:19Z) - You Do Not Fully Utilize Transformer's Representation Capacity [4.753535328327317]
LIMe(Layer-Integrated Memory)は、階層単位のルーティング重み付けを学習し、以前のすべてのレイヤからの表現を無視可能なオーバーヘッドで統合する軽量な拡張である。
LIMeは一貫して高速収束、FLOPあたりのパープレキシティの低下、および合成タスクの大幅な精度向上を実現している。
論文 参考訳(メタデータ) (2025-02-13T12:00:50Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。