論文の概要: An expressivity analysis of hierarchical modelling in deep transformers via bounded-depth grammars
- arxiv url: http://arxiv.org/abs/2606.17522v1
- Date: Tue, 16 Jun 2026 05:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.27739
- Title: An expressivity analysis of hierarchical modelling in deep transformers via bounded-depth grammars
- Title(参考訳): 境界深度文法を用いた深部変圧器の階層的モデリングの表現性解析
- Authors: Vinoth Nandakumar, Qiang Qu, Pramod Thebe, Sakshi Khachariya, Tongliang Liu,
- Abstract要約: ディープニューラルネットワークは、その表現力は、テクスブ階層的表現を形成する能力から導かれると広く信じられている。
言語モデリングでは、textbftransformerが支配的なアーキテクチャとして登場し、初期のレイヤはローカルの構文パターンをキャプチャし、後のレイヤはより複雑な節レベルの依存関係をコードしている。
これらのアーキテクチャは、抽象文法状態が残留ストリーム内の低次元の線形分離可能部分空間に符号化される構造的能力を持っていると論じる。
- 参考スコア(独自算出の注目度): 54.11540943172608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks are widely believed to derive their expressive power from their ability to form \textbf{hierarchical representations}, capturing progressively more abstract and compositional features across layers. In language modeling, \textbf{transformers} have emerged as the dominant architecture, with early layers capturing local syntactic patterns and later layers encoding more complex clause-level dependencies. While this intuition has shaped model design, there remains a lack of rigorous theoretical work demonstrating \textbf{how} deep transformers represent such hierarchical structures. In this work, we analyze the expressiveness of deep transformer models through the formal lens of bounded-depth, non-recursive context-free grammars. For this class of grammars, we explicitly construct transformers with positional attention whose depth grows linearly with grammar depth, while the neuron count scales with the number of derivation-tree shapes and quadratically with the number of production rules. Our theoretical results support the linear representation hypothesis by demonstrating that these architectures possess the structural capacity to encode abstract grammatical states into low-dimensional, linearly separable subspaces within the residual stream.
- Abstract(参考訳): ディープニューラルネットワークは、その表現力は、層をまたいだより抽象的で構成的な特徴を徐々に捉えて、‘textbf{hierarchical representations’を形成する能力から導かれると広く信じられている。
言語モデリングにおいて、 textbf{transformers} が支配的なアーキテクチャとして登場し、初期のレイヤは局所的な構文パターンをキャプチャし、後のレイヤはより複雑な節レベルの依存関係をコードしている。
この直観はモデル設計を形作るが、'textbf{how} ディープ・トランスフォーマーがそのような階層構造を表すことを示す厳密な理論的な研究は残っていない。
本研究では,境界深度,非再帰的文脈自由文法の形式レンズを用いて,深部変圧器モデルの表現性を解析する。
この文法のクラスでは、深さが文法の深さと線形に増加する位置対応の変換器を明示的に構築する一方、ニューロンカウントは派生木の形状の数でスケールし、生成規則の数で2次的にスケールする。
我々の理論的結果は、これらのアーキテクチャが、抽象文法状態が残ストリーム内の低次元で線形分離可能な部分空間にエンコードする構造的能力を持っていることを示すことによって、線形表現仮説を支持する。
関連論文リスト
- Explicit Grammar Semantic Feature Fusion for Robust Text Classification [0.0]
自然言語処理により、コンピュータはテキストを効率的に分析し分類することで人間の言語を理解することができる。
既存のモデルは、計算集約的で資源制約のある環境に適さないトランスフォーマーモデルで大きなコーパスから学習することで特徴を捉えている。
本研究は,意味情報とともに包括的文法規則を取り入れて,頑健で軽量な分類モデルを構築することを目的とする。
論文 参考訳(メタデータ) (2026-02-24T10:25:29Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - How much do contextualized representations encode long-range context? [10.188367784207049]
我々は、数千のトークンにまたがる長距離コンテキストを強調し、ニューラルネットワークの自己回帰言語モデルにおける文脈表現を分析する。
提案手法では,表現幾何学の観点から長距離パターンの文脈化の度合いを捉えるために,摂動セットアップと計量エンファンソトロピー・キャリブレーション・コサイン類似度を用いている。
論文 参考訳(メタデータ) (2024-10-16T06:49:54Z) - Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。