論文の概要: Adaptive inference and function vectors in deep transformers
- arxiv url: http://arxiv.org/abs/2606.16694v1
- Date: Mon, 15 Jun 2026 13:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.576786
- Title: Adaptive inference and function vectors in deep transformers
- Title(参考訳): 深部変圧器の適応推論と関数ベクトル
- Authors: Ravin Raj, Gautam Reddy,
- Abstract要約: 平均場相互作用系として深部変圧器の理論を導入する。
このようなシステムでは、内部状態表現を利用して潜在コンテキスト変数を推論できることが示される。
文脈内回帰タスクでは、この理論は非ガウス的、潜在文脈変数の階層構造と変圧器深さの間の非自明な関係を予測している。
- 参考スコア(独自算出の注目度): 6.568378556428861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are widely used as a general-purpose substrate for learning complex correlations between a large collection of coupled variables, but their internal mechanisms have remained mysterious. We introduce a theory of a deep transformer as a mean-field interacting system that implements distributed inference, subject to constraints on communication, locality and depth. We show that such a system can exploit internal state representations ('function vectors') to infer a latent context variable at increasingly finer scales over its layers. In an in-context regression task, the theory predicts a non-trivial relationship between non-Gaussian, hierarchical structure in the latent context variable, and transformer depth. Predictions are tested using constrained linear attention transformers and demonstrate adaptive inference in deep architectures. Feedforward blocks and depth enable transformers to implement a much richer class of in-context learning algorithms than previously described.
- Abstract(参考訳): 変換器は、多数の結合変数の集合の間の複雑な相関を学習するための汎用基質として広く使われているが、その内部メカニズムは謎のままである。
本稿では,分散推論を実装し,通信,局所性,深度に制約を課す平均場相互作用系として,ディープトランスフォーマーの理論を導入する。
このようなシステムでは、内部状態表現('関数ベクトル')を利用して、階層上のより微細なスケールで潜在コンテキスト変数を推論できることが示される。
文脈内回帰タスクでは、この理論は非ガウス的、潜在文脈変数の階層構造と変圧器深さの間の非自明な関係を予測している。
予測は制約付き線形アテンション変換器を用いてテストされ、深層建築における適応推論を実証する。
フィードフォワードブロックと深さにより、トランスフォーマーは以前記述されたよりもはるかにリッチなコンテキスト内学習アルゴリズムを実装することができる。
関連論文リスト
- On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions [8.192218166714422]
トランスフォーマーネットワークは幅広い応用において顕著な経験的成功を遂げてきたが、理論的な表現力は未だ十分に理解されていない。
まずトランスフォーマーネットワークによる最大化ネットワークの明示的な近似を確立し,これと同等のモデル複雑性を保ったままにしておく。
その結果、トランスフォーマーは同様の複雑性制約の下でReLUネットワークの普遍近似能力を継承する。
論文 参考訳(メタデータ) (2026-03-03T15:27:15Z) - When Does Context Help? Error Dynamics of Contextual Information in Large Language Models [64.88201012057822]
大規模言語モデルにおける任意の文脈情報の影響を分析するための統合理論フレームワークを提案する。
本分析は,出力誤差ダイナミクスによる文脈的影響を特徴付ける。
ICL、検索拡張生成、メモリ進化に関する実験は、我々の理論を検証し、原則化された文脈選択戦略を動機づける。
論文 参考訳(メタデータ) (2026-02-09T05:58:41Z) - Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。
我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。
この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T05:41:46Z) - On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。
それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。
十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文 参考訳(メタデータ) (2025-02-21T17:31:00Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
論文 参考訳(メタデータ) (2023-06-05T14:05:04Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。