論文の概要: Asymptotic Signal Subspace Recovery in Softmax Attention Models
- arxiv url: http://arxiv.org/abs/2606.22406v1
- Date: Sun, 21 Jun 2026 09:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.105699
- Title: Asymptotic Signal Subspace Recovery in Softmax Attention Models
- Title(参考訳): ソフトマックス注意モデルにおける漸近信号部分空間の回復
- Authors: Lan V. Truong,
- Abstract要約: 本研究では,情報とトークンの集合から,クエリベクトルを勾配上昇によって学習するスタイル化されたソフトマックスアテンションモデルについて検討する。
学習した問合せは1次元の信号部分空間にほぼ確実に収束することを示す。
これらの結果は、高次元雑音環境における注意機構を理解するための厳密な理論基盤を提供する。
- 参考スコア(独自算出の注目度): 16.70141872088154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms have demonstrated remarkable empirical success in identifying relevant information from large collections of tokens, yet the theoretical principles underlying this behavior remain poorly understood. We study a stylized softmax-attention model in which a query vector is learned by stochastic gradient ascent from a collection of informative and nuisance tokens. Exploiting the symmetry of the model, we derive a population objective and characterize the limiting ordinary differential equation governing the learning dynamics. Using tools from stochastic approximation and dynamical systems theory, we establish a rigorous connection between the stochastic learning algorithm and its deterministic limit. Our main result shows that, under suitable high-dimensional scaling assumptions and standard step-size conditions, the learned query converges almost surely to the one-dimensional signal subspace spanned by the latent informative direction. Equivalently, the query asymptotically recovers the latent signal up to the intrinsic sign ambiguity. These results provide a rigorous theoretical foundation for understanding attention mechanisms as signal extraction procedures in high-dimensional noisy environments and offer a dynamical-systems perspective on how attention discovers relevant information in the presence of substantial noise.
- Abstract(参考訳): 注意機構は、トークンの集合から関連する情報を識別する実験的な成功を示してきたが、この行動の理論的原理はいまだに理解されていない。
本研究では,情報トークンとニュアンストークンの集合から,確率勾配からクエリベクトルを学習するスタイル化されたソフトマックスアテンションモデルについて検討する。
モデルの対称性をエクスプロイトし、人口目標を導出し、学習力学を規定する限定的な常微分方程式を特徴付ける。
確率的近似と力学系理論のツールを用いて,確率的学習アルゴリズムと決定論的限界との間に厳密な関係を確立する。
本研究の主目的は, 適切な高次元スケーリング仮定と標準ステップサイズ条件の下では, 学習された問合せは, 潜時的な情報的方向の1次元信号部分空間にほぼ確実に収束することである。
同等に、クエリは、固有の符号曖昧さまで潜時信号を漸近的に回復する。
これらの結果は、高次元ノイズ環境における信号抽出手順としての注意機構を理解するための厳密な理論基盤を提供し、相当なノイズの存在下で注意が関連する情報をどのように発見するかについての力学系的な視点を提供する。
関連論文リスト
- Extracting Governing Equations from Latent Dynamics via Multi-View Contrastive Learning [1.9754011041953696]
本稿では,複数視点の時間的コントラスト学習アルゴリズムであるDYSCOについて述べる。
我々は,アフィン不確定性への強い識別を理論的に保証し,事前識別可能性の結果をノイズ非線形観測の現実的な設定にまで拡張する。
論文 参考訳(メタデータ) (2026-06-11T12:16:35Z) - Continuous Data Assimilation with Learned Surrogate Dynamics [1.461685903055768]
多くのアプリケーションにおいて、状態のダイナミクスは要求された解像度でシミュレートするために未知あるいは違法に高価であり、モデルエラーにつながる。
この課題と、データ同化における機械学習サロゲートの導入の増加に動機づけられた本研究では、学習した動的サロゲートモデルを用いたヌーディングアルゴリズムの有限次元解析を統一的に行う。
論文 参考訳(メタデータ) (2026-05-30T02:15:51Z) - Representation Gap: Explaining the Unreasonable Effectiveness of Neural Networks from a Geometric Perspective [1.8618013369281987]
一般化誤差と密接な関係を持つ計量であるRepresentation Gapを導入する。
我々はRepresentation Gapの正確な等価性を導出し、それがタスクのテクスト内在次元である単一のパラメータによって支配されていることを示す。
このダイナミクスは、幅広いタスクやトレーニングアルゴリズムにまで拡張されていることも示しています。
論文 参考訳(メタデータ) (2026-05-20T19:51:25Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Sparse identification of quasipotentials via a combined data-driven method [8.508437491732954]
データから直接準ポテンシャルの擬似方程式を発見する方法を示す。
ニューラルネットワークとスパース回帰アルゴリズムを用いており、特にマルチスタブルエネルギーランドスケープを象徴的に記述するように設計されている。
準ポテンシャルのモデル非バイアス解析形式は, メタスタビリティとエネルギー景観の評価を目的とした幅広い応用に注目されている。
論文 参考訳(メタデータ) (2024-07-06T11:27:52Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - A Free Lunch from the Noise: Provable and Practical Exploration for
Representation Learning [55.048010996144036]
ある雑音仮定の下では、対応するマルコフ遷移作用素の線型スペクトル特性を自由な閉形式で得られることを示す。
本稿では,スペクトルダイナミクス埋め込み(SPEDE)を提案する。これはトレードオフを破り,雑音の構造を利用して表現学習のための楽観的な探索を完遂する。
論文 参考訳(メタデータ) (2021-11-22T19:24:57Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。