論文の概要: Emergent Capabilities Arise Randomly from Learning Sparse Attention Patterns
- arxiv url: http://arxiv.org/abs/2606.25010v1
- Date: Tue, 23 Jun 2026 17:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.104886
- Title: Emergent Capabilities Arise Randomly from Learning Sparse Attention Patterns
- Title(参考訳): スパースアテンションパターンの学習からランダムに出現する創発的能力
- Authors: Vatsal Baherwani, Zixi Chen, Shikai Qiu, Andrew Gordon Wilson, Pavel Izmailov,
- Abstract要約: コンテキスト内学習のような下流の機能は、あるモデルスケールを超えると突然現れることが知られている。
パターン補完や間接物体識別などの能力の出現は,タスク関連注意パターンの急激な学習に対応していることを示す。
我々は,合成線形写像とセルオートマトンを用いたトランスフォーマーモデルを訓練し,注意パターンの学習の難しさは,文脈長とパターンの空間性に依存することを示した。
- 参考スコア(独自算出の注目度): 48.062049009807446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws for transformer language models predict smooth improvements in pretraining loss with increasing parameters, but downstream capabilities such as in-context learning are known to emerge abruptly past a certain model scale. In this paper, we show that emergent capabilities arise stochastically throughout training, with larger models acquiring them earlier on average. We demonstrate that the emergence of capabilities such as pattern completion and indirect object identification corresponds to the abrupt learning of task-relevant attention patterns. To isolate this phenomenon, we train transformer models on synthetic linear map and cellular automata datasets, and we show that the difficulty of learning attention patterns depends on context length and pattern sparsity. Moreover, scaling the number of attention heads improves learning efficiency on our synthetic tasks, while increasing the head dimension yields diminishing returns past a minimum capacity. We additionally investigate architectures with alternative attention mechanisms, showing that MLP-Mixer outperforms a transformer on linear map tasks with complex attention patterns. Our findings provide a mechanistic insight into emergence, showing that downstream capabilities arise abruptly due to the intrinsic difficulty of learning sparse attention patterns in transformer models.
- Abstract(参考訳): トランスフォーマー言語モデルのニューラルスケーリング法則は、パラメータの増加に伴う事前学習損失のスムーズな改善を予測している。
本稿では,創発能力が訓練中に確率的に現れることを示す。
パターン補完や間接物体識別などの能力の出現は,タスク関連注意パターンの急激な学習に対応していることを示す。
この現象を分離するために, 合成線形写像とセルオートマトンを用いたトランスフォーマーモデルを訓練し, 注意パターンの学習の難しさは, 文脈長とパターン間隔に依存することを示した。
さらに、注意点数を拡大することで、我々の合成作業における学習効率が向上し、一方、頭部次元の増大は最小限の能力を超えるリターンを減少させる。
MLP-Mixerは複雑な注意パターンを持つ線形マップタスクにおいてトランスフォーマーよりも優れていることを示す。
本研究は,変圧器モデルにおけるスパースアテンションパターンの学習が本質的に困難であることから,下流の能力が急激に出現することが示唆された。
関連論文リスト
- Revisiting associative recall in modern recurrent models [17.2249234816671]
本稿では,現代の反復モデルの性能において,学習率の選択が重要な役割を担っていることを示す。
次に1層変圧器を検査し、その性能が劣っているにもかかわらず、トレーニングダイナミクスが驚くほど誘導ヘッドの形成に類似していることを明らかにする。
論文 参考訳(メタデータ) (2025-08-26T13:45:08Z) - The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。