論文の概要: Massive Activations Are Architecturally Robust: A Controlled Scratch/Commitment Residual Stream Test
- arxiv url: http://arxiv.org/abs/2606.20743v1
- Date: Wed, 17 Jun 2026 20:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:17:56.440864
- Title: Massive Activations Are Architecturally Robust: A Controlled Scratch/Commitment Residual Stream Test
- Title(参考訳): 大規模アクティベーションはアーキテクチャ的にロバストである:制御されたスクラッチ/コミット残差ストリームテスト
- Authors: Maruthi Vemula,
- Abstract要約: 訓練された変圧器は、中央値よりもはるかに大きい少数の隠れ次元である巨大な活性化を確実に発達させる。
アーキテクチャ上の介入で、アーティファクト仮説を直接テストします。
アーキテクチャと測定コードをリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trained transformers reliably develop massive activations, a small number of hidden dimensions whose magnitude is far above the median and which concentrate on the sequence-start token. Whether these outliers are a removable artifact of the residual stream's overloaded read and write role, or instead a functional necessity, is actively debated. We test the artifact hypothesis directly, with an architectural intervention. Our architecture, Ledger Residuals, splits the residual stream into a mutable scratch stream (Deliberation) that intermediate computation may freely overwrite and a protected, decode-only accumulator (Commitment) that holds the representation the model reads out. If massive activations exist only because one stream is forced to be both scratchpad and answer, then a dedicated answer channel should remove the need for them. We find that it does not. In matched-loss language models at the 160M and 290M scales, the model rebuilds the canonical fixed-dimension, start-token outlier inside the protected channel. The rebuilt feature is smaller in magnitude than in a standard transformer but more sharply concentrated on the start token, and a stronger sparsity penalty makes it more persistent and more concentrated still, rather than removing it. Massive activations therefore look architecturally robust: they re-emerge in whichever representation the model decodes from, which is what we would expect if they are functional rather than incidental. We release our architecture and measurement code.
- Abstract(参考訳): 訓練された変換器は、中央値よりもはるかに大きく、シークエンス開始トークンに集中する少数の隠れ次元である巨大な活性化を確実に発達させる。
これらの外れ値が残ストリームの過剰な読み書きロールの取り外し可能なアーティファクトであるかどうか、あるいは機能的な必要性であるかどうか、積極的に議論されている。
アーキテクチャ上の介入で、アーティファクト仮説を直接テストします。
我々のアーキテクチャであるLedger Residualsは、残余ストリームを変更可能なスクラッチストリーム(Deliberation)に分割し、中間計算を自由に上書きし、モデルが読み出す表現を保持する保護されたデコードのみのアキュムレータ(Commitment)を作成する。
1つのストリームがスクラッチパッドと回答の両方で強制されるためのみ、大規模なアクティベーションが存在する場合、専用の応答チャンネルはそれらの必要性を排除すべきである。
私たちはそうではないことに気付く。
160Mスケールと290Mスケールのマッチロース言語モデルでは、モデルが保護チャネル内の標準的な固定次元のアウトリーチを再構築する。
再建された特徴は、標準的な変圧器よりもマグニチュードが小さいが、スタートトークンに強く集中しているため、より強いスパーシティペナルティにより、取り除くより永続的でより集中している。
そのため、大規模なアクティベーションはアーキテクチャ的に堅牢に見えます。モデルからデコードされた表現はすべて再統合されます。
アーキテクチャと測定コードをリリースします。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文 参考訳(メタデータ) (2025-12-15T15:14:20Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Naturally Computed Scale Invariance in the Residual Stream of ResNet18 [0.0]
この研究はResNet18を、InceptionV1に欠けているアーキテクチャコンポーネントである残留ストリームに特に焦点をあてて調査している。
中間ブロックにおける多くの畳み込みチャネルはスケール不変性を示し、スケール同変表現の要素次残差和によって計算される。
その後のアブレーション実験を通じて、これらの神経特性とスケールロスト物体認識の挙動を因果的に関連付けようと試みる。
論文 参考訳(メタデータ) (2025-04-22T21:54:37Z) - Stuffed Mamba: Oversized States Lead to the Inability to Forget [53.512358993801115]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。
モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。
我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文 参考訳(メタデータ) (2024-10-09T17:54:28Z) - Breaking the Attention Bottleneck [0.0]
本稿では,注意やアクティベーションの代替として生成機能を開発する。
それぞれのトークンと前のトークンを比較することで、自動回帰文字を持つ。
注意の置き換えという概念は、https://gitlab.com/Bachstelzecausal_generationでAGPL v3ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-16T12:06:58Z) - When Attention Collapses: How Degenerate Layers in LLMs Enable Smaller, Stronger Models [61.363259848264725]
Inherituneは、より小さく、より効率的な言語モデルを構築するための、シンプルで効果的なトレーニングレシピである。
Inherituneのトレーニングしたモデルは、レイヤーが大幅に少ないにもかかわらず、より大きなモデルにマッチしたり、性能を上回ります。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。