論文の概要: Why Do Accumulated Transformations Extrapolate?
- arxiv url: http://arxiv.org/abs/2606.24975v1
- Date: Tue, 23 Jun 2026 12:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.077762
- Title: Why Do Accumulated Transformations Extrapolate?
- Title(参考訳): 累積変換はなぜ外転するのか?
- Authors: Mahesh Godavarti,
- Abstract要約: PaTHアテンションは、RoPEの位置インデクシングされた回転を蓄積したデータ依存リフレクションに置き換えることで、強い長さの外挿が得られることを示した。
我々は,RoPEのブロック対角SO(2)回転を保ちながら,位置付き角度を累積トークン依存の角度に置き換える簡易な変種について検討する。
結果が一定の正則性条件を満たす累積変換にまで拡張されることを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PaTH Attention showed that replacing RoPE's position-indexed rotations with accumulated data-dependent Householder reflections yields strong length extrapolation, though performance degrades at extreme context lengths. We ask whether this depends on Householder-specific structure or reflects a general property of accumulated transformations along source-to-query paths. We study a simpler variant keeping RoPE's block-diagonal SO(2) rotations but replacing position-indexed angles with accumulated token-dependent ones. It shows the same pattern: improved extrapolation then degradation at long contexts. We prove the result extends to accumulated orthogonal transformations satisfying certain regularity conditions: their products become incoherent after finitely many steps, suppressing attention to distant tokens. Accumulated rotations of queries and keys create a finite mixing window independent of context length; per-token suppression learned in training transfers unchanged to any evaluation length, and high-dimensional concentration produces a score gap suppressing far tokens while near-route transport preserves the target signal. Conversely, a lower bound shows accumulated rotations must eventually degrade: as the far set grows, no rotations preserve the near signal without explicit far-mass control. For SO(2) rotations, rotating values too makes residual far contributions combine incoherently, extending the range. Controlled experiments support these predictions: random accumulated rotations substantially improve extrapolation over RoPE, learned token-dependent rotations maintain near-training-length perplexity far beyond the training context, and rotating values helps over queries and keys alone. Rotation-only models still degrade at extreme lengths, while ALiBi stays length-stable, consistent with the need for far-mass control.
- Abstract(参考訳): PaTH Attentionは、RoPEの位置インデクシングされた回転を蓄積したデータ依存リフレクションに置き換えると、強い長さの外挿が得られることを示した。
戸主固有の構造に依存しているのか,あるいはソース・ツー・クエリ・パスに沿って蓄積された変換の一般的な性質を反映しているのかを問う。
我々は,RoPEのブロック対角SO(2)回転を保ちながら,位置付き角度を累積トークン依存の角度に置き換える簡易な変種について検討する。
これは同じパターンを示している。外挿を改善し、長いコンテキストで分解する。
この結果は、一定の規則性条件を満たす累積直交変換にまで拡張され、その積は有限ステップの後に不整合となり、遠くのトークンへの注意を抑える。
クェリとキーの累積回転は、文脈長とは無関係に有限混合ウィンドウを生成し、トレーニングトランスファーで学んだ各トケン抑制は、任意の評価長に変化せず、高次元濃度は、ターゲット信号を保存する間、遠くのトークンを抑圧するスコアギャップを生成する。
逆に、下界は蓄積された回転を最終的に劣化させなければならない: 遠集合が大きくなるにつれて、明確な遠質量制御なしに近信号を保存する回転は存在しない。
SO(2) 回転の場合、回転する値も残余の遠方寄与を不整合に組み合わせ、範囲を広げる。
ランダム蓄積ローテーションはRoPEの補間を大幅に改善し、学習されたトークン依存ローテーションはトレーニングコンテキストを超えてほぼトレーニング長のパープレキシティを維持し、ローテーション値はクエリとキーのみを上回るのに役立つ。
回転のみのモデルはまだ極端な長さで劣化するが、ALiBiは遠質量制御の必要性に応じて安定している。
関連論文リスト
- RoVE: Rotary Value Embeddings Attention for Relative Position-dependent Value Pathways [52.94485753759119]
RoPE(Rotary Position Embeddings)は、位置相対的だが、位置盲点を残している。
本稿では,キーを同時に回転させることにより,パラメータフリーな値に感応性を持たせるRoVEを提案し,RoPEの注意を注意的畳み込みに変換することを示す。
論文 参考訳(メタデータ) (2026-06-09T09:56:50Z) - Operator-Guided Invariance Learning for Continuous Reinforcement Learning [8.820825533010543]
連続した時間と状態/行動空間を持つ強化学習(RL)は、しばしばデータ集約的で、ニュアンス変動とシフトの下で脆弱である。
textbfVPSD-RL(強化学習のための価値保存構造探索)を提案する。
連続 RL を、リー群作用と関連する引き戻し作用素によって定義される値保存写像による制御拡散としてモデル化する。
本稿では、値保存構造が、値関数を引いたり、制御されたジェネレータと通信し、報酬関数を転送する際に、正確に存在することを示す。
論文 参考訳(メタデータ) (2026-05-07T16:18:37Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - Harmformer: Harmonic Networks Meet Transformers for Continuous Roto-Translation Equivariance [2.5864824580604515]
CNNは画像翻訳と本質的に同値であり、効率的なパラメータとデータ利用、学習の高速化、堅牢性の向上につながっている。
変換同変ネットワークの概念は、離散回転群に対する群畳み込みと360円の連続回転群に対する調和関数を用いて回転変換に拡張された。
本稿では, コンボリューションステムを持つ調和変換器であるHarmformerを紹介し, 変換と連続回転の両面で等価性を実現する。
論文 参考訳(メタデータ) (2024-11-06T09:39:25Z) - Rotation-Invariant Transformer for Point Cloud Matching [42.5714375149213]
我々は,回転不変変換器であるRoITrを導入し,点クラウドマッチングタスクにおけるポーズ変動に対処する。
本稿では,自己認識機構によって学習した,回転不変なクロスフレーム空間認識を備えたグローバルトランスフォーマーを提案する。
RoITrは、Inlier RatioとRegistration Recallの点で、既存のメソッドを少なくとも13と5のパーセンテージで上回っている。
論文 参考訳(メタデータ) (2023-03-14T20:55:27Z) - CRIN: Rotation-Invariant Point Cloud Analysis and Rotation Estimation
via Centrifugal Reference Frame [60.24797081117877]
CRIN,すなわち遠心回転不変ネットワークを提案する。
CRINは点の座標を直接入力として取り、局所点を回転不変表現に変換する。
点に基づく3次元回転の連続分布を導入する。
論文 参考訳(メタデータ) (2023-03-06T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。