論文の概要: The Reservoir Attention Network: Cross-Pass State in Pretrained Transformers via Content-Addressable Reservoir Injection
- arxiv url: http://arxiv.org/abs/2606.15678v2
- Date: Sun, 21 Jun 2026 22:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.111679
- Title: The Reservoir Attention Network: Cross-Pass State in Pretrained Transformers via Content-Addressable Reservoir Injection
- Title(参考訳): Reservoir Attention Network:Content-Addressable Reservoir Injectionによる予備変圧器のクロスパス状態
- Authors: Emma Leonhart,
- Abstract要約: Reservoir Attention Network (RAN) は、事前訓練されたトランスフォーマーの中間層に固定されたランダムな貯水池を注入し、前方パスを越えて状態を運ぶアーキテクチャである。
GPT-2 (124M, 355M) から Qwen2.5 (0.5B, 1.5B) にまたがる実験。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A feasibility and dynamics study of the Reservoir Attention Network (RAN), an architecture that injects a fixed, randomly-initialized reservoir into the mid-layer attention of a pretrained transformer to carry state across forward passes. Experiments span GPT-2 (124M, 355M) to Qwen2.5 (0.5B, 1.5B) on a single consumer GPU. The tasks are minimal probes chosen to isolate individual mechanisms; the broader always-alive agent vision is treated throughout as compute-limited future work, not a claim of this paper. The reservoir is left untrained (fixed random) by design: this isolates whether untrained recurrent dynamics alone suffice to carry usable cross-pass state, leaving trained recurrence as a complementary, more expensive direction.
- Abstract(参考訳): Reservoir Attention Network (RAN)は、固定されたランダムに初期化された貯水池を事前訓練された変圧器の中間層に注入し、前方通過の状態を搬送するアーキテクチャである。
GPT-2 (124M, 355M) から Qwen2.5 (0.5B, 1.5B) にまたがる実験。
タスクは個々のメカニズムを分離するために選択される最小限のプローブである。
これは、トレーニングされていないリカレントダイナミクスだけが使用可能なクロスパス状態を維持するのに十分であるかどうかを分離し、トレーニングされたリカレントを補足的で高価な方向として残す。
関連論文リスト
- DriveAnchor: Progressive Anchor-based Flow Learning for Autonomous Driving Planning [6.848508447210393]
DriveAnchorは、自動運転計画のためのフレームワークである。
構成可能なパイプラインにおいて、振る舞いの多様性、制御可能性、安全性を実現する。
近距離衝突速度を89%削減し、模倣精度を低下させることなく平均報酬を32%改善する。
論文 参考訳(メタデータ) (2026-05-30T04:17:59Z) - Agentic Transformers Provably Learn to Search via Reinforcement Learning [80.1412817870784]
木探索は多くの言語エージェント推論と意思決定タスクの背後にある中心的な抽象化である。
エージェント変換器は相互作用を通してその軌道履歴のみを観察する。
ランダム化深度優先探索(DFS)を実装した2ヘッドトランスを最初に構築する。
そこで我々は,このDFS機構が,緩やかな強化フィードバックから,段階的に現れることを示す。
論文 参考訳(メタデータ) (2026-05-29T14:58:03Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - Data-Specific Hyper-Parameter Design: A Paradigm Shift in Reservoir Computing [3.4002388038666105]
貯水池の計算は通常、大規模でランダムに生成された貯水池に依存し、単純でしばしば線形な読み出しを可能にする。
決定論的力学系によって生成される入力の幾何学的視点から貯水池の設計原理を開発する。
数値実験は任意の貯水池構造に対して一貫した性能向上を示す。
論文 参考訳(メタデータ) (2026-05-24T19:13:13Z) - Action-Inspired Generative Models [0.0]
アクションインスパイアされた生成モデル(AGM)
既往の橋梁整合法が輸送景観の遷移に均一な回帰重みを割り当てるという観察に動機づけられた双対ネットワーク生成フレームワークを導入する。
学習可能なポテンシャルを通して不定形輸送経路を選択的に解析すると、フィデリティとカバレッジのメトリクス間で生成品質が一貫した改善が得られることを実証する。
論文 参考訳(メタデータ) (2026-05-14T09:43:32Z) - State Stream Transformer (SST) V2: Parallel Training of Nonlinear Recurrence for Latent Space Reasoning [0.0]
電流変圧器は、位置間のリッチな潜伏残差ストリームを破棄し、新しい位置ごとに潜伏推論コンテキストを再構築する。
State Stream Transformer (SST) V2は、連続潜時空間におけるパラメータ効率の推論を可能にする。
2パスの並列トレーニング手順は、繰り返しの逐次依存性を解決し、計算効率のトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-04-30T20:30:28Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Diffusion-Inspired Reconfiguration of Transformers for Uncertainty Calibration [52.017716672255524]
プレトレーニングトランスにおける不確実性校正は、リスクに敏感なアプリケーションへの信頼性の高い展開において重要である。
本稿では,各特徴変換ブロックを確率的写像としてモデル化したトランスフォーマの拡散インスピレーションによる再構成を提案する。
本手法は既存の不確実性認識変換器と比較してキャリブレーションと予測精度が優れている。
論文 参考訳(メタデータ) (2026-02-09T17:24:47Z) - The Information Pathways Hypothesis: Transformers are Dynamic
Self-Ensembles [24.52890377175555]
本研究では,学習中の自己注意の記憶と計算コストを4~8倍に削減できる変圧器の汎用的学習戦略を提案する。
本研究では,ネットワーク内のサブサンプリング経路からサブモデルのアンサンブルを生成できることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:28:46Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。