論文の概要: Q-Delta: Beyond Key-Value Associative State Evolution
- arxiv url: http://arxiv.org/abs/2606.08804v1
- Date: Sun, 07 Jun 2026 19:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.459191
- Title: Q-Delta: Beyond Key-Value Associative State Evolution
- Title(参考訳): Q-Delta: キーバリューの連想状態の進化を超えて
- Authors: Sumin Park, Seojin Kim, Noseong Park,
- Abstract要約: リニアアテンションは、逐次状態の進化としてシーケンスモデリングを再構成する。
クエリ条件付き状態読み出しは、蓄積メモリ上で構造化された値予測を誘導することを示す。
そこで我々はQ-Deltaを提案する。Q-Deltaは問合せ対応のデルタルールで、混合キークエリ予測エラーを状態の進化に組み込む。
- 参考スコア(独自算出の注目度): 29.819619167940683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention reformulates sequence modeling as recurrent state evolution, enabling efficient linear-time inference. Under the key-value associative paradigm, existing approaches restrict the role of the query to the readout operation, decoupling it from state evolution. We show that query-conditioned state readout induces a structured value prediction over accumulated memory that complements key-based retrieval. Based on this insight, we propose Q-Delta, a query-aware delta rule that integrates mixed key-query prediction errors into state evolution, enabling jointly corrective dynamics while preserving delta-rule efficiency. We establish stability guarantees for the resulting dynamics and derive a hardware-efficient chunkwise-parallel formulation with a custom Triton implementation. Empirical results demonstrate stable optimization, competitive throughput, and consistent improvements over strong baselines on language modeling and long-context retrieval tasks.
- Abstract(参考訳): リニアアテンションは、繰り返し状態の進化としてシーケンスモデリングを再構成し、効率的な線形時間推論を可能にする。
キーバリュー連想パラダイムの下では、既存のアプローチでは、クエリの役割を読み取り操作に制限し、状態の進化から切り離している。
クエリ条件付き状態読み出しは、キーベースの検索を補完する蓄積メモリ上で構造化された値予測を誘導することを示す。
この知見に基づいて、混合キークエリ予測エラーを状態進化に統合し、デルタルールの効率を保ちながら、共同修正ダイナミクスを可能にするクエリ対応デルタルールであるQ-Deltaを提案する。
我々は、結果のダイナミクスに対する安定性の保証を確立し、独自のトリトン実装によるハードウェア効率の高いチャンクワイド並列定式化を導出する。
実験結果から,言語モデリングや長文検索タスクにおいて,安定した最適化,競合スループット,強力なベースラインに対する一貫した改善が示された。
関連論文リスト
- Revitalizing the Beginning: Avoiding Storage Dependency for Model Merging in Continual Learning [57.10440766103372]
Trajectory Regularized Merging (TRM) は、拡張されたトラジェクトリ部分空間内の最適化プロセスとしてマージフェーズを再構成するフレームワークである。
本フレームワークは,タスクアライメント,予測整合性,勾配応答性といった3つの相乗的目標を統合し,統合モデルの履歴安定性と再活性化最適化のダイナミクスを同時に保存する。
論文 参考訳(メタデータ) (2026-05-08T14:07:32Z) - Segment-Aligned Policy Optimization for Multi-Modal Reasoning [55.29606572822562]
本稿では、トークンや全シーケンスではなく、一貫性のある推論ステップをポリシー更新の基本単位として扱う新しい強化学習パラダイムを提案する。
代表的な推論ベンチマークの実験は、SAPOがトークンレベルおよびシーケンスレベルポリシー最適化手法を一貫して上回っていることを示している。
我々の研究は、強化学習の更新を推論の構造と整合させることの重要性を強調し、複雑な推論タスクにおけるより効率的でセマンティックに根ざした政策最適化の道を開く。
論文 参考訳(メタデータ) (2026-05-02T08:47:45Z) - Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates [31.296823831987748]
Baguan-TSは、3Dトランスフォーマーによってインスタンス化されるICLと生系列表現学習を統合している。
i) キャリブレーションとトレーニング安定性, 特徴に依存しない目標空間検索に基づく局所キャリブレーション, および (ii) コンテクストオーバーフィッティング戦略によって緩和された出力過スムージングの2つの主要なハードルに対処する。
論文 参考訳(メタデータ) (2026-03-18T07:24:19Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Exploring Contextual Flux in Large Language Models: A Novel Approach to Self-Modulating Semantic Networks [0.0]
自己変調機構は言語モデル内で動的適応機能を導入する。
コンテキスト適応戦略は、拡張シーケンスにわたるトークン埋め込み軌跡に影響を与える。
自己規制は、生成の柔軟性を維持しながら、テキスト生成の一貫性を高める。
適応的な埋め込み更新はコヒーレンスの特定の側面を改善するが、その影響はモデルのキャパシティと入力の複雑さに及ばない。
論文 参考訳(メタデータ) (2025-02-16T01:08:19Z) - Latent Convergence Modulation in Large Language Models: A Novel Approach to Iterative Contextual Realignment [0.0]
隠れ状態遷移を制御する構造変調機構が導入された。
格子調整は、パープレキシティ変動、エントロピー分散、および語彙不安定の低減に寄与した。
論文 参考訳(メタデータ) (2025-02-10T09:46:33Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。