論文の概要: Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It
- arxiv url: http://arxiv.org/abs/2606.11052v1
- Date: Tue, 09 Jun 2026 16:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.607085
- Title: Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It
- Title(参考訳): ハイブリッドLLMにおける注意覚醒--CoTファインチューニングが長距離リコールを破る場合と修正方法
- Authors: Xinyu Zhou, Boyu Zhu, Yi Xu, Zhiwei Li, Yingfa Chen, Huiming Wang, Zhijiang Guo,
- Abstract要約: 思考の連鎖(CoT)制御微調整(SFT)は推論能力を向上させるために広く採用されている。
その結果,ハイブリッド線形アテンションモデルにおいて,長文リコールを系統的に劣化させることがわかった。
本稿では,事前SFTチェックポイントからW_Q$とW_K$のみを復元するトレーニングフリーのQK-Restoreを提案する。
- 参考スコア(独自算出の注目度): 25.2826125424441
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-thought (CoT) supervised fine-tuning (SFT) is widely adopted to improve reasoning ability, yet we find that it systematically degrades long-context recall in hybrid linear-attention models. Across architectures including HypeNet and Jet-Nemotron, retrieval performance on Needle-In-A-Haystack (NIAH) deteriorates substantially after CoT-SFT, and the degradation becomes more severe under harder retrieval settings and longer context windows. For example, HypeNet-9B on NIAH-S2@256K decreases from $67.2\%$ to $9.4\%$. We attribute this to CoT-SFT biasing attention gradients toward short-range patterns, disrupting query-key projections ($W_Q, W_K$) that are responsible for long-range routing. Motivated by this observation, we propose QK-Restore, a training-free method that restores only $W_Q$ and $W_K$ from the pre-SFT checkpoint while preserving all other post-SFT parameters. We further introduce a Procrustes variant to balance routing preservation and reasoning adaptation. Across architectures, QK-Restore consistently restores long-context capability at zero training cost while preserving reasoning performance; for instance, on HypeNet-5B it improves S3@256K from $65.4\%$ to $76.4\%$ while maintaining strong reasoning performance.
- Abstract(参考訳): チェイン・オブ・シンクレット(CoT)制御型微調整(SFT)は推論能力を向上させるために広く採用されているが,ハイブリッド線形アテンションモデルでは,長文リコールを系統的に劣化させることがわかった。
HypeNetやJet-Nemotronなどを含むアーキテクチャ全体では,Needle-In-A-Haystack(NIAH)の検索性能はCoT-SFT以降で著しく低下し,より厳しい検索設定やより長いコンテキストウィンドウでは劣化がより深刻になる。
例えば、NIAH-S2@256K上のHypeNet-9Bは67.2\%から9.4\%に低下する。
これはCoT-SFTが短距離パターンへの注意勾配を偏り、長距離ルーティングに責任を持つクエリキープロジェクション(W_Q, W_K$)を乱すためである。
そこで本研究では,事前SFTチェックポイントから$W_Q$と$W_K$のみを復元し,他のすべてのSFTパラメータを保存しながら,トレーニング不要なQK-Restoreを提案する。
さらに、ルーティングの保存と推論適応のバランスをとるためのProcrustes変種についても紹介する。
例えばHypeNet-5BではS3@256Kを65.4\%から76.4\%に改善し、強い推論性能を維持している。
関連論文リスト
- Bug or Feature$^2$: Weight Drift, Activation Sparsity and Spikes [53.726365933748134]
標準損失と正に偏りのある活性化関数の相互作用によって引き起こされる負の重みのドリフトを解析する。
79の構成にまたがるスパシティ・精度のトレードオフを特徴付けるとともに、$sim$70%のアクティベーション・スパシティよりも高い精度の崖を識別する。
論文 参考訳(メタデータ) (2026-05-17T21:29:20Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Thinking-Based Non-Thinking: Solving the Reward Hacking Problem in Training Hybrid Reasoning Models via Reinforcement Learning [57.57084309580296]
Thinking-Based Non-Thinkingは、さまざまなクエリに対する思考を使用しない応答に対して、異なる最大トークン使用量を設定する。
5つの数学ベンチマークの実験により、TNTはトークンの使用量を約50%削減することを示した。
TNTの応答における報酬ハッキングの確率は、思考を使用しないものとして分類されているが、依然として10%以下である。
論文 参考訳(メタデータ) (2026-01-08T10:38:41Z) - Stop When Enough: Adaptive Early-Stopping for Chain-of-Thought Reasoning [46.106795445750855]
REFRAINはトレーニング不要のフレームワークで、理由付けをやめて過度に考えることを緩和する。
REFRAINは、標準的なCoTプロンプトと比較して、トークンの使用量を20~55%削減し、精度を維持または改善している。
論文 参考訳(メタデータ) (2025-10-11T08:30:00Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。