論文の概要: Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning
- arxiv url: http://arxiv.org/abs/2606.11634v1
- Date: Wed, 10 Jun 2026 03:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.279861
- Title: Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning
- Title(参考訳): 数学推論におけるスライディング・ウィンド・アテンションの競争力を高めるアーキテクチャ・アウェア強化学習
- Authors: Kai Liu, Peijie Dong, Xinchen Xie, Jianfei Gao, Qipeng Guo, Xiaowen Chu, Shaoting Zhang, Kai Chen,
- Abstract要約: SWARR(Sliding-Window Attention with Reinforced Adaptation for Math Reasoning)は、SWAモデルを数学的推論に適用するための実践的なレシピである。
SWA は SFT 以降も SA に劣っていることが判明し,このギャップはデータ構造ミスマッチによって生じるという仮説を立てた。
数学的推論ベンチマークの実験は、このレシピがSWAとSAのギャップを大幅に狭めることを示している。
- 参考スコア(独自算出の注目度): 55.20720853297423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of reasoning and agentic large language models (LLMs) has increased the demand for long-context inference, but self-attention (SA) scales quadratically with context length. To address this, we study SWARR (Sliding-Window Attention with Reinforced Adaptation for Math Reasoning), a practical recipe for adapting SWA models to mathematical reasoning. SWARR has two stages: (1) efficient conversion from a pretrained SA model to SWA with supervised fine-tuning (SFT), which avoids pretraining a new base model, and (2) policy adaptation with reinforcement learning (RL). We find that SWA still underperforms SA after SFT, and we hypothesize that this gap is caused in part by a data-architecture mismatch: most SFT data are prepared for SA models and may contain long-range dependencies that are difficult for SWA to model. Because on-policy RL optimizes self-generated trajectories under the SWA constraint, it can adapt trajectories to better match SWA. Experiments on mathematical reasoning benchmarks show that this recipe substantially narrows the gap between SWA and SA, recovering much of the accuracy lost during SWA conversion while preserving the efficiency benefits of linear-complexity attention. Our central contribution is the empirical finding that RL changes the conclusion one would draw from conversion and SFT alone about SWA's viability for math reasoning.
- Abstract(参考訳): 推論とエージェント型大規模言語モデル(LLM)の急速な進歩は、長期コンテキスト推論の需要を増大させているが、自己意図(SA)は文脈長と2次的にスケールする。
そこで我々はSWARR(Sliding-Window Attention with Reinforced Adaptation for Math Reasoning)を数学的推論に適用するための実践的レシピとして検討した。
SWARRは、(1)教師付き微調整(SFT)による事前訓練SAモデルからSWAへの効率的な変換、(2)強化学習(RL)による政策適応の2段階からなる。
SFTデータの多くはSAモデル用に準備されており、SWAがモデル化するのが困難な長距離依存関係を含む可能性がある。
オンラインRLはSWA制約の下で自己生成軌道を最適化するので、SWAに合うように軌道を適応させることができる。
数学的推論ベンチマークの実験により、このレシピはSWAとSAのギャップを著しく狭くし、線形複雑注意の効率性を維持しつつ、SWA変換中に失われた精度の多くを回復することが示された。
我々の中心的な貢献は、RLが変換から引き出す結論を変更し、SWAの数学推論の生存可能性についてのみ SFT が単独で考えるという経験的発見である。
関連論文リスト
- SAW: Stage-Aware Dynamic Weighting for Multi-Objective Reinforcement Learning in Large Language Models [66.92079232778707]
本稿では,アルゴリズムに依存しない軽量な動的重み付け機構として,SAW(Stage-Aware Dynamic Weighting)を提案する。
SAWは、各次元の報酬または利益の貢献を、バッチ内の相対的な情報性によって重み付けする。
ツールコールとテキスト要約タスクの実験により、SAWはトレーニング効率と最終的なパフォーマンスの両方を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-06-05T10:00:19Z) - Sliding Window Attention Adaptation [28.274758251062213]
スライディングウインドウ・アテンション (SWA) は、このコストを線形複雑性に還元するが、フルアテンション (FA) で事前訓練されたモデルに対して、完全にSWAを推論時に有効にすることは、トレーニング・推論ミスマッチ(英語版)による厳しい長文パフォーマンス劣化を引き起こす。
Sliding Window Attention Adaptation (SWAA)を提案する。
実験の結果,SWA適応は非自明に実現可能であることが明らかとなった。
論文 参考訳(メタデータ) (2025-12-11T08:21:24Z) - Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking [56.46309219272326]
大型言語モデル(LLM)では、教師付き微調整(SFT)による分類は、関連する(非関連)ペアに対して'yes' (resp. ''no')トークンを予測する。
この分散は中心的な疑問を提起する:どの目的がLLMベースのリランクに本質的に適しているか、どのメカニズムが違いの根底にあるのか?
我々はCLとSFTの総合的な比較と分析を行い、ユニバーサルマルチモーダル検索(UMR)を実験場とした。
論文 参考訳(メタデータ) (2025-10-16T16:02:27Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs [13.292104357930866]
SASRは、大規模言語モデルのためのステップワイド適応型ハイブリッドトレーニングフレームワークである。
SFTとRLを統一し、最適化全体を通して動的に2つのバランスをとる。
実験の結果,SASRはSFT,RL,静的ハイブリッド訓練法より優れていた。
論文 参考訳(メタデータ) (2025-05-19T12:10:17Z) - Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and Simplicity Bias in MLMs [47.14410674505256]
マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
論文 参考訳(メタデータ) (2023-09-13T20:57:11Z) - Trainable Weight Averaging: Accelerating Training and Improving Generalization [35.17919937007783]
提案手法は,候補重みを対象とする減量部分空間内で動作する新しい最適化手法であるTWAを導入する。
TWAは柔軟性が高く、異なるトレーニングシナリオに適用できる。
大規模アプリケーションでは,並列計算と低ビット圧縮を組み合わせた分散トレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T01:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。