論文の概要: Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.15070v1
- Date: Sat, 13 Jun 2026 02:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.762255
- Title: Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models
- Title(参考訳): 余分な推論は役に立たない: 推論モデルにおける注意状態適応生成
- Authors: Jiakai Li, Ke Qin, Rongzheng Wang, Yizhuo Ma, Qizhi Chen, Muquan Li, Shuang Liang,
- Abstract要約: 大規模推論モデル(LRM)は、明確な連鎖推論プロセスによって複雑な問題を解くことができる。
LRMはしばしば過大評価に悩まされ、冗長なトークン出力と劣化した精度をもたらす。
本稿では,モデルの推論状態を推定し,生成戦略を適応的に調整するASAGを提案する。
- 参考スコア(独自算出の注目度): 11.158010513386666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By incorporating test-time compute scaling, large reasoning models (LRMs) can solve complex problems through explicit chain-of-thought (CoT) reasoning processes. However, they often suffer from overthinking, resulting in redundant token outputs and degraded accuracy. Current methods to mitigate this issue remain limited: training-based approaches require substantial computational resources, while training-free methods rely on well-crafted prompts or unreliable confidence signals. In this work, we investigate early stopping from the perspective of attention distributions and propose a simple method, ASAG, which infers the model's reasoning state and adaptively adjusts the generation strategy. The proposed framework is training-free and plug-and-play, enabling seamless integration into existing LRMs. Extensive experiments on nine benchmarks demonstrate consistent improvements across mainstream LRMs with varying parameter scales, including the DeepSeek-R1-Distill and Qwen3 series. Specifically, ASAG improves average accuracy by 3.2% while reducing the number of generated tokens by nearly 40% across all reasoning tasks on Qwen3-8B.
- Abstract(参考訳): テストタイムの計算スケーリングを取り入れることで、大きな推論モデル(LRM)は、明示的なチェーン・オブ・ソート(CoT)推論プロセスを通じて複雑な問題を解決することができる。
しかし、それらはしばしば過度な考えに悩まされ、結果として冗長なトークン出力と精度が低下する。
トレーニングベースのアプローチは相当量の計算資源を必要とするのに対して、トレーニングフリーの手法は巧妙なプロンプトや信頼性の低い信号に依存している。
本研究では,注意分布の観点から早期停止について検討し,モデルの推論状態を推論し,生成戦略を適応的に調整する簡易な手法ASAGを提案する。
提案するフレームワークは、トレーニングフリーでプラグイン・アンド・プレイであり、既存の LRM へのシームレスな統合を可能にする。
9つのベンチマークに関する大規模な実験では、DeepSeek-R1-Distill や Qwen3 シリーズなど、パラメータスケールの異なる主要な LRM に対して一貫した改善が示されている。
具体的には、ASAGは平均精度を3.2%改善し、Qwen3-8B上の全ての推論タスクで生成されたトークンの数を40%近く削減した。
関連論文リスト
- RankGuide: Tensor-Rank-Guided Routing and Steering for Efficient Reasoning [10.68221932401407]
大きな推論モデル(LRM)は、かなりの推論遅延と計算オーバーヘッドを引き起こす。
テンソルランク誘導ステアリングによる協調の効率性と有効性を向上させるフレームワークであるRanGuideを提案する。
RankGuideは、従来の方法と比較して競合精度を維持しながら、LRMと比較してレイテンシを最大1.75タイム削減する。
論文 参考訳(メタデータ) (2026-04-17T20:51:04Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [39.61818305829112]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。