論文の概要: Beyond the Commitment Boundary: Probing Epiphenomenal Chain-of-Thought in Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.13603v1
- Date: Thu, 11 Jun 2026 17:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.945299
- Title: Beyond the Commitment Boundary: Probing Epiphenomenal Chain-of-Thought in Large Reasoning Models
- Title(参考訳): 限界境界を超えて:大規模共振モデルにおける仮面鎖の探索
- Authors: Daniel Scalena, Sara Candussio, Luca Bortolussi, Elisabetta Fersini, Malvina Nissim, Gabriele Sarti,
- Abstract要約: 思考の連鎖(CoT)推論は、言語モデルにおける推論時間スケーリングの主要なパラダイムである。
本研究は,複数のモデルファミリーの推理トレースにまたがって,回答がどのように形成されるのかを考察する。
- 参考スコア(独自算出の注目度): 16.372524974789492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning is the dominant paradigm for inference-time scaling in language models, yet the causal influence of individual steps on the final answer poorly understood. We estimate each step's causal importance via early exit and use this measure to study how answers form across the reasoning traces of several model families. Across diverse tasks, we find that reasoning typically crosses a \emph{commitment boundary} -- a sharp transition from transient intermediate guesses to a stable, high-confidence answer. This transition often happens in a single step, well before the model's reasoning block ends, and is followed by \emph{epiphenomenal} CoT steps that leave the final answer probability unaltered. Using attention probes, we show that answer-formation stages can be linearly decoded from intermediate reasoning steps with high accuracy and generalize robustly to unseen reasoning tasks. We exploit this signal to early-exit reasoning blocks at the commitment boundary, reducing the length of CoTs up to 55\% on average with negligible impact on model performance.
- Abstract(参考訳): 思考の連鎖(CoT)推論は言語モデルにおける推論時間スケーリングの主要なパラダイムであるが、最終的な答えに対する個々のステップの因果的影響は理解されていない。
早期退避を通じて各ステップの因果的重要性を推定し、この尺度を用いて、複数のモデルファミリーの推論トレースにまたがる回答がどのように形成されるかを研究する。
様々なタスクにまたがって、推論は典型的には \emph{commitment boundary} -- 過渡中間推定から安定で高信頼な解への急激な遷移を横切る。
この遷移は、モデルの推論ブロックが終了する直前の1つのステップで起こることが多く、続く「emph{epiphenomenal} CoT」ステップは最終解の確率を未変更にする。
注意プローブを用いて、回答生成段階を高い精度で中間推論段階から線形に復号し、未知の推論タスクに頑健に一般化できることを示す。
我々は、この信号を利用してコミットメント境界における推論ブロックを早期に排除し、モデル性能に無視できない影響を与えながら、平均で55\%までCoTの長さを削減した。
関連論文リスト
- Large Language Models Decide Early and Explain Later [47.20810161393936]
本研究では, 強制解の完成度を用いた推理段階における予測解の進化について検討する。
プローブベースの停止を含むシンプルさは、クエリ毎の推論トークン使用量を500トークン削減できることを示す。
論文 参考訳(メタデータ) (2026-04-24T06:26:24Z) - Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - Mitigating Overthinking in Large Reasoning Language Models via Reasoning Path Deviation Monitoring [35.58177960646011]
LRLMにおける過剰思考を緩和する早期退避法を提案する。
本手法は,既存手法に比べてバニラCoTよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-15T07:00:47Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Temporal Predictors of Outcome in Reasoning Language Models [0.0]
CoT(Chain-of-Thought)パラダイムは、推論のプロキシとしてステップバイステップの合理性の推論を使用する。
難しい問題に対して、予測精度の低下は、選択アーティファクトを浮き彫りにする。
全体として、我々の結果は、推論モデルでは、成功の自己評価はわずか数トークンで現れる傾向にあることを示唆している。
論文 参考訳(メタデータ) (2025-11-03T08:57:18Z) - MixReasoning: Switching Modes to Think [79.70845484191543]
推論モデルは、ステップバイステップで問題に取り組むことでパフォーマンスを向上させる。
あらゆるステップに拡張推論を適用することは、かなりの冗長性をもたらす。
一つの応答内で推論の深さを動的に調整するフレームワークであるMixReasoningを提案する。
論文 参考訳(メタデータ) (2025-10-07T15:46:34Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。