論文の概要: When to Think Deeply: Inhibitory Deliberation for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.06745v1
- Date: Thu, 04 Jun 2026 21:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.46433
- Title: When to Think Deeply: Inhibitory Deliberation for LLM Reasoning
- Title(参考訳): 深く考える - LLM推論の抑制的検討
- Authors: Zhixuan He, Yue Feng,
- Abstract要約: 我々は、応答条件による抑制的熟考のためのフレームワークであるIDPRを提案する。
IDPRはまず簡潔な直感的な回答を生成し、次に抑制コントローラを使用して決定する。
IDPRは最も高い補正精度を達成し、応答条件による阻害が迅速な答えをよりよく識別することを示す。
- 参考スコア(独自算出の注目度): 5.19759149737193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Large Language Models can improve problem-solving performance through deliberative inference, but invoking slow reasoning for every input is computationally expensive and often unnecessary. We propose IDPR, a framework for response-conditioned inhibitory deliberation. IDPR first generates a concise intuitive answer and then uses an inhibition controller to decide whether that specific response should be released or suppressed in favor of slow reasoning. Unlike input-only routers, the inhibition controller conditions on the fast answer and fast-side evidence, including confidence, logit margin, parseability, and generation cost. We train the controller from paired fast-slow outcomes and select the inhibition threshold on a held-out validation set under an accuracy-first slow-call budget. On a held-out 5,000-example mathematical reasoning test set, IDPR invokes slow reasoning on only 8.20% of examples and improves accuracy from 47.90% to 48.92%. Under the same slow-call budget, random routing decreases accuracy to 46.76%, while the strongest confidence-based baseline reaches 48.22%. IDPR also achieves the highest corrective precision, showing that response-conditioned inhibition better identifies fast answers that benefit from slow reasoning.
- Abstract(参考訳): 大規模言語モデルの推論は、議論的な推論によって問題解決のパフォーマンスを改善することができるが、全ての入力に対する遅い推論は計算コストが高く、しばしば不要である。
我々は、応答条件による抑制的熟考のためのフレームワークであるIDPRを提案する。
IDPRはまず、簡潔な直感的な回答を生成し、次に抑制コントローラを使用して、緩やかな推論に賛成して、特定の応答を解放するか、または抑制するかを決定する。
入力専用ルータとは異なり、高速な応答と高速なエビデンス(信頼度、ロジットマージン、解析可能性、生成コストなど)の抑制制御条件は、高速な応答と高速なエビデンスである。
我々は、ペア化された高速スロー結果からコントローラを訓練し、精度第一のスローコール予算の下で設定されたホールトアウト検証セット上で、抑制しきい値を選択する。
5000例の数学的推論テストセットでは、IDPRはわずか8.20%の例で遅い推論を実行し、精度は47.90%から48.92%に向上する。
同じスローコール予算の下では、ランダムルーティングの精度は46.76%まで低下し、最強の信頼ベースのベースラインは48.22%に達した。
IDPRはまた、応答条件による阻害が遅い推論の恩恵を受ける高速な答えをよりよく識別することを示し、最も高い補正精度を達成している。
関連論文リスト
- Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction [14.620900910188382]
Chain-of-Thought (CoT)推論は精度を向上するが、リアルタイムクエリの修正には不当な遅延が発生する。
Sandwich Reasoning (SandwichR) という手法を提案する。
我々は,SandwichRが標準CoTに匹敵するSOTA精度を実現し,40~70%の遅延低減を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-07T07:52:30Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - Self-Aligned Reward: Towards Effective and Efficient Reasoners [16.740993145927774]
自己整合報酬 (Self-aligned reward, SAR) は、検証可能な報酬を補完し、推論精度と効率の両方を奨励する自己誘導信号である。
SARは, 正確さ, 正解スコアが冗長性よりも高く, 正解スコアが完全誤解よりも高いという, 解答品質を確実に区別することを示す。
論文 参考訳(メタデータ) (2025-09-05T20:39:43Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - Thinker: Learning to Think Fast and Slow [20.900923033065734]
本稿では,素早い思考,検証,スロー思考,要約の4段階を含むQAタスクの簡単な修正を紹介する。
提案課題は,Qwen2.5-1.5Bでは平均精度を25.6%から27.3%,DeepSeek-R1-Qwen-1.5Bでは45.9%から51.0%に改善する。
論文 参考訳(メタデータ) (2025-05-27T12:22:46Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。