論文の概要: Learning to Refine Hidden States for Reliable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.17524v1
- Date: Tue, 16 Jun 2026 05:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.279806
- Title: Learning to Refine Hidden States for Reliable LLM Reasoning
- Title(参考訳): 信頼性LLM推論のための隠れ状態の抽出学習
- Authors: Chia-Hsuan Hsu, Jui-Ming Yao,
- Abstract要約: 大規模言語モデルは強力な推論能力を示すが、複雑な多段階設定では内部推論プロセスは不安定である。
本稿では,復号化前に隠蔽表現を反復的に更新する強化誘導潜時改善フレームワークReLARを提案する。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models show strong reasoning ability, but their internal reasoning process can remain unstable in complex multi-step settings, where early hidden-state errors may propagate to incorrect predictions. We propose ReLAR, a reinforcement-guided latent refinement framework that iteratively updates hidden representations before decoding. ReLAR maintains a compact latent reasoning state and uses learned depth and action controllers to adaptively determine both the number and direction of refinement steps. The controllers are trained with a policy gradient objective based on step-wise likelihood improvement, enabling efficient input-dependent reasoning without explicit chain-of-thought generation. Experiments on medical, mathematical, multi-hop reasoning, and open-ended generation benchmarks show that ReLAR improves accuracy, generation quality, and reasoning stability with substantially lower inference overhead than explicit reasoning baselines.
- Abstract(参考訳): 大規模言語モデルは強い推論能力を示すが、内部推論プロセスは複雑な多段階設定で不安定であり、初期隠れ状態エラーが誤った予測に伝播する可能性がある。
本稿では,復号化前に隠蔽表現を反復的に更新する強化誘導潜時改善フレームワークReLARを提案する。
ReLARは、コンパクトな潜伏推論状態を維持し、学習深度とアクションコントローラを使用して、洗練ステップの数と方向の両方を適応的に決定する。
制御器は、ステップワイズ改善に基づいてポリシー勾配の目標を訓練し、明示的な連鎖生成なしに効率的な入力依存推論を可能にする。
医学的、数学的、マルチホップ推論、オープンな生成ベンチマークの実験では、ReLARは明示的な推論ベースラインよりも推論オーバーヘッドがかなり低い精度、生成品質、推論安定性を改善している。
関連論文リスト
- STRIDE: Learnable Stepwise Language Feedback for LLM Reasoning [80.78140312980484]
我々はSTRIDEと呼ばれる言語駆動の段階的軌道リダイレクトを提案する。
我々は、結果に基づく報酬のみを使用して生成器と生成検証器を共同で訓練し、外部アノテーションを除去する。
様々な推論ベンチマークの実験では、STRIDEが最先端のベースラインを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-05-13T11:04:31Z) - SVSR: A Self-Verification and Self-Rectification Paradigm for Multimodal Reasoning [12.51459553492698]
自己検証と自己修正(Self-Verification and Self-Rectification、SVSR)は、モデルの推論パイプラインに自己検証と自己修正を統合する統合フレームワークである。
SVSRは複雑な視覚的理解とマルチモーダル推論タスクの堅牢性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-11T14:25:17Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。