論文の概要: Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.16222v1
- Date: Mon, 15 Jun 2026 05:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.091687
- Title: Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
- Title(参考訳): 潜在思考フロー:大規模言語モデルにおける効率的な潜在思考推論
- Authors: Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou,
- Abstract要約: 本稿では,可変長連続軌道をモデルとした潜在思考フロー(LTF)を提案する。
微調整と転写学習による実験では、LTFは明示的なCoTおよび潜在推論基準よりも優れており、精度は9.5%向上し、推論長は平均27.2%低下している。
- 参考スコア(独自算出の注目度): 23.52673819075993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly rely on intermediate reasoning, yet explicit Chain-of-Thought (CoT) suffers from a linguistic space bottleneck: each thought must be decoded into tokens, causing high inference overhead. Latent reasoning moves deliberation into continuous space, but existing methods mostly learn deterministic or reward-maximizing paths, lacking a principled way to allocate probability across trajectories with different correctness and costs. We propose Latent Thought Flow (LTF), which models reasoning as variable-length continuous trajectories and trains a sampler to match a reward-induced posterior over answer quality and computation cost. We instantiate this with a continuous GFlowNet using stochastic latent transitions. To handle sparse answer supervision, we introduce an Entropy-Weighted Subtrajectory Balance objective for intermediate rewards and a reference-prior regularizer to anchor exploration. Experiments under finetuning and transfer learning settings show that LTF outperforms explicit CoT and latent reasoning baselines, improving accuracy by 9.5% while reducing reasoning length by 27.2% on average compared with strong latent reasoning baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は、中間的推論にますます依存するが、明示的なCoT(Chain-of-Thought)は言語空間のボトルネックに悩まされる。
遅延推論は議論を連続空間に移すが、既存の手法は主に決定論的あるいは報酬を最大化する経路を学習し、異なる正確さとコストで軌道にまたがる確率を割り当てる原理的な方法が欠如している。
本稿では,可変長連続軌道をモデルとした潜在思考フロー(LTF)を提案する。
確率潜在遷移を用いて連続的なGFlowNetでこれをインスタンス化する。
スパース回答の監督を扱うために,中間報酬に対するエントロピー重み付きサブトラジェクトリ・バランス目標と,探索をアンカーする基準優先正規化器を導入する。
微調整と転写学習による実験では、LTFは明らかにCoTおよび潜伏推論ベースラインより優れ、精度は9.5%向上し、推論長は強い潜伏推論ベースラインと比較して平均27.2%低下した。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - Latent Reasoning in LLMs as a Vocabulary-Space Superposition [80.01651003144282]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトによる強力な推論能力を示すが、明示的な推論は計算上のオーバーヘッドを大幅に引き起こす。
遅延推論に関する最近の研究は、明示的な監督なしに遅延空間を推論することでコストを削減するが、性能は著しく低下する。
この問題に対処するため、LLM語彙の列空間に潜伏空間を制限し、潜伏推論を語彙確率の重ね合わせとして扱う。
後続の推論が終わると、それは最終的な答えを得るために明確な推論の固有状態に崩壊する。
Latent-SFTはGSM8kに新しい状態を設定し、明示的に一致する
論文 参考訳(メタデータ) (2025-10-17T10:51:20Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。