論文の概要: What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
- arxiv url: http://arxiv.org/abs/2606.20075v1
- Date: Thu, 18 Jun 2026 10:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.805079
- Title: What Makes Effective Supervision in Latent Chain-of-Thought: An Information-Theoretic Analysis
- Title(参考訳): 潜在チェーン・オブ・ワットの効果的なスーパービジョン:情報理論解析
- Authors: Xinghao Chen, Chak Tou Leong, Wenjin Guo, Jian Wang, Wenjie Li, Xiaoyu Shen,
- Abstract要約: 我々は、情報理論の観点から遅延連鎖(CoT)を分析し、この失敗を二重崩壊とみなす。
これらの効果を測定するために、潜在軌道と明示的推論ステップの間の相互情報を定量化するUnified Latent Probe (ULP)を導入する。
- 参考スコア(独自算出の注目度): 24.026935801991744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent Chain-of-Thought (CoT) internalizes reasoning within continuous hidden states, offering a promising alternative to verbose discrete reasoning traces. However, robust latent reasoning remains difficult because outcome supervision provides weak learning signals and leaves latent trajectories prone to semantic drift. In this work, we analyze Latent CoT from an information-theoretic perspective and identify this failure as a dual collapse: gradient attenuation along the optimization path and representational drift in the latent space. We further decompose process supervision into two complementary dimensions: Trajectory Supervision, which injects dense stepwise reasoning signals, and Space Supervision, which preserves the semantic structure of the latent manifold. Our analysis shows that rigid geometric compression can collapse the reasoning space, whereas generative reconstruction provides a more flexible semantic anchor that better preserves information capacity. To measure these effects, we introduce the Unified Latent Probe (ULP), which quantifies the mutual information between latent trajectories and explicit reasoning steps. Experiments reveal a clear Information-Performance Binding: reasoning accuracy depends on the information fidelity preserved in the latent chain. These findings provide a principled framework for latent reasoning supervision and suggest shifting from geometric imitation toward mutual information maximization. Our code is available at \href{https://github.com/EIT-NLP/Supervision-in-Latent-CoT}{this repository}.
- Abstract(参考訳): Latent Chain-of-Thought (CoT) は、連続的な隠れ状態における推論を内部化し、離散的な推論トレースを冗長にするための有望な代替手段を提供する。
しかし、結果の監督が弱い学習信号を提供し、潜在軌道は意味的ドリフトの傾向にあるため、頑健な潜伏推論は依然として困難である。
本研究では、情報理論の観点から遅延CoTを分析し、この故障を二重崩壊とみなす:最適化経路に沿った勾配減衰と潜時空間における表現的ドリフトである。
さらに、プロセスの監督を2つの相補的な次元に分解する:トラジェクトリ・スーパービジョンは、密度の高い段階的推論信号を注入し、スペース・スーパービジョンは、潜在多様体の意味的構造を保存する。
解析の結果,厳密な幾何学的圧縮は推論空間を崩壊させる可能性を示し,生成的再構成は情報容量をよりよく保存するより柔軟なセマンティックアンカーを提供する。
これらの効果を測定するために、潜在軌道と明示的推論ステップの間の相互情報を定量化するUnified Latent Probe (ULP)を導入する。
推論精度は、潜伏鎖に保存された情報忠実度に依存する。
これらの知見は、潜在的推論監督のための原則的枠組みを提供し、幾何学的模倣から相互情報の最大化へのシフトを提案する。
私たちのコードは \href{https://github.com/EIT-NLP/Supervision-in-Latent-CoT}{this リポジトリで利用可能です。
関連論文リスト
- Unlocking the Black Box of Latent Reasoning: An Interpretability-Guided Approach to Intervention [33.40772052822545]
本稿では,機械的解釈可能性と動作可能な制御のギャップを埋める。
まず,構造的,因果的,幾何学的プローブを用いた系統解析を行った。
次に、これらの解釈可能性に関する洞察を、トレーニングなしのデコードタイムの介入スイートに運用します。
論文 参考訳(メタデータ) (2026-05-31T13:52:24Z) - Faithfulness as Information Flow: Evaluating and Training Faithful Chain-of-Thought Reasoning [10.87972575497941]
思考の連鎖(CoT)推論は言語モデルを監視するのに有用である。
モデルはCoTをバイパスするプロンプト・ツー・アンサー・ショートカットに依存することができる。
構造的情報フローの観点からCoTの忠実性を考察する。
論文 参考訳(メタデータ) (2026-05-22T23:37:29Z) - Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文 参考訳(メタデータ) (2026-02-02T13:46:56Z) - Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning [25.054823575096332]
LSTR(Latent Sparse Transcoder Reasoning)を提案する。
LSTRのコアとなるのは、線形多様体輸送をスパースセマンティック更新から切り離すための残留スキップアーキテクチャを備えた潜在トランジショントランスコーダ(LTT)である。
大規模な実験により,LSTRは推論精度と圧縮効率を保ちながら,解釈性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2026-02-02T06:08:35Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。