論文の概要: Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning
- arxiv url: http://arxiv.org/abs/2606.07720v1
- Date: Fri, 05 Jun 2026 15:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.363677
- Title: Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning
- Title(参考訳): なぜ残留ストリームを層に制限し、トークンを含まないのか? 連続潜時推論のための永続記憶
- Authors: Mujtaba Farhan, Maheep Chaudhary,
- Abstract要約: 我々は、CoCoNuT を textitGated Concept Stream で拡張する textbfAGCLR (Adaptive Gated Continuous Latent Reasoning) を提案する。
AGCLRはあらゆる種類のデータセットで一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 0.10742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable reasoning abilities on mathematical and multi-hop planning tasks. The CoCoNuT (Chain of Continuous Thought) paradigm~\cite{hao2024coconut} extends this by enabling models to reason in latent space, exploring multiple reasoning paths simultaneously rather than committing to a single chain early on. However, we identify a limitation we term the \textbf{concept bottleneck}. At each reasoning pass, intermediate hidden states are overwritten, causing the model to lose critical facts computed in earlier steps as reasoning depth increases. We observe this empirically. On HotpotQA, vanilla CoCoNuT (10.4\% EM) fails to improve over the CoT baseline (11.0\% EM), and performance degrades with curriculum depth on GSM8K. To address this, we propose \textbf{AGCLR} (Adaptive Gated Continuous Latent Reasoning), which augments CoCoNuT with a \textit{Gated Concept Stream}. A persistent residual memory maintained across all reasoning passes, controlled by three learned gates: a \textit{write} gate that commits intermediate facts to memory, a \textit{read} gate that retrieves relevant prior states, and a \textit{forget} gate that prunes irrelevant context. Evaluated on GSM8K, HotpotQA, and ProsQA using GPT-2 as our base model, AGCLR achieves consistent improvements across all types of datasets. With the performance gap compounding as curriculum depth increases, directly resolving the concept bottleneck. Code available at https://anonymous.4open.science/r/JJJJ/README.md
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的およびマルチホップ計画タスクにおいて顕著な推論能力を示した。
CoCoNuT (Chain of Continuous Thought) パラダイム~\cite{hao2024coconut} は、モデルの潜在空間での推論を可能にし、単一チェーンを早期にコミットするのではなく、複数の推論パスを同時に探索することによって、これを拡張します。
しかし、この制限を \textbf{concept bottleneck} と呼ぶ。
それぞれの推論パスでは、中間的な隠れ状態が上書きされ、推論の深さが増加するにつれて、モデルが以前のステップで計算された重要な事実を失う。
私たちはこれを経験的に観察する。
HotpotQAでは、バニラCoCoNuT(10.4\% EM)はCoTベースライン(11.0\% EM)よりも改善できず、GSM8Kのカリキュラム深度で性能が低下する。
そこで我々は,CoCoNuT を \textit{Gated Concept Stream} で拡張した \textbf{AGCLR} (Adaptive Gated Continuous Latent Reasoning) を提案する。
記憶に中間的な事実をコミットする \textit{write} ゲート、関連する先行状態を取得する \textit{read} ゲート、無関係なコンテキストを誘発する \textit{forget} ゲートである。
GSM8K, HotpotQA, ProsQAをベースモデルとして, GPT-2をベースモデルとして評価し, AGCLRはすべての種類のデータセットに対して一貫した改善を実現している。
カリキュラムの深さが増加するにつれて、パフォーマンスギャップが複雑化し、概念のボトルネックを直接解決する。
https://anonymous.4open.science/r/JJJ/README.md
関連論文リスト
- Enhancing Software Engineering Through Closed-Loop Memory Optimization [50.418699819003486]
ソフトウェア工学 (SE) エージェントにおけるメモリ拡張のためのクローズドループフレームワークである ours を紹介する。
タスクに依存しない textbf ベンチマークとアノテーションのない textbf 最適化信号としての有用性を確立する。
その結果、SEエージェントは設定によって常に改善され、成功率で$uparrow5.25%、解決効率で$uparrow4.63%という絶対的なゲインが得られることが示された。
論文 参考訳(メタデータ) (2026-06-04T03:17:21Z) - Stateful Reasoning via Insight Replay [51.85629502016196]
CoT(Chain-of-Thought)推論は,大規模言語モデルにおける多段階推論の基盤となっている。
この現象の主な原因は、CoTが成長するにつれて、トレースの早期に生成された重要な洞察に対するモデルの注意が徐々に弱まることである。
提案手法は、モデルがその推論トレースから定期的に重要な洞察を抽出し、アクティブな世代フロンティア付近で再生するステートフル推論手法である。
論文 参考訳(メタデータ) (2026-05-14T06:52:59Z) - When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning [60.714416943748866]
シングルストリームの自己回帰インターフェースでは、同じトークンがモデル状態を更新し、不可逆的な公約を構成する。
そこで我々は,Side-by-Side (SxS) Interleaved Reasoningを導入する。
論文 参考訳(メタデータ) (2026-05-05T02:59:58Z) - Probing to Refine: Reinforcement Distillation of LLMs via Explanatory Inversion [84.20493238687187]
単純な模倣を超えて、より深い概念的理解を具現化する新しい枠組みを導入する。
underlinetextitFirst, to address pattern memorization, Explanatory Inversion (EI) generated target explanatory probes'
underlinetextitSecondは、一般化を改善するために、Explainatory GRPO (texttEXGRPO) は、新しいダイアログ構造ユーティリティーボーナスを用いた強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2026-02-26T23:01:46Z) - G-MemLLM: Gated Latent Memory Augmentation for Long-Context Reasoning in Large Language Models [6.5798851769146784]
凍結したバックボーンとトレーニング可能な textbfLatent Memory Bank を統合したメモリ拡張アーキテクチャである textbfG-MemLLM を提案する。
G-MemLLMはマルチホップ推論とリレーショナル精度を大幅に向上させ、Llama 3.1-8BのZsREの精度を13.3%向上させた。
論文 参考訳(メタデータ) (2026-01-12T03:30:29Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文 参考訳(メタデータ) (2022-11-22T21:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。