論文の概要: SuperThoughts: Reasoning Tokens in Superposition
- arxiv url: http://arxiv.org/abs/2606.13862v1
- Date: Thu, 11 Jun 2026 19:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.616838
- Title: SuperThoughts: Reasoning Tokens in Superposition
- Title(参考訳): SuperThoughts: スーパーハットでトークンを偽装する
- Authors: Zheyang Xiong, Shivam Garg, Max Yu, Vaishnavi Shrivastava, Haoyu Zhao, Anastasios Kyrillidis, Dimitris Papailiopoulos,
- Abstract要約: ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 推論は問題解決を改善するが、逐次トークン生成のために計算コストがかかる。
我々は,連続したCoTトークンのペアを1つの潜在表現に圧縮するSuperThoughtsを提案する。
SuperThoughtsは最小限の劣化で精度を維持しながら、$sim$20-30%のCoT長短縮を実現している。
- 参考スコア(独自算出の注目度): 26.164480068360362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long Chain-of-Thought (CoT) reasoning improves LLM problem-solving but is computationally expensive due to sequential token generation. While recent works explore reasoning in continuous latent spaces to bypass discrete token generation, they often struggle with training stability and fail to scale to complex, long-horizon tasks due to lack of supervision signal. We propose SuperThoughts, which compresses pairs of consecutive CoT tokens into single latent representations and decodes two tokens per step via a lightweight Multi-Token Prediction (MTP) module. This preserves discrete token supervision at training time while doubling throughput at inference time. We finetune Qwen2.5-Math-1.5B-Instruct, Qwen2.5-Math-7B-Instruct, Qwen2.5-Math-14B-Instruct, and evaluate on MATH500, AMC, OlympiadBench, and GPQA-Diamond. With a confidence-based adaptive mechanism that falls back to standard decoding when uncertain, SuperThoughts achieves $\sim$20--30\% CoT length reduction while maintaining accuracy with minimal degradation (1-2 points accuracy drop on most tasks).
- Abstract(参考訳): ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 推論はLCM問題の解法を改善するが、逐次トークン生成のため計算コストがかかる。
最近の研究は、離散トークン生成を回避するために連続的な潜在空間での推論を探求しているが、それらはしばしば訓練の安定性に悩まされ、監視信号の欠如により複雑な長期タスクにスケールできない。
提案するSuperThoughtsは,連続したCoTトークンのペアを単一の潜在表現に圧縮し,軽量なマルチトークン予測(MTP)モジュールを介してステップ毎に2つのトークンをデコードする。
これは、トレーニング時に個別のトークンを監督し、推論時にスループットを倍にします。
我々はQwen2.5-Math-1.5B-Instruct,Qwen2.5-Math-7B-Instruct,Qwen2.5-Math-14B-Instruct,MATH500,AMC,OlympiadBe nch,GPQA-Diamondについて検討した。
信頼性に基づく適応機構は、不確実な場合には標準復号にフォールバックするが、SuperThoughtsは最小の劣化(ほとんどのタスクでは1-2ポイントの精度低下)で精度を維持しながら、$\sim$20-30\%のCoT長の削減を達成する。
関連論文リスト
- Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs [19.38885798529711]
PIPO (textbfPair-In, Pair-Out) を提案する。
PIPOは、ドラフトトークンが受け入れられるべきかどうかを決定する軽量な信頼性ヘッドをトレーニングする。
AIME 2025、GPQA-Diamond、LiveCodeBench v6、およびQwen3.5-4Bと9BのバックボーンによるLongBench v2の実験によると、PIPOは通常のデコードよりもパス@4を最大7.15ドルポイント改善している。
論文 参考訳(メタデータ) (2026-05-26T16:31:45Z) - Latent Reasoning with Supervised Thinking States [60.09942890192309]
チェーン・オブ・思想(CoT)による推論により、LLM(Large Language Models)は複雑なタスクを解決できるが、かなりの推論コストを発生させる。
我々は、入力が処理されている間に推論エムを実行する方法であるThinking Statesを提案する。
我々は、思考状態がCoTよりも強い推論行動をもたらし、トレーニング中に見られるよりも長いシーケンスへの外挿に成功したことを示す。
論文 参考訳(メタデータ) (2026-02-09T07:12:41Z) - Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge [87.51901436392427]
大規模言語モデルは、しばしばChain-of-Thought (CoT)でより効果的に複雑な推論タスクを解決する。
対照的に、人間は、しばしば、もっともらしい次のステップに対して、引力のある確率分布を維持することによって、柔らかに理にかなっている。
我々は、K候補トークンをサンプリングし、それらの埋め込みを1つの連続多重化トークンに集約するソフトな推論機構である多重思考を提案する。
モデルは自信を持っていれば、多重化トークンはほぼ独立しており、標準のCoTのように振る舞う。
論文 参考訳(メタデータ) (2026-01-13T18:48:00Z) - Rethinking Thinking Tokens: LLMs as Improvement Operators [80.12087211785949]
推論トレーニングは、LLMに長い思考の連鎖(長いCoT)を生み出す動機を与え、自己チェックによるソリューション戦略を探索することを可能にする。
これにより、精度が高くなりますが、コンテキストの長さ、トークン/計算コスト、応答レイテンシが膨らみます。
現在のモデルはメタ認知を活用して、このParetoフロンティアで他の組み合わせを提供できるのでしょうか?
i) 多様なドラフトを並列に生成し、(ii) それらを有界なテキストワークスペースに蒸留し、(iii) このワークスペース上に条件付き精製する。
論文 参考訳(メタデータ) (2025-10-01T17:08:59Z) - MARCOS: Deep Thinking by Markov Chain of Continuous Thoughts [82.46857666702924]
大規模言語モデル(LLM)における推論のための新しいパラダイムを提案する。
自己回帰的にトークンを生成する代わりに、連続的で高次元の「思考」のマルコフ連鎖として推論をモデル化する。
MARCOSはトークンベースのCoTに匹敵する性能を初めて達成し、GSM8Kでは4.7%、推論では15.7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-29T16:44:22Z) - Soft Tokens, Hard Truths [17.640897774014707]
この研究は、強化学習(RL)を通して連続CoTを学習するスケーラブルな方法を導入する。
我々は、RL探索を提供するために、トークンと入力埋め込みのノイズを混ぜた「ソフト」トークンを使用します。
LlamaとQwenのモデルによる数学推論ベンチマークでは、連続CoTによるトレーニングは、pass@1で離散CoTと一致し、pass@32でそれらを上回ります。
論文 参考訳(メタデータ) (2025-09-23T15:43:47Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。