論文の概要: When Compression Helps and When It Hurts: Condition-Aware Analysis of Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2606.21704v1
- Date: Fri, 19 Jun 2026 19:31:37 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 15:16:52.523659
- Title: When Compression Helps and When It Hurts: Condition-Aware Analysis of Chain-of-Thought Distillation
- Title(参考訳): 圧縮が長持ちする時--鎖型蒸留の条件認識分析-
- Authors: Siyang Lyu, Zhijing Sun, Xinghao Chen, Tong Liu, Dawei Zhu, Xiaoyu Shen,
- Abstract要約: Chain-of-Thought (CoT)蒸留は、大規模な推論モデルから小規模の学生に多段階の推論を伝達する。
既存のCoT圧縮法は、選択的プルーニングと生成的書き換えという2つのファミリーに分類される。
我々は,CoT圧縮を重要基準,再構成レベル,圧縮予算の3次元に沿って再放送する。
- 参考スコア(独自算出の注目度): 22.684181578779132
- License:
- Abstract: Chain-of-Thought (CoT) distillation transfers multi-step reasoning from large reasoning models to smaller students, but verbose teacher traces inflate both training and inference cost. Existing CoT compression methods fall into two families, selective pruning and generative rewriting, yet prior studies have left key factors entangled: granularity is confounded with importance criteria in pruning, restructuring level is rarely isolated in rewriting, and compression budgets are not systematically evaluated across domains or regimes. We recast CoT compression along three dimensions: importance criterion, restructuring level, and compression budget. Sweeping these across two model families, Math and General domains, and Long-/Short-CoT regimes, we find that (i) importance criterion utility is strictly governed by granularity: step-level criteria converge on a shared reasoning backbone, while token-level pruning requires symbol-aware signals to preserve the logical core; (ii) restructuring level inverts across domains: Math degrades monotonically with structural disruption, while aggressive rewriting acts as a denoiser on General tasks; (iii) training-time compression does not necessarily translate to inference-time savings: Long-CoT students retain verbose habits despite concise supervision, making the training ratio an optimistic lower bound on deployment cost. These findings yield condition-aware guidelines for matching compression to deployment context.
- Abstract(参考訳): CoT(Chain-of-Thought)蒸留は、大規模な推論モデルから小規模の学生への多段階推論を伝達するが、冗長な教師のトレースは、トレーニングと推論コストの両方を増大させる。
既存のCOT圧縮法は、選択的プルーニングと生成的書き換えという2つのファミリーに該当するが、先行研究では重要な要素が絡み合っている: 粒度はプルーニングにおいて重要な基準と一致し、再構成レベルは書き換え時に分離されることはめったになく、圧縮予算はドメインや体制間で体系的に評価されない。
我々は,CoT圧縮を重要基準,再構成レベル,圧縮予算の3次元に沿って再放送する。
これらを、MathとGeneralの2つのモデルドメインとLong-/Short-CoTのレジームに散らばって見れば、それは分かる。
(i)重要基準ユーティリティは、厳密には粒度によって管理されている: ステップレベル基準は、共有推論バックボーンに収束し、トークンレベルプルーニングは、論理コアを保存するためにシンボル対応信号を必要とする。
(二 ドメイン間のレベル逆転の再構築:Mathは、構造的破壊とともに単調に分解し、一方、アグレッシブな書き換えは、一般タスクの嫌悪者として機能する。
三 訓練時間圧縮は、必ずしも推論時間の節約に結びつくとは限らない。 長期CoTの学生は、簡潔な監督にもかかわらず冗長な習慣を保ち、訓練比率が配置コストの楽観的な下限となる。
これらの結果から,コンプレックスとデプロイメントコンテキストとの整合性に関する条件対応ガイドラインが得られた。
関連論文リスト
- Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation [60.55792673956761]
我々は, ルブリックを構造化, きめ細かいフィードバックとして組み込んだフレームワークであるtextbfRubric-Conditioned Self-Distillationを提案する。
その結果, ルーリック条件の自己蒸留は, ルーリックレベルの基準をトークンレベルのガイダンスに効果的に変換することを示した。
論文 参考訳(メタデータ) (2026-06-17T17:54:04Z) - SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning [26.883032881561423]
冗長セグメントを選択的に抑制するRLフレームワークであるtextscSLAT(Segment-Level Adaptive Trimming)を提案する。
実験の結果,textscSLATは精度・効率のフロンティアとして優れており,推論長を50%削減できることがわかった。
以上の結果から,理論上はセグメンテーションを意識したトリミングが,大規模言語モデルにおける効率的なCoT推論に有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2026-05-29T04:37:49Z) - A Geometric View of SRC: Learning Representations for Stable Residual Inference [0.0]
レコンストラクションに基づく推論は、クラスワイドのリコンストラクション残差を比較することによってクラスを割り当てる。
スパース表現分類(英: Sparse Representation Classification, SRC)は、学習された表現の幾何学に依存する標準インスタンスである。
我々は,残差による残次安定性を定式化し,幾何学的障害物を特徴づける。
論文 参考訳(メタデータ) (2026-05-28T09:33:18Z) - Structural Rationale Distillation via Reasoning Space Compression [34.91106623292321]
推論パス圧縮(Reasoning Path Compression)は、教師が再利用可能な高レベル推論パスのコンパクトで動的に維持されたバンクに従うことを制約する。
各トレーニング質問に対して、D-RPCは教師が従うべき最も関連性の高いパスと条件を検索し、類似した問題に一貫性があり、異なる問題タイプをカバーするのに十分な多様な合理性を生み出す。
論文 参考訳(メタデータ) (2026-05-08T02:15:52Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。
本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文 参考訳(メタデータ) (2025-10-01T14:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。