論文の概要: Teaching Diffusion to Speculate Left-to-Right
- arxiv url: http://arxiv.org/abs/2606.11552v1
- Date: Wed, 10 Jun 2026 01:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.232632
- Title: Teaching Diffusion to Speculate Left-to-Right
- Title(参考訳): 左側から右側への拡散を指示する
- Authors: Lexington Whalen, Yuki Ito, Ryo Sakamoto,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いタスクにわたって顕著なパフォーマンスを達成するが、その自己回帰的復号処理は、かなりの推論コストを発生させる。
投機的復号化はこのボトルネックに対処するため、軽量なドラフトモデルを使用して、後により大きなターゲットモデルによって並列に検証される複数の将来のトークンを提案する。
最近の研究は、拡散言語モデルがこの設定に適しており、パラレルでドラフトトークンのブロック全体を生成できることを実証している。
- 参考スコア(独自算出の注目度): 3.205247598097648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve remarkable performance across a wide range of tasks, but their autoregressive decoding process incurs substantial inference costs due to inherently sequential token generation. Speculative decoding addresses this bottleneck by employing a lightweight draft model to propose multiple future tokens that are subsequently verified in parallel by a larger target model. Recent work has demonstrated that diffusion language models are well suited for this setting, as they can generate entire blocks of draft tokens in parallel and thereby alleviate the sequential constraints of autoregressive drafting. A subtlety of this regime is that block-diffusion drafters generate tokens bidirectionally within a block, whereas verification is performed by an autoregressive target model that evaluates tokens in a strictly left-to-right manner, leaving a gap between the symmetric training-time objective and the asymmetric verification-time reward. In this work, we offer an empirical analysis of three training-time interventions that narrow this gap: token positional weighting, a first-error focal loss that targets the position that breaks the accepted prefix within each block, and a chain loss term that substitutes a differentiable surrogate for the expected accepted length. The three interventions act along orthogonal axes (position, block-conditional first error, joint prefix) and compose additively; they are likewise orthogonal to test-time alignment mechanisms such as multi-draft self-selection, with which they can in principle be combined. Across four target models and six reasoning, code, and dialogue benchmarks, the three interventions raise accepted draft length by 21-76% per benchmark over a position-uniform baseline, without adding additional forward passes and without changing the inference pipeline or the rejection-sampling exactness contract.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広いタスクにわたって顕著なパフォーマンスを達成するが、その自己回帰復号処理は本質的にシーケンシャルなトークン生成のためにかなりの推論コストを発生させる。
投機的復号化はこのボトルネックに対処するため、軽量なドラフトモデルを使用して、後により大きなターゲットモデルによって並列に検証される複数の将来のトークンを提案する。
最近の研究は、拡散言語モデルはパラレルなトークンのブロック全体を生成できるため、この設定に適していることを示しており、したがって自己回帰的起草の逐次的制約を緩和することができる。
このルールの微妙なところは、ブロック拡散ドラフトラがブロック内で双方向にトークンを生成するのに対して、検証は厳密な左右の方法でトークンを評価する自己回帰的ターゲットモデルによって行われ、対称的な訓練時間目標と非対称な検証時間報酬のギャップが残ることである。
本研究では,このギャップを狭める3つの訓練時間的介入を経験的に分析する:トークン位置重み付け,各ブロック内で受け入れられた接頭辞を破る位置を狙う第1エラー焦点損失,および予測される許容長に対して異なるサロゲートを代用するチェーン損失項。
3つの介入は直交軸(配置、ブロック条件第一誤り、結合接頭辞)に沿って作用し、加法的に構成する。
4つのターゲットモデルと6つの推論、コード、ダイアログベンチマークにまたがって、3つの介入は1ベンチマーク当たりのドラフト長を21~76%引き上げる。
関連論文リスト
- D^2SD: Accelerating Speculative Decoding with Dual Diffusion Draft Models [27.44373450962651]
最近の拡散ベースのドラフトラはトークンのブロック全体を並列に生成するが、通常は検証毎に単一のドラフトシーケンスにコミットする。
D2SDは,候補を信頼誘導プレフィックスツリーに整理する,二重拡散ドラフト投機的復号化フレームワークである。
結果として得られた共有誘導候補は、カスケードの注意を通して共同で検証される。
論文 参考訳(メタデータ) (2026-06-03T04:48:00Z) - FlexDraft: Flexible Speculative Decoding via Attention Tuning and Bonus-Guided Calibration [21.05266483397106]
FlexDraftは投機的デコードフレームワークで、3つの重要な設計を通じて様々なバッチサイズに対応します。
Attention Tuningは、マスクトークン上の最後の数層の注意プロジェクタのみをチューニングすることで、ブロック拡散のドラフトを可能にする。
Bonus-guidedは、解決されたボーナストークンに軽量な条件を付け、ドラフトロジットを校正する。
論文 参考訳(メタデータ) (2026-05-19T15:48:16Z) - D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting [59.204113363599994]
投機的復号化は、小さなドラフト作成者がより大きなターゲットモデルが並列に検証するトークンを提案することによって推論を加速する。
最近の拡散ベースの並列ドラフトア(DFlashなど)は、1つの前方パスで完全なB-tokenブロックを予測し、より深いドラフトアとより長い許容ブロックを可能にする。
各位置の重みと、その対数確率の寄与とを一致させて、期待されるドラフト長の相違可能なサロゲートから、位置毎のトレーニングウェイトを導出する。
6つのベンチマークと2つのQwen3-4Bドラフト深度、2つの復号温度、2つの追加ターゲットモデル、D-PACEは一貫してウォールクロックのスピードアップと平均の両方を改善している。
論文 参考訳(メタデータ) (2026-05-12T06:27:57Z) - Training-free Dropout Sampling for Semantic Token Acceptance in Speculative Decoding [13.249778063956917]
投機的復号化は、トークンを軽量なドラフトモデルで提案することにより、大きな言語モデル推論を加速する。
この研究は、ドラフトトークンとターゲットモデルの予測分布をマッチングする新しいアプローチであるDropMatchを導入している。
複数のベンチマークで実験したところ、我々のアプローチは、競争力のあるタスク性能を維持しながら、受け入れ期間を延ばすことが示されている。
論文 参考訳(メタデータ) (2026-02-11T04:53:33Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Think Before You Accept: Semantic Reflective Verification for Faster Speculative Decoding [48.52389201779425]
投機的復号化は、軽量モデルを使用して複数のドラフトトークンを生成し、それらを並列に検証することで推論を加速する。
既存の検証手法は、意味的正確性を見越しながら、分布の整合性に大きく依存している。
我々は,学習自由でセマンティックなアプローチであるリフレクティブ検証を提案し,正確性と効率のトレードオフを改善する。
論文 参考訳(メタデータ) (2025-05-24T10:26:27Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。