論文の概要: JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting
- arxiv url: http://arxiv.org/abs/2606.18394v1
- Date: Tue, 16 Jun 2026 18:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.852036
- Title: JetFlow: Breaking the Scaling Ceiling of Speculative Decoding with Parallel Tree Drafting
- Title(参考訳): JetFlow: 並列ツリー描画による投機的デコーディングのスケーリングシーリングを破る
- Authors: Lanxiang Hu, Zhaoxiang Feng, Yulun Wu, Haoran Yuan, Yujie Zhao, Yu-Yang Qian, Bojun Wang, Daxin Jiang, Yibo Zhu, Tajana Rosing, Hao Zhang,
- Abstract要約: 投機的復号(SD)は、複数のトークンを起草し、それらを並列に検証することによって、自己回帰的大規模言語モデル(LLM)を加速する。
従来のヘッドベースSD法は因果効率ジレンマに直面していた。
本稿では,一方向起案効率と分岐的因果条件を組み合わせたヘッドベースSDフレームワークJetFlowを提案する。
- 参考スコア(独自算出の注目度): 40.22602016171015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding (SD) accelerates autoregressive Large Language Models (LLMs) by drafting multiple tokens and verifying them in parallel, but it faces a scaling limitation: increasing the draft budget improves speed only when acceptance remains high and drafting overhead stays low. This ceiling has been difficult to break because prior head-based SD methods face a causality-efficiency dilemma. Autoregressive drafters produce path-conditioned candidates that are effective for tree speculative decoding with higher acceptance length, but their drafting cost grows with tree depth. Bidirectional block-diffusion drafters generate all positions in one pass, but their branch-agnostic marginals can form individually plausible yet mutually inconsistent trees, wasting budget and reducing acceptance. We propose JetFlow, a head-based SD framework that combines one-forward drafting efficiency with branch-wise causal conditioning. JetFlow trains a causal parallel draft head over fused hidden states from the frozen target model, producing candidate trees whose scores align with the target model's autoregressive factorization. This enables JetFlow to convert larger draft budgets into longer accepted prefixes and higher end-to-end speedup. Across math, coding, and chat benchmarks on dense and MoE Qwen3 models, JetFlow consistently outperforms bidirectional-head and tree-based SD baselines. On H100 GPUs, JetFlow achieves up to 9.64x speedup on MATH-500 and 4.58x on open-ended conversational workloads, with further latency gains demonstrated through vLLM integration under realistic serving loads. Our code and models are available at https://github.com/hao-ai-lab/JetFlow.
- Abstract(参考訳): 投機的デコーディング(SD)は、複数のトークンをドラフトして並列に検証することで、自己回帰的大規模言語モデル(LLM)を加速するが、それはスケーリングの制限に直面している。
この天井は、従来のヘッドベースSD法が因果効率ジレンマに直面しているため、壊れるのは難しい。
自己回帰的起草者は、高い受け入れ長の樹木投機的復号に有効な経路条件付き候補を生成するが、その起草コストは木の深さとともに増大する。
双方向のブロック拡散ドラフトラは、すべての位置を1パスで生成するが、分岐に依存しない限界は、個々に妥当だが相互に一貫性のない木を形成し、予算を浪費し、受け入れを減らすことができる。
本稿では,一方向起案効率と分岐的因果条件を組み合わせたヘッドベースSDフレームワークJetFlowを提案する。
JetFlowは、凍結されたターゲットモデルから隠れた状態に対して因果パラレルなドラフトヘッドをトレーニングし、スコアがターゲットモデルの自己回帰因子化と一致した候補木を生成する。
これにより、JetFlowは、より大きなドラフト予算をより長く受け入れられたプレフィックスに変換し、エンドツーエンドのスピードアップを向上できる。
密度の高いQwen3モデルとMoE Qwen3モデルの数学、コーディング、チャットベンチマークを通じて、JetFlowは、双方向ヘッドとツリーベースのSDベースラインを一貫して上回っている。
H100 GPUでは、JetFlowはMATH-500で最大9.64倍、オープンエンドの会話ワークロードで最大4.58倍のスピードアップを実現している。
私たちのコードとモデルはhttps://github.com/hao-ai-lab/JetFlow.comで公開されています。
関連論文リスト
- TreeFlash: Parallel AR-Approximation for Faster Speculative Decoding [32.75269650141292]
投機的復号化のためのワンショットブロックのドラフトは、1つのフォワードパスで完全なドラフトを生成する。
それぞれのドラフトトークンはプレフィックスコンテキストのみに条件付けされ、以前のドラフトトークンに依存しない。
この非自己回帰条件は、ドラフトの深さが大きくなるにつれて、検証者の真の自己回帰分布からドラフトの分布が分岐する。
そこで我々は,この問題に対処するために,プロダクタの隠蔽状態とそれ以前のトークンに条件付きレイヤを組み込んで,自己回帰分布を近似するTreeFlashを提案する。
論文 参考訳(メタデータ) (2026-06-02T16:00:18Z) - Accelerating Speculative Decoding with Block Diffusion Draft Trees [20.28933257827737]
投機的復号化は、軽量なドラフトラを使って複数の未来のトークンを提案することで、自己回帰言語モデルを加速する。
DFlashは、ブロック拡散ドラフトラが1つのフォワードパスでドラフトブロック全体を生成することができることを示している。
Vanilla DFlashは、ラウンド毎に1つのドラフトされた軌道のみを検証する。
DDTreeは,ブロック拡散型ドラフトラの配置分布から直接ドラフトツリーを構築する手法である。
論文 参考訳(メタデータ) (2026-04-14T17:23:14Z) - SMART: When is it Actually Worth Expanding a Speculative Tree? [26.986851887229054]
ツリーベースの投機的復号化は、分岐したツリードラフトトークンを単一のターゲットモデルフォワードパスで検証することにより、自己回帰生成を加速する。
既存の方法では、重要な効率パラドックスを無視しながら、受理トークン数のトークンレベル確率の最大化が優先されている」。
本稿では,実行木構築のためのシステム対応限界解析フレームワークSMARTを提案する。
論文 参考訳(メタデータ) (2026-04-09T13:17:56Z) - PACER: Blockwise Pre-verification for Speculative Decoding with Adaptive Length [21.738896310075678]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論過程を高速化する強力な手法である
軽量でトレーニング可能な事前検証レイヤを用いて,ドラフト長を動的に制御する新しいアプローチであるPacerを提案する。
以上の結果から,Pacerは自己回帰復号化よりも最大2.66倍の高速化を実現し,一貫した投機復号化を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:12:38Z) - DART: Diffusion-Inspired Speculative Decoding for Fast LLM Inference [27.204773545145326]
DARTは大規模言語モデル(dLLM)の投機的復号化フレームワークである
並列生成を活用して、ドラフトのレイテンシを低減する。
複数のデータセットにまたがる2.03x--3.44xウォールクロックのスピードアップを実現している。
論文 参考訳(メタデータ) (2026-01-27T07:04:24Z) - Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文 参考訳(メタデータ) (2025-12-26T04:45:49Z) - Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。
HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-10-22T15:56:19Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z) - Ouroboros: Generating Longer Drafts Phrase by Phrase for Faster Speculative Decoding [65.94521678103237]
投機的復号化(英: Speculative decoding)は、大規模言語モデルの生成プロセスを加速する広く使われている手法である。
我々は,草案作成プロセスの並列化のために,草案文を生成するOuroborosを紹介した。
ウロボロは投機的復号化で最大2.8倍、バニラ復号化で3.9倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2024-02-21T11:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。