論文の概要: Diffusion Language Model Parallel Decoding via Product-of-Experts Bridge
- arxiv url: http://arxiv.org/abs/2606.08048v1
- Date: Sat, 06 Jun 2026 08:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.693145
- Title: Diffusion Language Model Parallel Decoding via Product-of-Experts Bridge
- Title(参考訳): Product-of-Experts Bridgeによる拡散言語モデル並列デコーディング
- Authors: Juntong Shi, Brian L. Trippe, Jure Leskovec, Stefano Ermon, Minkai Xu,
- Abstract要約: 拡散言語モデル (DLMs) は並列デコーディングによる大幅な速度優位性を提供する。
トークン依存関係の欠如は、自動回帰(AR)モデルと比較して生成品質を制限します。
最近の進歩は、DLMが提案、ARが目標として、重要サンプリングによってギャップを埋めようとしている。
本稿では,生成速度と精度を大幅に向上させる新しいデコードフレームワークPoE-Bridgeを紹介する。
- 参考スコア(独自算出の注目度): 93.37920675145553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) offer substantial speed advantages through parallel decoding, but the lack of token dependencies limits generation quality compared to autoregressive (AR) models. Recent progress attempts to bridge the gap via importance sampling, with DLM being the proposal and AR being the target. However, due to the huge gap between their distributions, the sampling requires a large number of particles and is thus expensive to compute. In this paper, we introduce PoE-Bridge, a novel decoding framework that drastically improves generation speed and accuracy by introducing an intermediate distribution to bridge the gap. The distribution is constructed as a Product-of-Experts (PoE) of the DLM proposal and the AR target. With the intermediate distribution, we first use the DLM to draft multiple continuations in parallel, then apply rejection sampling to verify the drafted tokens and move the resulting candidates toward the PoE. We then use importance sampling to further correct the PoE-aligned candidates toward the AR target. We further propose several improved techniques, including mixed-temperature sampling for enhanced diversity and elastic rejection windows for reducing wasted verification. Empirically, PoE-Bridge achieves significantly improved accuracy with $5\times$ speedup over the standard DLM decoding approach, and recovers at least 95% of the target AR model's performance, efficiently advancing most of the quality gap on challenging mathematical reasoning and coding tasks. Our code is available at https://github.com/juntongshi48/poe-bridge.
- Abstract(参考訳): 拡散言語モデル(DLM)は並列デコーディングによる大幅な速度優位性を提供するが、トークン依存の欠如は自己回帰(AR)モデルと比較して生成品質を制限している。
最近の進歩は、DLMが提案、ARが目標として、重要サンプリングによってギャップを埋めようとしている。
しかし、それらの分布の間に大きなギャップがあるため、サンプリングには大量の粒子が必要であり、計算に費用がかかる。
本稿では,このギャップを埋める中間分布を導入することにより,生成速度と精度を大幅に向上する新しいデコードフレームワークPoE-Bridgeを紹介する。
この分布は、DLM提案とARターゲットのProduct-of-Experts (PoE)として構成されている。
中間分布では、まずDLMを用いて複数の継続を並列に起草し、次に拒否サンプリングを適用して、起草されたトークンを検証し、結果の候補をPoEへ移動させる。
次に、重要サンプリングを使用して、PoE対応候補をARターゲットに向けてさらに修正する。
さらに、多様性向上のための混合温度サンプリングや、無駄な検証を減らすための弾性拒絶窓など、いくつかの改良された手法を提案する。
実証的には、PoE-Bridgeは標準のDLMデコーディングアプローチよりも5ドル以上で大幅な精度向上を実現し、ターゲットのARモデルの性能の少なくとも95%を回復し、挑戦的な数学的推論やコーディングタスクにおける品質ギャップの大部分を効率的に改善する。
私たちのコードはhttps://github.com/juntongshi48/poe-bridgeで利用可能です。
関連論文リスト
- Introspective Diffusion Language Models [58.91876345013321]
イントロスペクティブ拡散言語モデル(Introspective Diffusion Language Model, I-DLM)は、ARトレーニングのイントロスペクティブ一貫性を継承しながら並列デコードを維持するパラダイムである。
I-DLMは、新しいintrospective strided decoding (ISD)アルゴリズムを使用しており、モデルは同じ前方パスで新しいトークンを前進させながら、以前に生成されたトークンを検証することができる。
I-DLMは、同規模のARの質に匹敵する最初のDLMであり、モデル品質と15ベンチマークでの実用効率の両方において、以前のDLMよりも優れていた。
論文 参考訳(メタデータ) (2026-04-13T06:01:01Z) - Entropy-Aware Speculative Decoding Toward Improved LLM Reasoning [3.6588919376939733]
投機的復号(SD)は、小さなドラフトモデルを用いて大言語モデル(LLM)推論を加速する。
トレーニング不要な拡張であるEASD(Entropy-Aware Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-12-29T00:45:19Z) - Fast and Accurate Causal Parallel Decoding using Jacobi Forcing [41.89066334075016]
Jacobi Forcingはプログレッシブ蒸留パラダイムであり、モデルが独自の並列復号軌道で訓練される。
我々は,複数ブロックの復号化とリジェクション・リサイクリングを導入し,最大4.5倍高いトークン受入数と4.0倍のウォールクロック・スピードアップを実現した。
論文 参考訳(メタデータ) (2025-12-16T18:45:18Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding [66.40658898418316]
DiffuSpecは、事前訓練された拡散言語モデル(DLM)を用いて、単一のフォワードパスでマルチトークンのドラフトを生成する、トレーニングフリーのドロップインフレームワークである。
ベンチマーク全体を通じて、DiffuSpecは最大3倍のウォールクロックスピードアップを達成し、投機的復号化のための自己回帰型ドラフトラの堅牢な代替手段として拡散ベースのドラフトを確立する。
論文 参考訳(メタデータ) (2025-09-28T07:00:15Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [60.407727995313074]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。