論文の概要: LESS Is More: Mutual-Stability Sampling for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.16908v1
- Date: Mon, 15 Jun 2026 16:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.757619
- Title: LESS Is More: Mutual-Stability Sampling for Diffusion Language Models
- Title(参考訳): LESS:拡散言語モデルのための相互安定性サンプリング
- Authors: Amr Mohamed, Guokan Shang, Michalis Vazirgiannis,
- Abstract要約: 拡散大言語モデル (dLLMs) は自己回帰デコードに代わる有望な代替手段を提供する。
我々は、トークンのコミットメントをオンライン停止問題として扱う、トレーニング不要でモデルに依存しない適応型サンプリングであるtextscLESSを提示する。
textscLESSは、固定予算デコードよりも72.1%のリバースステップを減らしながら、強力なトレーニングなし適応型サンプリング器よりも平均精度を向上する。
- 参考スコア(独自算出の注目度): 23.94639050546374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) offer a promising alternative to autoregressive decoding by iteratively refining masked sequences, enabling parallel token updates and bidirectional conditioning. Their practical efficiency, however, is limited by sampling procedures that execute a fixed number of reverse denoising steps selected before decoding, spending computation on already-stable positions and sometimes committing unstable ones too early. We present \textsc{LESS}, a training-free, model-agnostic adaptive sampler that treats token commitment as an online stopping problem. \textsc{LESS} implements mutual-stability sampling through a joint stability rule that makes a masked position eligible for unmasking only when its top-1 prediction has high confidence, its top-1 token persists across recent reverse steps, and its predictive distribution is stable under top-$K$ inter-step Jensen--Shannon divergence. We evaluate \textsc{LESS} on Dream-7B, LLaDA-8B, and LLaDA-1.5-8B, covering full-sequence diffusion and semi-autoregressive blockwise sampling regimes, across seven benchmarks spanning general knowledge, math, and code. \textsc{LESS} improves average accuracy over strong training-free adaptive samplers while using $72.1\%$ fewer reverse steps than fixed-budget decoding. Since each reverse step requires a Transformer forward pass, these step-count reductions translate into fewer forward evaluations, lower measured wall-clock latency, and lower estimated inference compute.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、マスク付きシーケンスを反復的に精錬することで、自動回帰デコードに代わる有望な代替手段を提供する。
しかし、それらの実用的効率は、復号前に選択された数個の逆復号化ステップを実行し、既に安定している位置で計算に費やし、不安定な箇所を早めにコミットするサンプリング手順によって制限される。
本稿では,トークンのコミットメントをオンライン停止問題として扱うトレーニングフリーで,モデルに依存しない適応型サンプリングシステムであるtextsc{LESS}について述べる。
textsc{LESS} は、そのトップ-1予測が高い信頼度を持つ場合にのみマスクされた位置をアンマキングできるような共同安定規則により相互安定サンプリングを実装し、そのトップ-1トークンは最近の逆ステップにまたがって持続し、その予測分布はトップ$K$ステップのジェンセン-シャノン分岐の下で安定である。
本研究では,Dream-7B,LLaDA-8B,LLaDA-1.5-8B 上の \textsc{LESS} の評価を行い,一般知識,数学,コードにまたがる7つのベンチマークにおいて,全列拡散と半自己回帰的ブロックワイドサンプリングシステムについて検討した。
\textsc{LESS} は、固定予算デコードよりも72.1\%$少ないリバースステップを使用しながら、強いトレーニングのない適応型サンプリングよりも平均精度を向上させる。
各逆ステップはトランスフォーマーフォワードパスを必要とするため、これらのステップカウントの削減は、より少ないフォワード評価、低いウォールクロックレイテンシ、低い推定推論計算に変換される。
関連論文リスト
- Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models [59.51249894128724]
マスク付き拡散言語モデルは、反復を識別するごとに複数のトークンを明らかにすることで推論ステップを削減することができる。
パラレルマスク拡散復号法のためのトレーニング不要な復号法であるADASを提案する。
論文 参考訳(メタデータ) (2026-06-09T13:17:27Z) - DSL-LLaDA: Scaling Continuous Denoising to 8B Masked Diffusion LMs [29.561307941602482]
マスク付きDLMは, 連続的な埋め込み空間の認知を支援するために, 軽量に適応可能であることを示す。
適応モデルは、埋め込み空間において全ての位置を共同で進化させる連続推論をサポートする。
DSL-LLaDA-SDEは4つのベンチマークで最高のROUGE-1を達成する。
論文 参考訳(メタデータ) (2026-05-31T05:27:01Z) - Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States [28.663951525871756]
本稿では、Latent Refinement Decoding (LRD) と予測フィードバックループを備えた2段階のフレームワークについて紹介する。
LRDは最大10.6倍のスピードアップを提供しながら精度を向上し、並列シーケンス生成の強力な代替手段となる。
論文 参考訳(メタデータ) (2025-10-13T06:38:13Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - SADA: Stability-guided Adaptive Diffusion Acceleration [24.250318487331228]
拡散モデルは生成的タスクにおいて顕著な成功を収めたが、高い計算コストに悩まされている。
既存のトレーニングフリー加速戦略は、ステップごとの計算コストを削減しつつ、サンプリング時間を効果的に削減し、信頼性を低下させる。
本稿では, ODE に基づく生成モデルのサンプリングを高速化する新しいパラダイムとして, 安定誘導型適応拡散加速法 (SADA) を提案する。
論文 参考訳(メタデータ) (2025-07-23T02:15:45Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。