論文の概要: Neither Parallel Nor Sequential: How DiffusionGemma Actually Commits Tokens
- arxiv url: http://arxiv.org/abs/2606.14620v1
- Date: Fri, 12 Jun 2026 16:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.995973
- Title: Neither Parallel Nor Sequential: How DiffusionGemma Actually Commits Tokens
- Title(参考訳): パラレルでもシークエンシャルでもない:DiffusionGemmaはいかにしてトークンを消費するか
- Authors: Ali Asaria, Tony Salomone, Deep Gandhi,
- Abstract要約: オープン拡散言語モデルは並列非自己回帰デコーダとして販売されている。
Gemma 4をベースとしたマスク付き離散拡散混合実験モデルを構築した。
686プロンプト、6レジームのプローブスイート全体で、その復号化は並列でもブロック自動回帰でもないことが判明した。
- 参考スコア(独自算出の注目度): 0.08599681538174887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open diffusion language models are marketed as parallel, non-autoregressive decoders, yet the order in which a shipped checkpoint actually commits its tokens is almost never measured. We instrument DiffusionGemma 26B, a masked discrete-diffusion mixture-of-experts model built on Gemma 4, hooking its sampler's accept step to record which canvas positions commit, when, and at what confidence. Across a 686-prompt, six-regime probe suite we find that its decoding is neither parallel nor block-autoregressive: it follows a partial left-to-right commit bias whose apparent strength depends almost entirely on the granularity at which you look. Order is weak token by token and strengthens smoothly as the analysis is coarsened, so the model's "block size" turns out to be an artifact of the measuring ruler rather than the architecture. The model commits in large simultaneous batches, leaving much of the within-batch order genuinely undefined rather than merely unobserved. The behaviour is regime-dependent: structured JSON is committed in essentially arbitrary order, and a position's commit confidence tracks correctness on mathematical reasoning but carries no signal on factual recall. Commitment is aggressive, finishing in a short late burst well inside the step budget, while task accuracy matches the model's autoregressive Gemma-4 sibling. Beyond these findings, our central contribution is methodological: measuring decoding order honestly demands handling trailing-EOS padding, within-regime confounding, commit non-monotonicity, block-size sensitivity, and large commit-batch ties, each of which can otherwise manufacture a decoding-order result that is not really there.
- Abstract(参考訳): オープン拡散言語モデルは並列非自己回帰デコーダとして販売されているが、出荷されたチェックポイントが実際にトークンをコミットする順序はほとんど測定されていない。
DiffusionGemma 26Bは、Gemma 4上に構築されたマスク付き離散拡散混合専門家モデルであり、どのキャンバス位置のコミット、いつ、そしてどの信頼度を記録すべきかをサンプルの受け入れステップで記録する。
686プロンプト、6レジームのプローブスイートでは、デコーディングは並列でもブロックオートレグレッシブでもないことが分かりました。
秩序はトークンによる弱いトークンであり、分析が粗くなるにつれて円滑に強化されるため、モデルの"ブロックサイズ"は、アーキテクチャではなく、測定定規の成果物であることが判明した。
モデルは大規模な同時バッチでコミットし、バッチ内の順序の多くは、単に観測されていないのではなく、真に未定義のまま残される。
構造化JSONは基本的に任意の順序でコミットされ、位置のコミット信頼度は数学的推論の正確性を追跡するが、実際のリコールのシグナルは持たない。
コミットはアグレッシブで、ステップの予算内では遅いバーストで終了し、タスクの精度はモデルの自己回帰的なGemma-4の兄弟と一致している。
遅延処理EOSのパディング処理,非モノトニック性のコミット,ブロックサイズ感度,大規模コミットバッチの結びつきなど,デコード順序を真に求めている場合,実際には存在しないデコード順序を生成できるのです。
関連論文リスト
- Teaching Diffusion to Speculate Left-to-Right [3.205247598097648]
大規模言語モデル(LLM)は、幅広いタスクにわたって顕著なパフォーマンスを達成するが、その自己回帰的復号処理は、かなりの推論コストを発生させる。
投機的復号化はこのボトルネックに対処するため、軽量なドラフトモデルを使用して、後により大きなターゲットモデルによって並列に検証される複数の将来のトークンを提案する。
最近の研究は、拡散言語モデルがこの設定に適しており、パラレルでドラフトトークンのブロック全体を生成できることを実証している。
論文 参考訳(メタデータ) (2026-06-10T01:21:56Z) - The Path Matters: Learning a Token-Commitment Policy for Diffusion Language Models [52.93186090124315]
トークンのコミットメントは、再利用可能なトレースステートポリシとして学ぶことができる、と私たちは主張する。
凍結拡散言語モデルのためにこのポリシーをインスタンス化する軽量プラグインコントローラであるTraceLockを紹介する。
論文 参考訳(メタデータ) (2026-05-23T18:23:46Z) - Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models [21.699371484195865]
我々は,dLLMの最終隠れ状態にアタッチする軽量依存予測器DEMASKを提案する。
実証的に、DEMASKはDream-7Bで1.7-2.2$times$ Speedupを達成し、信頼性ベースのベースラインやKLベースのベースラインと比較して精度が向上した。
論文 参考訳(メタデータ) (2026-04-02T22:21:24Z) - Attractor-Keyed Memory [0.0]
物理セレクタは、決定の時点で高次元のシグネチャを生成する。
試行錯誤(ステレオタイプ化)および経路間で線形に独立なシグネチャを繰り返すと、単一の線形デコーダがそれらを任意のペイロードにマップする。
我々は,全誤差分解を導出し,Ising-machineセレクタの構成を与え,合成スペックル・シグナチャシミュレーションで予測されたスケーリングを検証する。
論文 参考訳(メタデータ) (2026-03-17T18:31:40Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Continuous Speculative Decoding for Autoregressive Image Generation [27.308442169466975]
連続的視覚自己回帰(AR)モデルは、画像生成において有望な性能を示す。
投機的復号化は 事実上 自己回帰推論を加速させた
この研究は、低受理率、不整合出力分布、解析式のない修正分布からの課題に対処する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。