論文の概要: Scheduling Thoughts: Learning the Order of Thought in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.23567v1
- Date: Mon, 22 Jun 2026 16:32:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 18:12:13.72623
- Title: Scheduling Thoughts: Learning the Order of Thought in Diffusion Language Models
- Title(参考訳): スケジューリング思考:拡散言語モデルにおける思考順の学習
- Authors: Jiawei Xu, Minghui Liu, Aakriti Agrawal, Yifan Chen, Furong Huang,
- Abstract要約: 自己認識スケジューリングは、軽量な順序ポリシーを学び、任意の順序と半自己回帰デコーディングの両方にシームレスに適用する。
1B MDMのスドクでは、SASはパズルの精度を82.0%(ベストスケジュール)から91.8%に改善し、第2ステージの微調整で97.5%に達する。
LLaDA-8Bの数学的推論では、ASSはGSM8Kのpass@1を64%から76%に改善し、MBPPは39.5%から41%に改善した。
- 参考スコア(独自算出の注目度): 51.21958617138889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion language models decode by iteratively unmasking tokens, where the unmasking order defines an "order of thought" that strongly influences generation quality yet is typically chosen heuristically. We derive a tractable upper bound on the sequential decoding mismatch, measured by the Kullback-Leibler divergence and expressed in terms of the model's pathwise log-likelihood, with tightness under sufficient model expressivity. This bound induces a dense self-aware reward over ordered trajectories, casting order selection as a principled policy optimization problem with a frozen denoiser. We instantiate this idea as Self-Aware Scheduling (SAS), which learns a lightweight order policy using Group Relative Policy Optimization and applies seamlessly to both any-order and semi-autoregressive decoding. On Sudoku with 1B MDM, SAS improves puzzle accuracy from 82.0% (best heuristic schedule) to 91.8%, and reaches 97.5% with second-stage fine-tuning along learned trajectories. On mathematical reasoning with LLaDA-8B, SAS improves pass@1 on GSM8K from 64% to 76% and on MBPP from 39.5% to 41%, consistently matching or exceeding heuristic schedules across generation lengths and block sizes. Project page: https://jimmyxu123.github.io/SAS
- Abstract(参考訳): マスク付き拡散言語モデルは、反復的にアンマキングトークンによってデコードされ、そこでは、アンマキング順序は、生成品質に強く影響を及ぼすが、通常はヒューリスティックに選択される「思考の順序」を定義する。
我々は,Kulback-Leibler の発散によって測定された逐次復号ミスマッチ上のトラクタブルな上界を,十分なモデル表現率で厳密に表現する。
このバウンダリは順序軌跡よりも密集した自己認識報酬を誘導し、凍結デノイザを用いた原則的ポリシー最適化問題として順序選択をキャストする。
グループ相対ポリシー最適化を用いて軽量な順序ポリシーを学習し、任意の順序と半自己回帰デコーディングの両方にシームレスに適用する自己認識スケジューリング(SAS)として、このアイデアをインスタンス化する。
1B MDMのスドクでは、SASはパズルの精度を82.0%(最良のヒューリスティックスケジュール)から91.8%に改善し、学習軌道に沿って第2段階の微調整を行い、97.5%に達する。
LLaDA-8Bの数学的推論では、GSSはGSM8Kのパス@1を64%から76%に改善し、MBPPは39.5%から41%に改善した。
プロジェクトページ:https://jimmyxu123.github.io/SAS
関連論文リスト
- DPRM: A Plug-in Doob h transform-induced Token-Ordering Module for Diffusion Language Models [76.12556589212666]
本稿では拡散言語モデルのためのプラグイントークン順序付けモジュールDPRM(Doob h-transform Process Reward Model)を紹介する。
DPRMは信頼性駆動のプログレッシブオーダから始まり、徐々にDoobh変換プロセスリワード誘導オーダへと移行する。
抽出可能な最適化の仮定の下では、DPRMはランダムおよび信頼のみの順序よりもサンプル複雑さの優位性が得られる。
論文 参考訳(メタデータ) (2026-04-27T11:50:26Z) - LogicDiff: Logic-Guided Denoising Improves Reasoning in Masked Diffusion Language Models [0.0]
本稿では,信頼に基づくアンマスキーを論理ロール誘導アンマスキーに置き換える推論時間手法であるLogicDiffを紹介する。
依存関係順序付きスケジューラは、論理的依存関係順序でトークンをアンマスクする。
LogicDiffは、GSM8Kでは22.0%から60.7%に、MATH-500では23.6%から23.6%に改善した。
論文 参考訳(メタデータ) (2026-03-24T13:08:10Z) - Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - Search or Accelerate: Confidence-Switched Position Beam Search for Diffusion Language Models [24.78455014605002]
拡散言語モデルは、マスキングシーケンスを反復的に認知することでテキストを生成する。
標準復号法は強欲な規則に従っており、最も自信のある位置を解き放つ。
トレーニング不要なデコードアルゴリズムであるSOARをモデルの不確実性に適応させる。
論文 参考訳(メタデータ) (2026-02-11T15:41:09Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Improving Discrete Diffusion Unmasking Policies Beyond Explicit Reference Policies [47.6755955972232]
我々は,KL規則化マルコフ決定プロセス (MDP) として明示的な基準ポリシを付与し,正規化目標を最適化した。
このフレームワークの下で最適化されたポリシーは、スケジュールよりもデータ分布とより密に一致したサンプルを生成することを証明している。
論文 参考訳(メタデータ) (2025-10-07T09:44:24Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。