論文の概要: Forward-Free Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2606.08357v1
- Date: Sat, 06 Jun 2026 22:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.055803
- Title: Forward-Free Diffusion Language Models
- Title(参考訳): 前方自由拡散言語モデル
- Authors: Haotian Sun, Rushi Qiang, Yuqian Zheng, Bo Dai,
- Abstract要約: 拡散言語モデルは反復的記述を通じてテキストを生成する。
本研究では,手作業で設計した前方処理を必要としない前方自由拡散言語モデルFReDAを提案する。
FReDAは近傍に非依存で、モデル複雑度を意識し、フレキシブルリファインメントパラメータ化と互換性がある。
- 参考スコア(独自算出の注目度): 12.961496586646708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models generate text through iterative denoising, offering a powerful alternative to autoregressive generation. However, discrete language spaces lack a natural neighborhood structure for defining effective perturbations, so some artificial corruption schemes are proposed in the forward process. Such prescribed forward processes often produce states that are mathematically convenient but misaligned with drafts and errors encountered during generation, resulting in degraded sample quality. To address this limitation, we propose FReDA, a forward-free diffusion language model that eliminates the need for a hand-designed forward process. We formulate diffusion language modeling as recursive distribution refinement, in which model-generated drafts serve as implicit intermediate states, and the learned refinement model progressively moves the draft distribution toward the target distribution. Concretely, FReDA refines drafts by proposing candidate draft sequences and either directly performing self-refinement or selecting among parallel candidates via best-of-N refinement. With this design, FReDA is neighborhood-agnostic, model-complexity-aware, and compatible with flexible refinement parameterizations. Extensive evaluations in the sub-8B regime show that FReDA-4B outperforms larger diffusion base models on reasoning and coding benchmarks, achieving absolute gains of up to 15%, while reaching a 1.5-1.8x average speedup over diffusion baselines and scaling effectively with additional refinement computation.
- Abstract(参考訳): 拡散言語モデルは反復的記述を通じてテキストを生成し、自己回帰生成の強力な代替手段を提供する。
しかし、離散言語空間は効果的な摂動を定義する自然な近傍構造を欠いているため、いくつかの人工的な汚いスキームが前方プロセスで提案されている。
このような所定の前処理は、しばしば数学的に便利であるが、生成時に遭遇したドラフトやエラーと一致しない状態を生成し、結果としてサンプルの品質が低下する。
この制限に対処するため,手作りの前方処理を必要としない前方自由拡散言語モデルFReDAを提案する。
本稿では,モデル生成したドラフトが暗黙の中間状態として機能する再帰的分布改善として拡散言語モデリングを定式化し,学習された改善モデルは,段階的に目標分布に向かってドラフト分布を移動させる。
具体的には、FReDAは、候補のドラフトシーケンスを提案してドラフトを洗練し、直接自己修正を行うか、ベスト・オブ・Nによる並列候補の選択を行う。
この設計により、FReDAは近傍非依存で、モデル複雑度を意識し、フレキシブルな精細化パラメータ化と互換性がある。
さらに,FReDA-4Bは,拡散ベースラインよりも1.5-1.8倍のスピードアップを達成し,さらなる改良を加えて,拡張ベースラインのスケーリングを効果的に行うとともに,推論および符号化ベンチマークにおいてより大きな拡散ベースモデルよりも優れることを示した。
関連論文リスト
- Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Towards Latent Diffusion Suitable For Text [7.293508593001522]
NFDMの拡張である言語生成のためのニューラルフロー拡散モデルを導入し、離散状態空間への連続拡散モデルの直接適用を可能にする。
本モデルでは, 従来の潜伏拡散モデルに匹敵する試料品質を達成しつつ, 自己回帰モデルと同一サイズの自己回帰モデルとの差を大幅に低減する。
論文 参考訳(メタデータ) (2026-01-07T20:50:59Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。