論文の概要: Semantic DLM+: Improving Diffusion Language Models through Bias-variance Trade-off in Transition Kernel Design
- arxiv url: http://arxiv.org/abs/2606.15327v1
- Date: Sat, 13 Jun 2026 14:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.357164
- Title: Semantic DLM+: Improving Diffusion Language Models through Bias-variance Trade-off in Transition Kernel Design
- Title(参考訳): Semantic DLM+:遷移カーネル設計におけるバイアス分散トレードオフによる拡散言語モデルの改善
- Authors: Keyue Jiang, Yuxiang Wang, Yanan Zhao, Xiang Yu, Qifang Zhao, Bohan Tang, Baojian Zhou, Yanghua Xiao, Lin Qu, Xiaoxiao Xu,
- Abstract要約: 拡散言語モデル(DLM)は、自己回帰言語モデルの代替として、強力なスケーリング能力を示している。
本稿では,この感度を一般化誤差の原理解析により検討し,3つの重要な因子を同定する。
本稿では,サンプリング中にグローバルな遷移と意味頻度のペナルティを付加するSemDLM+を提案する。
- 参考スコア(独自算出の注目度): 59.05127237532803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion Language Models (DLMs) have demonstrated strong scaling capacity as alternatives to autoregressive language models. However, their performance is highly sensitive to the choice of transition kernels, and poorly designed kernels can lead to issues like training instability, slow convergence, and biased sampling. In this paper, we study this sensitivity through a principled analysis of generalization error and identify three critical factors: asymptotic bias (difficulty in approximating the posterior distribution), exposure bias (error propagation during sampling), and optimization variance induced by kernel dispersion. We further compare different transition kernels: masking diffusion yields sparse and easier posterior-approximation targets, while uniform diffusion provides stronger sampling-side repair but induces harder approximation. Motivated by this trade-off, we revisit a previously overlooked variant, semantic DLM (SemDLM), where the transition kernel corrupts tokens to neighborhoods that are semantically similar. Our theory suggests that SemDLM can serve as a plausible middle ground by reducing the posterior approximation difficulty of uniform diffusion while retaining repair ability. However, we find that SemDLM suffers from a semantic basin problem, where sampling repeatedly stays within a semantic region and produces low-diversity text. To address this, we propose SemDLM+, which adds a global transition and a semantic-frequency penalty during sampling. Experiments on LM1B and OpenWebText show that SemDLM+ improves training dynamics and achieves competitive language modeling and generation quality with satisfactory diversity.
- Abstract(参考訳): 拡散言語モデル(DLM)は、自己回帰言語モデルの代替として、強力なスケーリング能力を示している。
しかし、それらの性能はトランジションカーネルの選択に非常に敏感であり、設計が不十分なカーネルは、トレーニングの不安定性、収束の遅い、サンプリングのバイアスといった問題を引き起こす可能性がある。
本稿では, この感度について, 一般化誤差の原理的解析を通じて検討し, 漸近バイアス(後部分布の近似に難渋する), 露光バイアス(サンプリング時のエラー伝播), カーネル分散による最適化分散の3つの重要な要因を同定する。
マスク拡散はスパースを生じ、後方近似は容易であるのに対し、均一拡散はサンプリング側をより強く修復するが、より難しい近似を誘導する。
このトレードオフによって、我々は以前見過ごされたセマンティックDLM(SemDLM)を再考し、トランジションカーネルがトークンを意味的に類似した近傍に分解する。
補修能力を維持しながら均一拡散の後方近似困難を低減し,SemDLMは可塑性中盤として機能する可能性が示唆された。
しかし,SemDLMはセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セ
そこで本研究では,サンプリング中にグローバルな遷移と意味頻度のペナルティを付加するSemDLM+を提案する。
LM1B と OpenWebText の実験から,SemDLM+ はトレーニングのダイナミクスを改善し,言語モデリングと生成品質を良好な多様性で実現している。
関連論文リスト
- Continuous Diffusion Scales Competitively with Discrete Diffusion for Language [48.290726603587444]
確率ベース連続拡散言語モデル(DLM)としてRePlaidを構築する。
自己回帰モデルと比較すると,RePlaidの計算ギャップは20ドル程度であることがわかった。
また、可能性に基づくトレーニングの利点を理解するための理論的洞察も提供します。
論文 参考訳(メタデータ) (2026-05-18T15:15:24Z) - Consistent Diffusion Language Models [22.253153649144476]
拡散言語モデル (DLMs) は、サブタイム、並列生成を約束するが、実用的ゲインは未解決のままである。
連続領域では、確率フローODEに沿った一貫性のトレーニングが拡散を加速する一般的なレシピである。
我々は,これらの橋を横断するパスイン予測をデノイザに訓練する新しい原理である,マルチパス離散整合性(DCMP)を導入する。
1つのCDLMの目的は、マスク拡散、連続一貫性モデル、進行/離散蒸留を1つの共通の見解の分析的限界または経験的近似として統一することである。
論文 参考訳(メタデータ) (2026-04-30T19:31:02Z) - IDLM: Inverse-distilled Diffusion Language Models [70.5793829229702]
Inverse Distillation(逆蒸留)は、もともと連続拡散モデルを加速するために開発された技法で、離散的な設定に拡張する。
理論的観点からは、逆蒸留の目的には一意性保証が欠如しており、これは準最適解に繋がる可能性がある。
Inverse-distilled Diffusion Language Models (IDLM) は推論ステップ数を4x-64x削減する。
論文 参考訳(メタデータ) (2026-02-22T06:47:04Z) - An Effective Deployment of Diffusion LM for Data Augmentation in Low-Resource Sentiment Classification [2.0930389307057427]
感性分類(SC)は、ドメイン固有のコンテキスト、不均衡なラベル分布、少数ショットシナリオなど、低リソースの課題に悩まされることが多い。
我々はDiffusion LMを提案し、強力なラベル関連トークンを再構成することでドメイン内の知識を捕捉し、擬似サンプルを生成する。
論文 参考訳(メタデータ) (2024-09-05T02:51:28Z) - Denoising Diffusion Variational Inference: Diffusion Models as Expressive Variational Posteriors [11.01598521921903]
DDVIは潜在変数モデルのためのブラックボックス変分推論アルゴリズムである。
拡散に基づく変動後肢の表現型クラスを導入する。
我々はこれらの後部を、新しい規則化された証拠を低い境界で訓練する。
論文 参考訳(メタデータ) (2024-01-05T10:27:44Z) - On Error Propagation of Diffusion Models [77.91480554418048]
DMのアーキテクチャにおける誤り伝播を数学的に定式化するための理論的枠組みを開発する。
累積誤差を正規化項として適用して誤差伝搬を低減する。
提案した正規化はエラーの伝播を低減し,バニラDMを大幅に改善し,以前のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-08-09T15:31:17Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DensePure: Understanding Diffusion Models towards Adversarial Robustness [110.84015494617528]
拡散モデルの特性を解析し,それらが証明された堅牢性を高める条件を確立する。
事前訓練されたモデル(すなわち分類器)の信頼性向上を目的とした新しいDensePure法を提案する。
このロバストな領域は多重凸集合の和であり、以前の研究で特定されたロバストな領域よりもはるかに大きい可能性が示されている。
論文 参考訳(メタデータ) (2022-11-01T08:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。