論文の概要: Sumi: Open Uniform Diffusion Language Model from Scratch
- arxiv url: http://arxiv.org/abs/2606.19005v1
- Date: Wed, 17 Jun 2026 12:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.162565
- Title: Sumi: Open Uniform Diffusion Language Model from Scratch
- Title(参考訳): umi: Scratchからの一様拡散言語モデル
- Authors: Mengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki,
- Abstract要約: umiは、1.5Tトークンのスクラッチから事前訓練された、完全にオープンな7B均一拡散言語モデルである。
利用可能なコーパス上のデータ混在の完全な仕様を含む、モデルウェイト、チェックポイント、および完全なトレーニングレシピをリリースします。
- 参考スコア(独自算出の注目度): 13.559605580540293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become a promising alternative to autoregressive models. Among these, uniform diffusion language models (UDLMs) permit any token to be updated at any step, in principle enabling more flexible generation. However, no UDLM has yet been pretrained from scratch at both large parameter scale and large token budget. Both autoregressive modeling and masked diffusion modeling already have capable models at scale that the community can study and build on; uniform diffusion has none. A scratch-pretrained UDLM at scale would provide a clean reference point for studying scaling behavior, generation dynamics, controllability, and trade-offs against established autoregressive and masked diffusion models. To this end, we introduce Sumi ("ink" in Japanese), a fully open 7B uniform diffusion language model pretrained from scratch on 1.5T tokens. Sumi performs competitively with autoregressive models trained at comparable token budgets on knowledge, reasoning, and coding benchmarks, while under-performing on commonsense benchmarks, where our education-heavy data mixture is a likely contributor. We release our model weights, checkpoints, and full training recipe, including a complete specification of the data mixture over publicly available corpora. We hope this release enables the community to study native uniform diffusion at scale and catalyzes work on its as-yet poorly understood aspects.
- Abstract(参考訳): 拡散モデルは自己回帰モデルに代わる有望な選択肢となっている。
これらのうち、一様拡散言語モデル(UDLM)は任意のステップで任意のトークンを更新することができ、原則としてより柔軟な生成を可能にする。
しかし、UDLMは大きなパラメータスケールと大きなトークン予算の両方でゼロから事前訓練されていない。
自己回帰モデリングとマスク拡散モデリングはどちらも、コミュニティが研究し、構築できる規模の有能なモデルを持っている。
Scratch-pretrained UDLMは、既存の自己回帰的およびマスク付き拡散モデルに対するスケーリング行動、生成ダイナミクス、制御可能性、トレードオフを研究するためのきれいな基準点を提供する。
この目的のために,1.5Tトークン上でスクラッチから事前学習した、7B一様拡散言語モデルであるSumi(シンク)を紹介した。
umiは、知識、推論、コーディングベンチマークで同等のトークン予算でトレーニングされた自己回帰モデルと競合する一方で、私たちの教育と重大なデータ混在が寄与する可能性のあるCommonsenseベンチマークでは、パフォーマンスが低かった。
利用可能なコーパス上のデータ混在の完全な仕様を含む、モデルウェイト、チェックポイント、および完全なトレーニングレシピをリリースします。
このリリースにより、コミュニティは大規模にネイティブな均一な拡散を研究でき、理解の不十分な側面における作業の触媒になることを期待しています。
関連論文リスト
- Scaling Beyond Masked Diffusion Language Models [18.68471174706656]
本稿では、一様状態と補間離散拡散法の最初のスケーリング法則について述べる。
単純なクロスエントロピーで学習すると,Masked拡散モデルによりFLOPs効率が約12%向上することを示す。
論文 参考訳(メタデータ) (2026-02-16T18:54:47Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。