論文の概要: Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development
- arxiv url: http://arxiv.org/abs/2606.07207v1
- Date: Fri, 05 Jun 2026 12:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.730008
- Title: Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development
- Title(参考訳): 構造的前提としてのエントロピー--音楽の多様性と発展をいかに駆動するか
- Authors: Zixi Li, Youzhen Li,
- Abstract要約: 信頼に基づく損失重み付けは、モデルが確実に間違っている場合にエラーを加速するため、生成モデルでは避けられる。
本稿では,DiT出力の空間エネルギー分布のエントロピーから導出されるパラメータフリーウェイトであるEisbach log-barrierを紹介する。
予想外の理論的発達、明瞭な音響的分化、および非重み付けトレーニングよりも高いテクスチャ的多様性をもたらす。
- 参考スコア(独自算出の注目度): 0.13750624267664155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confidence-based loss weighting is usually avoided in generative models because it accelerates errors when the model is confidently wrong, but this intuition breaks down in supervised diffusion training. We introduce the Eisbach log-barrier, a parameter-free weight derived from the entropy of the DiT output's spatial energy distribution: high entropy damps the gradient, while low entropy preserves it. Applied to LoRA fine-tuning of Stable Audio 3 Medium on MusicCaps, it unexpectedly yields stronger thematic development, clearer acoustic differentiation, and higher textural diversity than unweighted training, the opposite of mode collapse. This works because in supervised diffusion the gradient direction is locked to ground truth, so confidence only scales the step size, and because temporal entropy downweights flat samples while preserving high-contrast ones. The result is an online, self-referential data curriculum that emerges purely from the forward pass, with analyzed noise-level dynamics and testable predictions.
- Abstract(参考訳): 信頼に基づく損失重み付けは通常、モデルが確実に間違っている場合にエラーを加速するため、生成モデルでは避けられるが、この直観は教師付き拡散訓練において崩壊する。
本研究では,DiT出力の空間エネルギー分布のエントロピーから導出されるパラメータフリーウェイトであるEisbach log-barrierを導入し,高エントロピーは勾配を減衰させ,低エントロピーはそれを保存する。
LoRAのStable Audio 3 Medium on MusicCaps(英語版)の微調整に応用すると、予期しないことに、非重み付けトレーニングよりも、より強力な主題的発達、より明瞭な音響的分化、および高いテクスチュラル多様性をもたらす。
これは、教師付き拡散において勾配方向が接地真理にロックされているため、信頼度はステップサイズのみをスケールし、高コントラストを保ちながら時間エントロピーダウンウェイトが平らなサンプルを平らにするためである。
その結果、オンラインの自己参照型データカリキュラムが、フォワードパスから純粋に出現し、分析されたノイズレベルダイナミクスとテスト可能な予測を備える。
関連論文リスト
- Why SGD is not Brownian Motion: A New Perspective on Stochastic Dynamics [92.39053980710702]
グラディエント・Descent (SGD) は通常ランゲヴィン過程としてモデル化され、ミニバッチノイズがブラウン運動として働くと仮定される。
この近似は、連続時間制限と、離散的なSGD更新を有限学習率で一致しないsqrt(eta)ノイズスケーリングに依存している。
ミニバッチサンプリングによって誘導されるゆらぎのある損失景観における決定論的力学としてのSGDの別の定式化を提案する。
論文 参考訳(メタデータ) (2026-05-21T15:50:40Z) - Beyond Temperature: Hyperfitting as a Late-Stage Geometric Expansion [1.7770888723114693]
極細調整LDMをほぼゼロのトレーニング損失にすることで、オープンな生成品質が向上し、グリーディ復号における繰り返しが軽減されることを示す。
最終5層のみを更新し,パラメータの更新を最小限に抑えた堅牢な生成を実現する,目標とする微調整戦略であるLatlas-Stage LoRAを紹介した。
論文 参考訳(メタデータ) (2026-05-21T14:52:48Z) - Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine [60.669081685261965]
拡散モデルは、顕著な品質で高次元データを生成する。
彼らのトレーニングがいかに効率的にスコア関数を学習するかは理論的には説明がつかないままである。
我々はこの原理をScore-induced Latent Diffusion (SiLD)として定式化する。
論文 参考訳(メタデータ) (2026-05-16T16:51:10Z) - Stochastic Gradient Descent in the Saddle-to-Saddle Regime of Deep Linear Networks [74.46751089984072]
深い線形ネットワークにおける勾配降下(SGD)ノイズの理解は不十分である。
本研究では,サドル・アンド・サドル体制におけるDLNの訓練におけるSGDの動態について検討した。
以上の結果から,SGDノイズは特徴学習の進行に関する情報を符号化するが,サドル・アンド・サドル・ダイナミクスを根本的に変えるものではないことが判明した。
論文 参考訳(メタデータ) (2026-04-07T18:43:08Z) - EDIS: Diagnosing LLM Reasoning via Entropy Dynamics [3.858418431840288]
生成過程における信頼の時空間的進化は,集計統計単独よりも豊かな情報をもたらすことを示す。
本稿では,エントロピー進化における不安定性を定量化するための軌道レベルの指標であるエントロピーダイナミクス不安定スコア(textbfEDIS)を紹介する。
論文 参考訳(メタデータ) (2026-02-01T15:43:50Z) - Entropy-Reservoir Bregman Projection: An Information-Geometric Unification of Model Collapse [3.533187668612022]
本稿では,これらの現象を統一する情報幾何学的枠組みであるEntropyReser Bregman Projection- ERBPを提案する。
我々の理論は崩壊に必要な条件、(ii)非言語エントロピーフロアを保証する十分な条件、(iii)サンプルサイズに依存する閉形式率をもたらす。
論文 参考訳(メタデータ) (2025-12-16T19:50:03Z) - Diffusion Models are Molecular Dynamics Simulators [0.0]
バッチ次元に逐次バイアスを付与したデノナイズ拡散サンプリング器が,ランゲヴィン力学を過度に破壊するオイラー・丸山積分器であることを証明した。
各逆消音ステップは、その関連するばね剛性を伴って、ノイズスケジュールとその剛性とで協調して設定された有効時間ステップを有する微分方程式の一段階と解釈することができる。
学習したスコアは、学習したエネルギーの勾配の役割を担い、拡散サンプリングとランゲヴィン時間進化の正確な対応を与える。
論文 参考訳(メタデータ) (2025-11-21T19:48:32Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。