論文の概要: Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches
- arxiv url: http://arxiv.org/abs/2606.13626v1
- Date: Thu, 11 Jun 2026 17:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.958265
- Title: Generative Modeling of Bach-Style Symbolic Music: A Comparative Study of Autoregressive, Latent-Variable, and Adversarial Approaches
- Title(参考訳): Bach-Styleシンボリック・ミュージックの創成的モデリング:自己回帰的・潜在的・敵対的アプローチの比較研究
- Authors: Kyuil Lee, Dezhi Yu, Yongkang Huang,
- Abstract要約: 共有MIDIコーパスと3つのモデルファミリを用いたバッハ様式のシンボリックピアノ音楽の生成モデルについて検討した。
我々は、ポリフォニックな音素列をモデル化し、有用な潜在表現を学習し、スタイリスティックなコヒーレントな構成を生成する能力を比較する。
- 参考スコア(独自算出の注目度): 1.0493832170751467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study generative modeling of Bach-style symbolic piano music using a shared MIDI corpus and three model families: autoregressive LSTMs with attention, latent-variable models including recurrent VAEs and vector-quantized VAEs, and generative adversarial networks. We compare their ability to model polyphonic note sequences, learn useful latent representations, and generate stylistically coherent compositions. Our experiments show that the autoregressive LSTM with attention produces the most musically coherent samples, while vector quantization helps mitigate posterior collapse and yields more structured outputs than conventional recurrent VAEs. The adversarial approach captures local pitch patterns but remains difficult to train and generalizes less reliably to Bach's style. These results highlight the relative strengths and failure modes of autoregressive, latent-variable, and adversarial approaches for symbolic music generation.
- Abstract(参考訳): 共有MIDIコーパスと3つのモデルファミリーを用いて,Bachスタイルのシンボリックピアノ音楽の生成モデルについて検討した。
我々は、ポリフォニックな音素列をモデル化し、有用な潜在表現を学習し、スタイリスティックなコヒーレントな構成を生成する能力を比較する。
実験の結果,自己回帰型LSTMは最も音楽的にコヒーレントなサンプルを生成するのに対し,ベクトル量子化は後方崩壊を緩和し,従来のVAEよりも構造的な出力が得られることがわかった。
逆方向のアプローチは局所的なピッチパターンを捉えるが、Bachのスタイルに信頼性を欠く訓練や一般化は依然として困難である。
これらの結果は, 自己回帰的, 潜在変数的, 敵対的アプローチの相対的な強みと失敗モードを強調した。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model [6.085444830169205]
既存の音楽生成モデルは大部分が言語ベースであり、音符の周波数連続性を無視する。
本稿では,音符と意味情報の連成分布に適合し,記号的な音楽条件を生成する音楽ディフアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-04T07:38:38Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Emotion-Conditioned Melody Harmonization with Hierarchical Variational
Autoencoder [11.635877697635449]
LSTMに基づく階層的変分自動エンコーダ(LHVAE)を提案する。
LHVAEは、グローバル音楽とローカル音楽の特性をモデル化するために、潜伏変数と感情条件を異なるレベルで組み込んでいる。
目的実験の結果,提案モデルが他のLSTMモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-06T14:28:57Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。