論文の概要: How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
- arxiv url: http://arxiv.org/abs/2606.07334v2
- Date: Thu, 11 Jun 2026 10:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.486829
- Title: How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
- Title(参考訳): 弦-弦-弦-弦-弦-弦-弦-弦のモデリングにおいて, 弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-
- Authors: Jinju Lee,
- Abstract要約: 本報告は、ジャンル局所調和モデルのための解釈可能な、制御可能な時系列としてコード記号列を扱う。
主な評価は、LoRA、IA3、BitFit、プレフィックスチューニング、11のジャンルと3つのシードの完全な微調整、完全な165セルグリッドである。
コード記号適応は、ジャンルの局所的な調和予測を確実に改善するが、コード記号だけでは完全なジャンルの同一性は持たない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report treats chord-symbol sequences as an interpretable, controllable time series for genre-local harmonic modeling. The frozen Music Transformer base - released as a pop-jazz fine-tune endpoint but verified in this revision weight-identical to the pop-only Phase-0 baseline, so all gains are measured over a pure-pop prior (see Changes in v2) - is extended to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction (macro gains +2.89 to +3.61 percentage points); LoRA and IA3 score highest, but pairwise Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: at a common corpus size IA3 stays on top while LoRA drops to last, so the small method gaps are partly data-driven rather than representational. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting the adaptation effect is largely lightweight conditioning over a reusable harmonic base rather than genre-specific adapter memory. Further diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation that v2 reinterprets as a same-weights control, chord-only genre classification, output-distribution statistics, real-song evaluation, duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. Perceived genre authenticity and musical quality are left to controlled listener evaluation.
- Abstract(参考訳): 本報告は、ジャンル局所調和モデルのための解釈可能な、制御可能な時系列としてコード記号列を扱う。
フリーズ・ミュージック・トランスフォーマー・ベースはポップ・ジャズのファイン・トゥン・エンドポイントとしてリリースされたが、このリビジョンではポップ・オンリーのフェーズ0ベースラインと重み付けされているため、すべてのゲインは純粋にポップ・ミュージックの先行(v2の変化を参照)で測定され、ブルース、ボカ・ノヴァ、バッハ・コーラル、カントリー、エレクトロニック、フォーク、ファンク、ゴスペル、ヒップホップ、R&B/ソウル、ロックの11のジャンルに拡張される。
主な評価は、LoRA、IA3、BitFit、プレフィックスチューニング、11のジャンルと3つのシードの完全な微調整、完全な165セルグリッドだ。
ホールドアウトコード予測の凍結ベース(マクロゲイン+2.89から+3.61ポイント)では5つの手法が改良され、ロラとIA3のスコアが最も高いが、ホルムとベンジャミン・ホックバーグの補正によるウィルコクソンの試験は決定的な勝者を支持していない。
共通コーパスサイズでIA3はトップに留まり、LoRAは最後に落ちるので、小さなメソッドギャップは表現よりもデータ駆動である。
制御トーケンベースラインも強く、フリーズベースにしばしば悪質なアダプタが打ち勝つことがあり、この適応効果はジャンル固有のアダプタメモリではなく、再利用可能なハーモニックベースよりもはるかに軽量な条件付けであることが示唆されている。
さらなる診断(ランクスイープ、ミスジェネアローテーション、ベースチェックポイントアブレーション) v2 が同一の重み付け制御、コードのみのジャンル分類、出力分配統計、実声評価、重複解析)は、境界付き結論を支持する: コード記号適応はジャンル固有の調和予測を確実に改善するが、コード記号だけでは完全なジャンル識別は持たない。
聴取者評価の制御には,ジャンルの信頼性と音楽的品質が残る。
関連論文リスト
- FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts [0.0]
我々は、生録音をドラム、ギター、ベース、ボーカル、キーのための再生可能なクローンヒーローチャートに変換する、オーディオからチャートへのパイプラインSTRUMを提示する。
我々は,7つのドラム・ピペリン成分の完全アブレーションとペアリングしたウィルコクソン試験,コミュニティクローン・ヒーロー・チャートにおける地中時間分布の解析,およびドラムのクラスごとの混乱行列について報告する。
論文 参考訳(メタデータ) (2026-05-12T13:56:09Z) - Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。
まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文 参考訳(メタデータ) (2025-06-17T16:59:05Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。
この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。
そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:07:43Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - BacHMMachine: An Interpretable and Scalable Model for Algorithmic
Harmonization for Four-part Baroque Chorales [23.64897650817862]
BacHMMachineは、音楽作曲の原則によって導かれる「理論駆動」の枠組みを採用している。
与えられた旋律線から鍵変調と和音の進行を学習するための確率的フレームワークを提供する。
これにより計算負荷が大幅に減少し、解釈可能性も向上する。
論文 参考訳(メタデータ) (2021-09-15T23:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。