論文の概要: How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
- arxiv url: http://arxiv.org/abs/2606.07334v1
- Date: Fri, 05 Jun 2026 14:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.791868
- Title: How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling
- Title(参考訳): 弦-弦-弦-弦-弦-弦-弦-弦のモデリングにおいて, 弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-弦-
- Authors: Jinju Lee,
- Abstract要約: 本報告では、弦記号列を音楽の完全表現ではなく、ジャンル局所調和モデルのための制御可能な時系列として扱う。
主な評価は、LoRA、IA3、BitFit、プレフィックスチューニング、11のジャンルと3つのシードの完全な微調整、完全な165セルグリッドである。
コード記号適応は、ジャンルの局所的な調和予測を確実に改善するが、コード記号だけでは完全なジャンルの同一性は持たない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harmony is a compact symbolic layer where mathematical pitch relations, acoustic consonance, and musical convention meet. This report treats chord-symbol sequences not as a complete representation of music, but as an interpretable, controllable time series for genre-local harmonic modeling. Starting from a frozen pop-jazz Music Transformer checkpoint, I evaluate how far small adaptation interfaces can extend the model to eleven target genres: blues, bossa nova, Bach chorales, country, electronic, folk, funk, gospel, hip-hop, R&B/soul, and rock. The main evaluation compares LoRA, IA3, BitFit, prefix tuning, and full fine-tuning over 11 genres and 3 seeds, a complete 165-cell grid. All five methods improve over the frozen base on held-out chord prediction, with macro gains from +2.89 to +3.61 points; LoRA and IA3 score highest, but Wilcoxon tests with Holm and Benjamini-Hochberg correction do not support a decisive winner. A matched-data-size control sharpens this: when genres are sub-sampled to a common corpus size, IA3 stays on top but LoRA's full-data edge disappears and it falls to last, indicating the small gaps are partly data-driven. A control-token baseline is also strong, and wrong-genre adapters often beat the frozen base, suggesting much of the effect comes from lightweight conditioning over a reusable harmonic base rather than one particular adapter family. Additional diagnostics (rank sweeps, wrong-genre rotation, a base-checkpoint ablation, chord-only genre classification, generated-output statistics, real-song evaluation, and duplicate analysis) support a bounded conclusion: chord-symbol adaptation reliably improves genre-local harmonic prediction, but chord symbols alone do not carry complete genre identity. The report therefore avoids claims about perceived genre authenticity or full musical quality, which require controlled listener or musician evaluation.
- Abstract(参考訳): ハーモニー(Harmony)は、数学的なピッチ関係、音響共鳴、音楽コンベンションが交わるコンパクトな記号層である。
本報告では、弦記号列を音楽の完全表現ではなく、ジャンル局所調和モデリングのための解釈可能な、制御可能な時系列として扱う。
フリーズされたポップ・ジャズ・ミュージック・トランスフォーマー・チェックポイントから、小さなアダプティブ・インタフェースが、ブルース、ボカ・ノヴァ、バッハ・コーラル、カントリー、エレクトロニック、フォーク、ゴスペル、ヒップホップ、R&B/ソウル、ロックの11のジャンルにモデルを拡張できるかを評価する。
主な評価は、LoRA、IA3、BitFit、プレフィックスチューニング、11のジャンルと3つのシードの完全な微調整、完全な165セルグリッドだ。
5つの手法はすべて、保持されたコード予測の凍結ベースよりも改善され、マクロゲインは+2.89から+3.61ポイントとなり、ロラとIA3のスコアが最も高いが、ホルムとベンジャミン・ホックバーグの補正によるウィルコクソンのテストは決定的な勝者を支持していない。
ジャンルが共通のコーパスサイズにサブサンプリングされた場合、IA3はトップに留まるが、LoRAのフルデータエッジは消え、最後に落ちるため、小さなギャップが部分的にデータ駆動であることを示している。
コントロール・トーケンのベースラインも強力で、間違ったジャンルのアダプタが凍ったベースにしばしば打ち勝つことがあり、その影響の大部分は、特定のアダプタファミリーではなく、再利用可能なハーモニックベースに対する軽量な条件付けによるものであることを示唆している。
追加の診断(ランクスイープ、間違ったジャンルの回転、ベースチェックポイント・アブレーション、コードのみのジャンル分類、生成出力統計、実声評価、重複分析)は、境界づけられた結論を支持する: コード記号適応はジャンル局所の調和予測を確実に改善するが、コード記号だけでは完全なジャンル識別は持たない。
したがって、このレポートは、ジャンルの正当性や完全な音楽的品質に対する主張を回避し、リスナーやミュージシャンの評価を制御する必要がある。
関連論文リスト
- FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - STRUM: A Spectral Transcription and Rhythm Understanding Model for End-to-End Generation of Playable Rhythm-Game Charts [0.0]
我々は、生録音をドラム、ギター、ベース、ボーカル、キーのための再生可能なクローンヒーローチャートに変換する、オーディオからチャートへのパイプラインSTRUMを提示する。
我々は,7つのドラム・ピペリン成分の完全アブレーションとペアリングしたウィルコクソン試験,コミュニティクローン・ヒーロー・チャートにおける地中時間分布の解析,およびドラムのクラスごとの混乱行列について報告する。
論文 参考訳(メタデータ) (2026-05-12T13:56:09Z) - Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。
まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文 参考訳(メタデータ) (2025-06-17T16:59:05Z) - Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。
我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。
比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文 参考訳(メタデータ) (2024-09-17T14:44:49Z) - An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。
この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。
そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:07:43Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - BacHMMachine: An Interpretable and Scalable Model for Algorithmic
Harmonization for Four-part Baroque Chorales [23.64897650817862]
BacHMMachineは、音楽作曲の原則によって導かれる「理論駆動」の枠組みを採用している。
与えられた旋律線から鍵変調と和音の進行を学習するための確率的フレームワークを提供する。
これにより計算負荷が大幅に減少し、解釈可能性も向上する。
論文 参考訳(メタデータ) (2021-09-15T23:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。