論文の概要: Optical Music Recognition for Real-World Manuscripts with Synthetic Data
- arxiv url: http://arxiv.org/abs/2606.09479v1
- Date: Mon, 08 Jun 2026 13:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.095636
- Title: Optical Music Recognition for Real-World Manuscripts with Synthetic Data
- Title(参考訳): 合成データを用いた実世界の写本の光学的音楽認識
- Authors: Jiří Mayer, Martina Dvořáková, Vojtěch Dvořák, Markéta Herzánová Vlková, Filip Bím, Pavel Pecina, Samuel Šomorjai, Petr Žabička, Jan Hajič,
- Abstract要約: 複雑なピアノ表記を用いた実世界の写本のベースラインを提供する。
そこで本研究では, ドメイン内データの直接転写は依然として不可欠であるが, 合成楽譜画像を用いたドメイン適応により, 大幅な改善がもたらされたことを示す。
そこで我々は,光学音楽の認識を,音楽文化遺産の保存と促進という目標の1つに近づける。
- 参考スコア(独自算出の注目度): 1.3125176461810544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical Music Recognition (OMR) has seen major progress in model design, with end-to-end methods now capable of recognising notation at all levels of complexity. However, the impact of this progress has been limited by the visual domains of available training datasets, which are largely born-digital. Existing large collections of sheet music in libraries and other heritage institutions contain predominantly manuscripts, whose visual domains are highly diverse and different, so existing OMR systems fail when applied in the real world. These institutions are often resource-constrained, so large in-domain datasets cannot be expected. We provide a first baseline on real-world manuscripts with complex piano notation in the resource-constrained scenario. Using fine-grained music notation graph (MuNG) annotations and the Smashcima synthesis tool, we then show that while some direct transcriptions of in-domain data remain essential, domain adaptation using synthetic musical manuscript images brings significant improvement. Furthermore, the symbols used do not need to be in-domain, so the expensive fine-grained annotation can be avoided. We thus bring OMR closer to one of its stated goals: preserving and promoting musical cultural heritage.
- Abstract(参考訳): 光音楽認識(OMR)は、あらゆるレベルの複雑さで表記を認識できるエンドツーエンドの手法によって、モデル設計において大きな進歩を遂げている。
しかし、この進歩の影響は、利用可能なトレーニングデータセットの視覚領域によって制限されている。
図書館などの遺産機関に現存している楽譜集には、視覚領域が非常に多様で異なっており、既存のOMRシステムは現実世界に適用されると失敗する。
これらの機関はリソースに制約されることが多いため、大きなドメイン内のデータセットは期待できない。
資源制約のあるシナリオにおいて,複雑なピアノ表記を用いた実世界の写本のベースラインを提供する。
微粒な音楽表記グラフ(MuNG)アノテーションとSmashcima合成ツールを用いて、ドメイン内データの直接転写は依然として不可欠であるが、合成楽譜画像を用いたドメイン適応は大幅に改善されていることを示す。
さらに、使用するシンボルはドメイン内で必要とせず、高価な微粒なアノテーションを避けることができる。
そこで我々は,OMRを音楽文化遺産の保存・振興という目標の1つに近づける。
関連論文リスト
- FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - GAN-based Content-Conditioned Generation of Handwritten Musical Symbols [5.69735546372407]
本研究では,音楽記号レベル生成支援ネットワーク(GAN)を実装することで,手書きのリアルな楽譜の生成について検討する。
我々はこれらの生成したサンプルの視覚的忠実度を評価し、生成したシンボルは高いリアリズムを示すと結論づけた。
論文 参考訳(メタデータ) (2025-10-16T11:21:53Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - End-to-End Full-Page Optical Music Recognition for Pianoform Sheet Music [12.779526750915707]
複雑なレイアウトにおいて、ページレベルの光音楽認識のための、真にエンドツーエンドなアプローチを初めて提示する。
本システムでは,畳み込み層と自己回帰変換器を組み合わせることで,楽譜ページ全体を処理し,完全書き起こしを符号化形式で出力する。
その結果,本システムは,全ページの楽譜の書き起こしに成功しただけでなく,ゼロショット設定とターゲットドメインとの微調整の両面において,商業ツールよりも優れていた。
論文 参考訳(メタデータ) (2024-05-20T15:21:48Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。