論文の概要: PianoKontext: Expressive Performance Rendering from Deadpan Context
- arxiv url: http://arxiv.org/abs/2606.12282v1
- Date: Wed, 10 Jun 2026 16:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.558342
- Title: PianoKontext: Expressive Performance Rendering from Deadpan Context
- Title(参考訳): PianoKontext:Deadpanコンテキストからの表現力のあるパフォーマンスレンダリング
- Authors: Dmitrii Gavrilev,
- Abstract要約: PianoKontextは、クラシックピアノ音楽のフローマッチングレンダリングモデルである。
事前訓練されたMusic2Latentモデルの潜在空間で可変長のパフォーマンスを生成する。
- 参考スコア(独自算出の注目度): 0.009905207929946798
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Expressive performance rendering (EPR) aims to generate realistic performances constrained on sequences of notes. However, flow matching audio editing models manipulate only synchronized music samples of the same duration, limiting their understanding of expressive timing. We introduce PianoKontext, a flow matching rendering model for classical piano music that generates variable-length performances in the latent space of a pretrained Music2Latent model. We synthesize MIDI scores into deadpan audio and employ Dynamic Time Warping (DTW) in the latent space to construct paired data for training. The aligned embeddings are concatenated in DiT blocks, allowing for a simple and effective learning of the dependencies between the score and performances. Audio samples are available at our demo page: https://realfolkcode.github.io/pianokontext_demo/.
- Abstract(参考訳): 表現的パフォーマンスレンダリング(EPR)は、音符列に制約された現実的なパフォーマンスを生成することを目的としている。
しかし、フローマッチング音声編集モデルは、同じ期間の同期音楽サンプルのみを操作し、表現的タイミングの理解を制限する。
事前学習したMusic2Latentモデルの潜在空間における可変長演奏を生成する,クラシックピアノのためのフローマッチングレンダリングモデルであるPianoKontextを紹介する。
我々はMIDIスコアをデッドパンオーディオに合成し、遅延空間に動的時間ウォーピング(DTW)を用いてトレーニング用ペアデータを構築する。
整列した埋め込みはDiTブロックに連結され、スコアとパフォーマンスの間の依存関係をシンプルかつ効果的に学習することができる。
オーディオサンプルはデモページで公開されている。
関連論文リスト
- FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - Rubato: Transcribing Piano Music with Timestamps [47.76733897717644]
タイムスタンプを付加した人間可読シート音楽への音楽録音の変換について検討する。
本稿では,(1)ポリフォニック音楽の新しいテキスト表現であるInterMoの出力を訓練した,Rubatoというプロンプト条件付きエンコーダデコーダモデルを紹介する。
実験により, ルバトは, 音符の精度を最良なアプローチよりも高め, タイムスタンプ付きピアノ楽譜を音声から生成できることが実証された。
論文 参考訳(メタデータ) (2026-05-22T23:47:21Z) - Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training [26.885642751756695]
Pianist Transformerは、音楽構造と表現の共通原則を明示的なアノテーションなしで学習するための、MIDI(Musical Instrument Digital Interface)データ表現である。
強力な客観的指標と人間レベルの主観的評価を達成する。
全体として、Pianist Transformerは、音楽領域における人間のようなパフォーマンス合成へのスケーラブルな道を確立している。
論文 参考訳(メタデータ) (2025-12-02T11:13:29Z) - InstructAudio: Unified speech and music generation with natural language instruction [52.76518112649456]
InstructAudioは、音響属性の命令ベースの制御を可能にする統一的なフレームワークである。
英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
論文 参考訳(メタデータ) (2025-11-23T15:15:21Z) - SyMuPe: Affective and Controllable Symbolic Music Performance [0.00746020873338928]
我々は、感情的かつ制御可能なピアノ演奏モデルの開発と訓練のための新しいフレームワークであるSyMuPeを提案する。
当社のフラッグシップモデルであるPanoFlowでは,さまざまなマルチマスクパフォーマンス向上タスクを解決するために,条件付きフローマッチングをトレーニングしています。
感情制御では,異なるテキスト条件下で生成されたサンプルを提示・分析する。
論文 参考訳(メタデータ) (2025-11-05T12:42:08Z) - PianoVAM: A Multimodal Piano Performance Dataset [56.318475235705954]
PianoVAMは、ビデオ、オーディオ、MIDI、手のランドマーク、指のラベル、リッチメタデータを含む包括的なピアノパフォーマンスデータセットである。
データセットはディクラヴィエピアノを使用して録音され、アマチュアピアニストの日々の練習セッション中にオーディオとMIDIをキャプチャした。
事前訓練されたポーズ推定モデルと半自動指先アノテーションアルゴリズムを用いて,手指のランドマークと指先ラベルを抽出した。
論文 参考訳(メタデータ) (2025-09-10T17:35:58Z) - MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling [32.78044321881271]
音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。
VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。
評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-11T12:28:20Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。