論文の概要: Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation
- arxiv url: http://arxiv.org/abs/2606.07015v1
- Date: Fri, 05 Jun 2026 07:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.629608
- Title: Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation
- Title(参考訳): 伴奏同時生成による統一歌曲生成と歌唱音声変換に向けて
- Authors: Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie,
- Abstract要約: UniSingerは、スピーカーのクローン曲生成と伴奏コージェネレーションを統一するエンドツーエンドフレームワークである。
マルチモーダル拡散変換器をベースとして,SVCから楽曲生成への話者表現を統一した話者埋め込み空間転送を構築する。
実験では、両方のタスクで最先端のパフォーマンスを示し、相補的な利点を実現する。
- 参考スコア(独自算出の注目度): 27.279397811724383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While song generation and singing voice conversion (SVC) have evolved significantly, they have long been developed isolated: the former lacks zero-shot speaker cloning, while the latter overlooks vocal-accompaniment synergy. To bridge this gap, we propose UniSinger, the first end-to-end framework unifying speaker cloning song generation and accompaniment co-generation SVC. Building on the multimodal diffusion transformer, we construct a unified speaker embedding space transferring speaker representation from SVC to song generation, endowing fine-grained cross-task timbre control. To mitigate multi-task optimization conflicts, we design a curriculum learning strategy using task-specific modality masking to guide the model to gradually master the generative mechanisms among semantic content, vocal timbre, and accompaniment. Experiments show state-of-the-art performance on both tasks and realizes complementary benefits, offering new possibilities for intelligent music production.
- Abstract(参考訳): 歌声生成と歌唱音声変換(SVC)は著しく発展してきたが、それらは長い間孤立しており、前者はゼロショット話者のクローンが欠如しており、後者は声伴奏のシナジーを見落としている。
このギャップを埋めるために、最初のエンドツーエンドフレームワークであるUniSingerを提案する。
マルチモーダル拡散変換器をベースとして,SVCから楽曲生成への話者表現を統一した話者埋め込み空間を構築,微粒なクロスタスク音色制御を実現する。
マルチタスク最適化の対立を軽減するために,タスク固有のモダリティマスキングを用いたカリキュラム学習戦略を設計し,セマンティックコンテンツ,音声の音色,伴奏間の生成メカニズムを徐々にマスターする。
実験では、両方のタスクにおける最先端のパフォーマンスを示し、補完的な利点を実現し、インテリジェントな音楽制作の新しい可能性を提供する。
関連論文リスト
- Tutti: Expressive Multi-Singer Synthesis via Structure-Level Timbre Control and Vocal Texture Modeling [22.71920096272071]
Tuttiは構造化マルチシンガー生成用に設計された統一フレームワークである。
本研究では,音楽構造で進化するフレキシブルシンガースケジューリングを実現するための構造対応シンガープレットを提案する。
また,暗黙の音響的テクスチャを捉えるために,条件誘導型VAEによる補完的テクスチャ学習を提案する。
論文 参考訳(メタデータ) (2026-02-09T03:15:44Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - GenVC: Self-Supervised Zero-Shot Voice Conversion [31.94758615908198]
GenVCは、音声信号から話者のアイデンティティと言語コンテンツを自己管理的に切り離す新しいフレームワークである。
結果,GenVCの話者類似度は,ゼロショットアプローチと同等の自然度で顕著に向上した。
論文 参考訳(メタデータ) (2025-02-06T21:40:09Z) - Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Robust One-Shot Singing Voice Conversion [28.707278256253385]
高品質な歌唱音声変換(SVC)は, ピッチ, ラウドネス, 発音の多様さから, いまだに困難である。
歪んだ歌声でも頑健な一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一発一
実験の結果,提案手法は,見知らぬ歌手と見知らぬ歌手の両方に対して,最先端のワンショットSVCベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-20T08:47:35Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。