論文の概要: Beyond Artifacts: Towards Generalizable Synthetic Song Detection via Music-Intrinsic Features
- arxiv url: http://arxiv.org/abs/2606.16612v1
- Date: Mon, 15 Jun 2026 12:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.504122
- Title: Beyond Artifacts: Towards Generalizable Synthetic Song Detection via Music-Intrinsic Features
- Title(参考訳): 人工物を超えて:音楽固有の特徴による一般化可能な合成歌検出を目指して
- Authors: Yan Han, Zhibin Wen, Yuan Wang, Shuangrun Shao, Xiaobing Li, Yang Xu, Wei Li,
- Abstract要約: 本稿では,音楽固有の属性を特徴特化の専門家と適応型Mixture-of-Experts(MoE)モジュールでモデル化するフレキシブルなフレームワークを提案する。
実験の結果、ソフィアは音楽固有の特徴からジェネレータに依存しない表現を学び、F1のスコアを最強のベースラインで18.5ポイント改善した。
- 参考スコア(独自算出の注目度): 10.350758083987605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI music generators highlights the urgent need for reliable Synthetic Song Detection (SSD). Existing SSD methods often rely on low-level artifacts or fixed feature assumptions, struggling to capture generator-agnostic cues. To address this, we propose Sofia (Synthetic-song detection framework via music features), a flexible framework that models music-intrinsic attributes via feature-specific experts and an adaptive Mixture-of-Experts (MoE) module. By configuring Sofia with representative Vocal, Audio-effect, Global structure features, and their combinations, we present their individual and complementary contributions. To comprehensively evaluate our framework, we further construct MUSIC8K, a challenging benchmark featuring lastest emerging generators and realistic audio perturbations. Experiments show that Sofia learns generator-agnostic representations from music-intrinsic features, improving the F1 score by 18.5 points over the strongest baseline on MUSIC8K-O while maintaining strong robustness.
- Abstract(参考訳): AI音楽ジェネレータの急速な進歩は、信頼できるシンセティックソング検出(SSD)の緊急の必要性を強調している。
既存のSSDメソッドは、しばしば低レベルのアーティファクトや固定された機能仮定に依存し、ジェネレータに依存しないキューをキャプチャするのに苦労する。
そこで本研究では,音楽に固有の属性を特徴を持つ専門家によってモデル化するフレキシブルなフレームワークであるSofia (Synthetic-song detection framework via music features) と,適応型Mixture-of-Experts (MoE) モジュールを提案する。
ソフィアを代表的なVocal、オーディオ効果、グローバル構造の特徴、それらの組み合わせで構成することにより、それぞれの個人的および補完的な貢献を提示する。
我々のフレームワークを包括的に評価するために、最も新しい世代と現実的なオーディオ摂動を特徴とする挑戦的なベンチマークであるMUSIC8Kを構築した。
実験の結果、ソフィアは音楽固有の特徴からジェネレータに依存しない表現を学び、強い強靭性を維持しつつ、MUSIC8K-O上で最強のベースラインでF1スコアを18.5ポイント改善した。
関連論文リスト
- FIGMA: Towards FIne-Grained Music retrievAl [65.98380295254817]
自然言語記述による音楽の検索はCLAPのような対照的な音声テキストモデルで改善されているが、現在のシステムはいまだに大まかなセマンティッククエリに限られている。
この制限は、長いキャプションで訓練されているにもかかわらず、CLAPベースのモデルは、最初の数個のトークンのみを効果的に活用する。
本研究では,グローバルな音声テキストアライメントとフレームレベルのトークンアライメントを共同で最適化することで,この制限に対処するマルチビューコントラストアーキテクチャであるFIGMAを提案する。
論文 参考訳(メタデータ) (2026-06-04T18:05:39Z) - Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection [1.7034813545878587]
我々は、Fusion Segment Transformerと呼ばれるSegment Transformerの改良版を提案する。
これまでの研究と同様に、多様な特徴抽出器を用いて短い音楽セグメントからコンテンツ埋め込みを抽出する。
我々は、Gated Fusion Layerを導入して、AI生成音楽のフルオーディオ検出のためのアーキテクチャを強化する。
論文 参考訳(メタデータ) (2026-01-20T06:31:05Z) - Segment Transformer: AI-Generated Music Detection via Music Structural Analysis [1.7034813545878587]
我々は,音楽セグメントの構造パターンを分析し,AIGM検出の精度を向上させることを目的とする。
具体的には、短い音声クリップから音楽的特徴を抽出するために、様々な事前学習モデルを統合する。
ロングオーディオのために,楽曲をセグメントに分割し,セグメント間関係を学習するセグメント変換器を開発した。
論文 参考訳(メタデータ) (2025-09-10T04:56:40Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - Evaluating Fake Music Detection Performance Under Audio Augmentations [0.0]
複数のシステムを用いて生成した実・合成音楽の双方からなるデータセットを構築した。
次に、様々なオーディオ変換を適用し、それらが分類精度にどのように影響するかを分析する。
我々は,近年の最先端音楽ディープフェイク検出モデルの性能を,音声拡張の有無で検証する。
論文 参考訳(メタデータ) (2025-07-07T16:15:02Z) - Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。
FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。
このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文 参考訳(メタデータ) (2024-10-11T00:41:46Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。