論文の概要: Making the Most of Limited Data: Score-Aware Training for Text-to-Music Generation
- arxiv url: http://arxiv.org/abs/2606.07387v1
- Date: Fri, 05 Jun 2026 15:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.825425
- Title: Making the Most of Limited Data: Score-Aware Training for Text-to-Music Generation
- Title(参考訳): 限られたデータを最大限活用する:テキスト・ツー・ミュージック・ジェネレーションのためのスコア・アウェア・トレーニング
- Authors: Yun-Chen Cheng, Tzu-Hung Huang, Chih-Pin Tan,
- Abstract要約: 最先端のテキストから音楽への生成システムは、膨大なプロプライエタリなデータセットと産業規模の計算に依存している。
本稿では、パイプライン全体を通して直接監視信号として、音声キャプチャアライメントスコアを扱うテキストスコア認識トレーニングを提案する。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-music generation systems rely on massive proprietary datasets and industrial-scale compute, making it impossible to disentangle architectural contributions from resource advantages. We propose \textit{score-aware training}, which treats audio-caption alignment score as a direct supervision signal throughout the pipeline. Rather than discarding low-scoring segments, we repurpose them via a CLAP-conditioned Beta noise timestep schedule that routes them to high-noise training regimes, acting as an effective implicit regularizer. Complementarily, segment-level filtering removes the most misaligned examples, and a two-stage caption procedure bridges the distribution gap between verbose training captions and concise inference prompts. A REPA auxiliary loss further transfers structured semantic knowledge from pretrained CLAP and MuQ encoders without additional data. Our 450M-parameter FluxAudio-based system, submitted to the ICME 2026 ATTM Grand Challenge Efficiency Track, ranked 2nd across both tracks in the objective evaluation and 3rd in the Efficiency Track in the final MOS evaluation.
- Abstract(参考訳): 最先端のテキストから音楽への生成システムは、膨大なプロプライエタリなデータセットと産業規模の計算に依存しているため、アーキテクチャ上の貢献をリソースの利点から切り離すことは不可能である。
本稿では,パイプライン全体を通して直接監視信号として,音声キャプションアライメントスコアを扱う「textit{score-aware training」を提案する。
低スコアセグメントを捨てるのではなく、CLAP条件のベータノイズタイムステップスケジュールで再利用し、高ノイズトレーニング体制にルーティングし、効果的な暗黙正則化として機能する。
補足的に、セグメントレベルのフィルタリングは最も間違った例を取り除き、2段階のキャプションプロシージャは、冗長なトレーニングキャプションと簡潔な推論プロンプトの間の分配ギャップを橋渡しする。
REPA補助損失は、事前訓練されたCLAPとMuQエンコーダから追加データなしで構造化された意味知識を転送する。
ICME 2026 ATTM グランドチャレンジ・エミッション・エデュケーション・トラックに提案した 450M パラメーター FluxAudio ベースシステムでは, 最終MOS 評価では, 両トラックで2位, 効率・トラックで3位にランクインした。
関連論文リスト
- AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following [17.52339026461815]
本稿では,複雑な音声キャプションを可変個の独立した検証可能なバイナリルーブリックアイテムに適応的に分解する動的ルーブリック評価パラダイムを提案する。
我々はこの能力をAnyAudio-Judge Benchでベンチマークする。
実験により、AnyAudio-Judgeは、最先端のベースラインに比べて、ゼロショットアライメントの検出を著しく向上する。
論文 参考訳(メタデータ) (2026-06-02T04:00:32Z) - Robust Self-Training with Closed-loop Label Correction for Learning from Noisy Labels [29.68163073890278]
ノイズの多いラベルでディープニューラルネットワークをトレーニングすることは、依然として大きな課題である。
分離二段階最適化を用いた自己学習ラベル補正フレームワークを提案する。
提案手法は, 地中構造を伝達するために, ノイズのある後部シミュレーションと中間特徴を用いる。
論文 参考訳(メタデータ) (2026-03-14T11:10:17Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units [8.86336076082867]
本研究では,E2E KWS システムを非転写データで事前学習する手法を提案する。
このようなモデルの微調整は、スクラッチからトレーニングしたモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-05T17:07:58Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Capturing scattered discriminative information using a deep architecture
in acoustic scene classification [49.86640645460706]
本研究では,識別情報を捕捉し,同時に過度に適合する問題を緩和する様々な手法について検討する。
我々は、ディープニューラルネットワークにおける従来の非線形アクティベーションを置き換えるために、Max Feature Map法を採用する。
2つのデータ拡張方法と2つの深いアーキテクチャモジュールは、システムの過度な適合を減らし、差別的なパワーを維持するためにさらに検討されている。
論文 参考訳(メタデータ) (2020-07-09T08:32:06Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。