論文の概要: Improving Text-to-Music Generation with Human Preference Rewards
- arxiv url: http://arxiv.org/abs/2606.21670v1
- Date: Fri, 19 Jun 2026 18:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:06:40.413541
- Title: Improving Text-to-Music Generation with Human Preference Rewards
- Title(参考訳): 人選好リワードによるテキスト・音楽生成の改善
- Authors: Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Chris Donahue,
- Abstract要約: ICME 2026におけるAcademic Text-to-Music (ATTM) Grand Challengeの効率トラックへの参加について述べる。
オープンな音楽参照データセットに基づいてトレーニングされたツインペアローダであるTuneJuryから、学習したヒューマン参照報酬を追加します。
報酬はトレーニング時条件信号とサンプル選択基準の両方として機能する。
- 参考スコア(独自算出の注目度): 9.458042125925573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our entry to the efficiency track of the Academic Text-to-Music (ATTM) Grand Challenge at ICME 2026. Beyond the challenge protocol's FAD-CLAP and CLAP score, we add a learned human-preference reward from TuneJury, a twin pairwise ranker trained over open music-preference datasets. The reward serves both as a training-time conditioning signal and as a sample-selection criterion. The pipeline combines five engineering decisions on a 120M-parameter FluxAudio-S backbone, four at training time and one at inference: (i) training-time reward conditioning that doubles as an inference-time CFG axis, (ii) a sweep over five score-conditioning architectures, where training and inference use different variants, (iii) expert iteration on the top decile, (iv) a short preference-tuning pass (CRPO) for audio-text alignment, and (v) inference post-processing via joint CFG, source separation, and loudness normalization. Per-stage decomposition on 100 Song Describer prompts shows training-time reward conditioning as a functional conditioning axis, expert iteration as the dominant contributor, the preference-tuning pass adding only noise-level gain, and the inference-time score scalar already saturated by the end of the chain.
- Abstract(参考訳): ICME 2026におけるAcademic Text-to-Music (ATTM) Grand Challengeの効率トラックへの参加について述べる。
チャレンジプロトコルの FAD-CLAP と CLAP スコアの他に、オープンな音楽参照データセットに基づいてトレーニングされたツインペアローダであるTuneJury から、学習したヒューマン参照報酬を追加します。
報酬はトレーニング時条件信号とサンプル選択基準の両方として機能する。
パイプラインは、120MパラメータのFluxAudio-Sバックボーン上の5つのエンジニアリング決定と、トレーニング時に4つ、推論時に1つを組み合わせたものだ。
(i)推測時間CFG軸として2倍の訓練時間報酬条件
(ii)トレーニングと推論が異なるバリエーションを使用する5つのスコアコンディショニングアーキテクチャを網羅する。
(三)上位十進法に関する専門家の反復
(四)音声テキストアライメントのための短い嗜好調整パス(CRPO)及び
(v)ジョイントCFGによる推論後処理,ソース分離,ラウドネス正規化。
100のSong Describer上のステージ毎の分解では、機能的条件付け軸としてのトレーニング時報酬条件付け、主要なコントリビュータとしてのエキスパートイテレーション、ノイズレベルゲインのみを加算する優先調整パス、チェーンの終了までに既に飽和している推論時スコアスカラーが示される。
関連論文リスト
- TuneJury: An Open Metric for Improving Music Generation Preference Alignment [33.898713000368794]
TuneJuryはテキストから音楽への報酬モデルである。
テキストプロンプトとオーディオクリップから音楽の好みのスコアを予測する。
ホールドアウトテストペアとアウト・オブ・ディストリビューションベンチマークの両方に一般化する。
論文 参考訳(メタデータ) (2026-06-15T17:39:30Z) - Making the Most of Limited Data: Score-Aware Training for Text-to-Music Generation [1.0323063834827415]
最先端のテキストから音楽への生成システムは、膨大なプロプライエタリなデータセットと産業規模の計算に依存している。
本稿では、パイプライン全体を通して直接監視信号として、音声キャプチャアライメントスコアを扱うテキストスコア認識トレーニングを提案する。
論文 参考訳(メタデータ) (2026-06-05T15:24:36Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation [57.864929968616586]
Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
論文 参考訳(メタデータ) (2025-11-24T07:11:12Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。