論文の概要: TuneJury: An Open Metric for Improving Music Generation Preference Alignment
- arxiv url: http://arxiv.org/abs/2606.17006v1
- Date: Mon, 15 Jun 2026 17:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.114865
- Title: TuneJury: An Open Metric for Improving Music Generation Preference Alignment
- Title(参考訳): TuneJury: 音楽生成の優先度調整を改善するためのオープンメトリック
- Authors: Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue,
- Abstract要約: TuneJuryはテキストから音楽への報酬モデルである。
テキストプロンプトとオーディオクリップから音楽の好みのスコアを予測する。
ホールドアウトテストペアとアウト・オブ・ディストリビューションベンチマークの両方に一般化する。
- 参考スコア(独自算出の注目度): 33.898713000368794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TuneJury, an open, instance-level pairwise reward model for text-to-music that predicts a music preference score from a text prompt and an audio clip. The released checkpoint is trained on publicly available human-preference labels covering arena-style (A vs. B) votes, metric-alignment preference pairs, crowdsourced pairwise comparisons, and expert aesthetic ratings. The predicted score margin between two clips is well calibrated on our held-out test split, supporting data filtering via a simple score threshold. TuneJury generalizes to both held-out test pairs and out-of-distribution benchmarks, remaining competitive with prior baselines on the latter. For generators released after training, we introduce anchor calibration, a post-hoc, per-system Bradley-Terry calibration that recovers agreement at substantially better data efficiency than from-scratch retraining. The same frozen reward drives consistent reward-axis gains across three downstream applications: inference-time best-of-N selection, DITTO-style latent optimization, and expert-iteration post-training. TuneJury is available at https://github.com/yonghyunk1m/TuneJury.
- Abstract(参考訳): 我々は、テキストプロンプトとオーディオクリップから音楽の好みのスコアを予測する、オープンでインスタンスレベルのペアワイズ報酬モデルであるTuneJuryを紹介した。
リリースされたチェックポイントは、アリーナスタイル(A vs. B)の投票、メトリックアライメントの選好ペア、クラウドソースによるペアワイド比較、専門家の美的評価を含む、一般公開された人間の選好ラベルに基づいてトレーニングされている。
2つのクリップ間の予測スコアマージンは、保持されたテストスプリットで適切に調整され、単純なスコア閾値によるデータフィルタリングをサポートする。
TuneJuryは、ホールドアウトテストペアとアウト・オブ・ディストリビューションベンチマークの両方に一般化されており、後者の以前のベースラインと競合する。
トレーニング後に放出されるジェネレータに対しては,システム毎のアンカーキャリブレーション(アンカーキャリブレーション)を導入する。
同じフリーズ報酬は、3つのダウンストリームアプリケーション(推論時ベストオブN選択、DITTOスタイルの潜伏最適化、エキスパートイテレーションポストトレーニング)で一貫した報酬軸ゲインを駆動する。
TuneJuryはhttps://github.com/yonghyunk1m/TuneJuryで入手できる。
関連論文リスト
- Beyond Pairwise Preferences: Listwise Reward-Aware Alignment for Diffusion Models [73.08789211016567]
Diffusion LAIRは、拡散モデルに対する報酬を考慮したリストワイズ選好最適化手法である。
実験により、テキスト・ツー・イメージ生成、合成生成、画像編集ベンチマークにおいて、強い優先最適化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-05-26T03:09:24Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Just Label the Repeats for In-The-Wild Audio-to-Score Alignment [7.7805314458791806]
In-the-wild Performance Audioとそれに対応する楽譜スキャン(画像)のアライメントのための効率的なワークフローを提案する。
提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業と比較してアライメント精度が150%向上したことを示す。
論文 参考訳(メタデータ) (2024-11-11T23:05:02Z) - Joint Optimization of Ranking and Calibration with Contextualized Hybrid
Model [24.66016187602343]
本稿では,短時間でランキング・アンド・アビリティ(JRC)を最適化する手法を提案する。
JRCは、サンプルのロジット値を異なるラベルで対比することでランキング能力を向上し、ロジットサブトラクションの関数である予測確率を制約する。
JRCはAlibabaのディスプレイ広告プラットフォームにデプロイされており、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-08-12T08:32:13Z) - Least Square Calibration for Peer Review [18.063450032460047]
ピアレーティングから上位候補を選択するためのフレキシブルなフレームワーク、すなわち最小二乗キャリブレーション(LSC)を提案する。
本フレームワークは、軽度仮定の下で、ノイズのない線形スコアリング関数の完全校正を確実に行う。
我々のアルゴリズムは、最高評価値に基づいて上位論文を選択するベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2021-10-25T02:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。