論文の概要: Post-Training Speech Enhancement Language Models with Perceptual Rewards
- arxiv url: http://arxiv.org/abs/2606.21458v1
- Date: Fri, 19 Jun 2026 14:14:20 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:28:30.44734
- Title: Post-Training Speech Enhancement Language Models with Perceptual Rewards
- Title(参考訳): 聴覚障害者を対象とした訓練後音声強調言語モデル
- Authors: Frédéric Berdoz, Luca A. Lanzendörfer, Antonis Asonitis, Roger Wattenhofer,
- Abstract要約: 本稿では,自己回帰音声強調言語モデルのための後学習ステージを提案する。
本手法は,非微分品質指標を報酬信号として直接最適化する。
人間の評価アブレーションは、複合マルチメトリック報酬が任意のシングルメトリック変種よりも好まれていることを示している。
- 参考スコア(独自算出の注目度): 35.61634772862795
- License:
- Abstract: Speech enhancement language models achieve strong results when trained on discrete audio tokens, but their optimization relies on token-level cross-entropy rather than the perceptual metrics used for evaluation. We introduce a post-training stage for autoregressive speech enhancement language models using Group Sequence Policy Optimization (GSPO) with multi-metric perceptual rewards. Our method directly optimizes non-differentiable quality metrics (DNSMOS, WER, and UTMOS) as reward signals, without learned surrogates or offline preference pairs. Applied to two autoregressive base models, UniSE and GenSE, our approach achieves state-of-the-art results on the DNS2020 benchmark. A human evaluation ablation further shows that the composite multi-metric reward is preferred over any single-metric variant, confirming that multi-reward optimization avoids the reward hacking observed with single-metric training.
- Abstract(参考訳): 音声強調言語モデルは、離散的な音声トークンで訓練すると強い結果が得られるが、その最適化は、評価に使用される知覚的指標ではなく、トークンレベルのクロスエントロピーに依存する。
グループシーケンスポリシー最適化 (GSPO) を用いた自動回帰音声強調言語モデルの学習後段階を導入する。
提案手法は,非微分品質指標(DNSMOS, WER, UTMOS)を直接報酬信号として最適化する。
提案手法は,UniSE と GenSE の2つの自己回帰ベースモデルに適用され,DNS2020 ベンチマークの最先端結果が得られた。
人間の評価アブレーションにより、複合マルチメトリック報酬は、任意のシングルメトリックモデルよりも好ましいことが示され、マルチリワード最適化がシングルメトリックトレーニングで観察される報酬ハッキングを回避することが確認された。
関連論文リスト
- Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。
ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。
3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文 参考訳(メタデータ) (2025-10-06T18:53:23Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。