論文の概要: Imitation Learning for Elder-Facing Speech Synthesis
- arxiv url: http://arxiv.org/abs/2606.21053v1
- Date: Fri, 19 Jun 2026 02:36:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:26:20.337443
- Title: Imitation Learning for Elder-Facing Speech Synthesis
- Title(参考訳): 高齢者音声合成のための模倣学習
- Authors: Dongrui Han, Weidong Chen, Jiawen Kang, Mingyu Cui, Helen Meng, Xixin Wu,
- Abstract要約: 専門家によるデモンストレーションからテキスト音声(TTS)モデルを学習するための新しい模倣学習(IL)フレームワークを提案する。
我々は、専門家のデモンストレーションから限られた監督下での報酬ハッキングを緩和するため、2段階のオンライン報酬学習(OPRL)により、グループ相対政策最適化をさらに改善する。
- 参考スコア(独自算出の注目度): 65.98429501808018
- License:
- Abstract: Recent advances in text-to-speech (TTS) synthesis have achieved highly natural and expressive speech generation. However, these systems are designed for general adults and overlook older adults' speech comprehension needs due to age-related sensory and cognitive decline. Prior work involves older adults by collecting preference feedback to tune model parameters. However, obtaining sufficient preference data is costly and difficult, as older adults quickly become fatigued during collection. In this paper, we propose a novel imitation learning (IL) framework to learn TTS models from expert demonstrations. We further improve Group Relative Policy Optimization (GRPO) with two-stage on-policy reward learning (OPRL) to mitigate reward hacking under limited supervision from expert demonstration. Experimental results show that GRPO w/ OPRL outperforms GRPO and supervised baselines in objective and subjective metrics. Audio samples are available at https://dongru1.github.io/demo/im-efss
- Abstract(参考訳): テキスト音声合成(TTS)の最近の進歩は、非常に自然で表現力のある音声生成を実現している。
しかし、これらのシステムは一般成人向けに設計されており、年齢に関する感覚や認知の低下により、高齢者の音声理解の必要性を見落としている。
以前の作業では、モデルのパラメータをチューニングするために好みのフィードバックを集めることで、高齢者が関与します。
しかし, 収集作業中に高齢者が疲労しやすくなり, 十分な嗜好データを得ることは困難である。
本稿では、専門家によるデモンストレーションからTSモデルを学ぶための新しい模倣学習(IL)フレームワークを提案する。
我々は、専門家のデモンストレーションから限られた監督下での報酬ハッキングを緩和するため、2段階のオンライン報酬学習(OPRL)により、グループ相対政策最適化(GRPO)をさらに改善する。
実験結果から,GRPO w/OPRLはGRPOより優れ,主観的および主観的指標においてベースラインが監督されることがわかった。
オーディオサンプルはhttps://dongru1.github.io/demo/im-efssで入手できる。
関連論文リスト
- Benchmarking Training Paradigms, Dataset Composition, and Model Scaling for Child ASR in ESPnet [72.53502346791814]
データセット、SSL表現(WavLM、XEUS)、デコーダアーキテクチャ間のフラットスタートトレーニングを比較した。
SSL表現は成人のスピーチに偏りがあり、子どものスピーチに対するフラットスタートトレーニングはこれらのバイアスを緩和する。
年齢関連ASRと話者検証分析は、プロプライエタリモデルの限界を強調している。
論文 参考訳(メタデータ) (2025-08-22T17:59:35Z) - OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Transfer Learning for Robust Low-Resource Children's Speech ASR with
Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。
この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。
このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文 参考訳(メタデータ) (2022-06-19T12:57:47Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - A Text-to-Speech Pipeline, Evaluation Methodology, and Initial
Fine-Tuning Results for Child Speech Synthesis [3.2548794659022398]
音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるようになったため、長い道のりを経ている。
本研究では,子どもの音声データセットを用いて,最先端のニューラルネットワークモデルを構築するためのトレーニングパイプラインを開発し,検証した。
論文 参考訳(メタデータ) (2022-03-22T09:34:21Z) - Controllable Generation from Pre-trained Language Models via Inverse
Prompting [47.23315683944257]
テキスト生成をよりよく制御する革新的な手法である逆プロンプトを提案する。
逆プロンプトは生成されたテキストを使用してビーム探索中に逆プロンプトを予測する。
その結果,提案手法はベースラインを大きく上回ることがわかった。
論文 参考訳(メタデータ) (2021-03-19T08:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。