論文の概要: MagpieTTS-LF: Inference-Time Long-Form Speech Generation Without Training on Long-Form data
- arxiv url: http://arxiv.org/abs/2606.18485v1
- Date: Tue, 16 Jun 2026 20:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.8996
- Title: MagpieTTS-LF: Inference-Time Long-Form Speech Generation Without Training on Long-Form data
- Title(参考訳): MagpieTTS-LF:ロングフォームデータのトレーニングを伴わない推論時間長音声生成
- Authors: Subhankar Ghosh, Jason Li, Paarth Neekhara, Shehzeen Hussain, Ryan Langman, Xuesong Yang, Roy Fejgin,
- Abstract要約: 我々はMagpieTTS-LFと呼ばれる推論時アプローチを提案し、MagpieTTSはモデル再構成なしでコヒーレントな長文音声を生成することができる。
本手法では,(1)過去と将来の文脈を保存しながらモノトニックなアライメントを導くためのソフトアライメント,(2)文チャンク間のコンテキストを維持するステートフル推論アルゴリズム,(3)談話レベルの韻律計画に過去のテキストを使用する履歴対応テキストエンコーディング,の3つの重要なイノベーションを紹介する。
- 参考スコア(独自算出の注目度): 13.076032296543032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Text-to-Speech (TTS) systems achieve remarkable quality on short utterances but long-form speech generation shows prosodic drift, speaker inconsistencies and sentence boundary artifacts. Existing approaches either compress sequences, increase context length or naively concatenate independently synthesized chunks. We present an inference-time approach called MagpieTTS-LF that enables MagpieTTS to produce coherent long-form speech without model retraining. Our method introduces three key innovations: (1) soft attention priors to guide monotonic alignment while preserving past and future context; (2) a stateful inference algorithm that maintains context across sentence chunks, ensuring prosodic continuity; (3) history-aware text encoding that uses past text for discourse-level prosodic planning. Experiments on long texts show significant improvements in long-range intelligibility, prosodic coherence, speaker consistency, and boundary naturalness compared to other baselines.
- Abstract(参考訳): ニューラルテキスト音声合成システム(TTS)は、短い発話において顕著な品質を達成するが、長文音声生成は韻律的ドリフト、話者の不整合、文境界アーチファクトを示す。
既存のアプローチは、圧縮シーケンス、コンテキスト長の増大、あるいは独立に合成されたチャンクの孤立化のいずれかである。
我々はMagpieTTS-LFと呼ばれる推論時アプローチを提案し、MagpieTTSはモデル再構成なしでコヒーレントな長文音声を生成することができる。
提案手法では,(1)過去と将来の文脈を保存しながらモノトニックなアライメントを導くためのソフトアライメント,(2)文チャンク間のコンテキストを維持し,韻律的連続性を保証するステートフル推論アルゴリズム,(3)過去のテキストを談話レベルの韻律計画に用いる履歴認識テキストエンコーディング,の3つの重要なイノベーションを紹介する。
長いテキストの実験では、他のベースラインと比較して、長距離の知性、韻律的コヒーレンス、話者の一貫性、境界の自然さが著しく改善された。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of SSWP [18.90593650641679]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解ペアのコントラスト事前学習を用いて,潜在表現における韻律情報を強化する。
第2段階では,事前訓練されたエンコーダ,テキスト合成方式,シーケンス分類器からなるマルチモーダルな韻律アノテータを構築した。
英語韻律境界の実験により,韻律語と韻律句に対する0.72と0.93f1のスコアで最先端のSOTA(State-of-the-art)を達成できた。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Long Text Generation by Modeling Sentence-Level and Discourse-Level
Coherence [59.51720326054546]
本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。
我々のモデルは最先端のベースラインよりも一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2021-05-19T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。