論文の概要: BareWave: Waveform-Native Flow-Matching Text-to-Speech
- arxiv url: http://arxiv.org/abs/2606.09048v1
- Date: Mon, 08 Jun 2026 05:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.714649
- Title: BareWave: Waveform-Native Flow-Matching Text-to-Speech
- Title(参考訳): BareWave:Waveform-Native Flow-Matching Text-to-Speech
- Authors: Wei Fan, Chao-Hong Tan, Qian Chen, Wen Wang, Xiangang Li, Kejiang Chen, Weiming Zhang, Nenghai Yu,
- Abstract要約: フローマッチングTTSにおける直接テキスト・ツー・ウェーブ生成のための,完全な波形ネイティブフレームワークであるBareWaveを提案する。
我々は、トレーニング時表現アライメント、ステージドノイズスケジューリング、速度認識の知覚アライメントを組み合わせたダイレクトテキスト・ツー・ウェーブ・トレーニング・フレームワークを開発した。
ゼロショット音声クローニングの実験では、完全な波形ネイティブな推論パスの下で、強い知性、話者類似性、自然性が達成できることが示されている。
- 参考スコア(独自算出の注目度): 76.5390412686083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Removing intermediate representations and separately trained decoding stages has become an important direction in generative modeling. In text-to-speech, however, high-quality systems are still commonly built through an intermediate acoustic representation before waveform synthesis. In this work, we present BareWave, a fully waveform-native framework for direct text-to-wave generation in flow-matching TTS. We consider this setting to raise three training challenges: raw-waveform modeling lacks a strong pretrained representational scaffold, different stages of training benefit from different noise schedules, and data-space perceptual objectives do not automatically share the temporal structure of the velocity-space flow objective. As a result, direct waveform training is hard to optimize efficiently, hard to push toward a strong final operating point with a fixed recipe, and hard to integrate effective perceptual refinement. Guided by this view, we develop a direct text-to-wave training framework that combines training-time representation alignment, staged noise scheduling, and velocity-aware perceptual alignment (VAPA), while preserving a single waveform-native inference path without pretrained components at test time. Experiments on zero-shot voice cloning show that strong intelligibility, speaker similarity, and naturalness can be achieved under a fully waveform-native inference path, supporting waveform-native flow-matching TTS as a practical direction. Project page with audio demos is available at https://barewave.github.io/.
- Abstract(参考訳): 中間表現の除去と個別に訓練された復号段階は、生成モデリングにおいて重要な方向となっている。
しかし、テキストから音声への変換では、高品質なシステムは波形合成の前に中間的な音響表現によって構築されることが多い。
本研究では,フローマッチングTTSにおける直接テキスト・ツー・ウェーブ生成のための完全波形ネイティブフレームワークであるBareWaveを提案する。
生波形モデリングには、強い事前訓練された表現の足場が欠如しており、異なるノイズスケジュールから異なる訓練段階の恩恵を受けており、データ空間の知覚的目的は、速度空間フローの時間的構造を自動で共有しない。
その結果、直接波形トレーニングは効率よく最適化し難く、固定されたレシピで強い最終動作点に向かって押し出すのが困難であり、効果的な知覚的改善を統合するのが困難である。
そこで本研究では,テスト時に予めトレーニングされたコンポーネントを使わずに単一波形-ネイティブ推論パスを保ちながら,トレーニング時適応アライメント,ステージドノイズスケジューリング,ベロシティ-アウェア・パーセプティブアライメント(VAPA)を組み合わせた直接テキスト間トレーニングフレームワークを開発した。
ゼロショット音声クローニング実験は、波形ネイティブな流れマッチングTTSを実用的な方向としてサポートし、完全に波形ネイティブな推論パスの下で、強い知性、話者類似性、自然性を達成可能であることを示した。
オーディオデモのあるプロジェクトページはhttps://barewave.github.io/.com/で公開されている。
関連論文リスト
- WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation [24.13944601660532]
視覚モデリングはトランスフォーマーによって急速に進歩し、注意機構は視覚的依存を捉えるが、意味情報が空間的にどのように伝播するかという原則的な説明は欠いている。
我々はこの問題を波面から再検討し、内部伝播時間における空間信号として特徴写像を下水波方程式で制御する。
本稿では,標準VTやCNNのドロップイン置換としてWaveFormerモデルのファミリを提案し,画像分類,オブジェクト検出,セマンティックセグメンテーションにおける競合精度を実現する。
論文 参考訳(メタデータ) (2026-01-13T14:47:22Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。