論文の概要: Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech
- arxiv url: http://arxiv.org/abs/2606.13989v1
- Date: Fri, 12 Jun 2026 00:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.689597
- Title: Mask, Sample, Revise: A Revisable CTMC Inference Stack for Guided Discrete Flow Matching Text-to-Speech
- Title(参考訳): Mask, Sample, Revise: テキストから音声への離散フローマッチングのための改良可能なCTMC推論スタック
- Authors: Alef Iury Siqueira Ferreira, Lucas Rafael Stefanel Gris, Luiz Fernando de Araújo Vidal, Frederico Santos de Oliveira, Christopher Dane Shulby, Anderson da Silva Soares, Arlindo Rodrigues Galvão Filho,
- Abstract要約: Mask, Sample, Revise はアライメントフリー DFM-TTS のための推論時間CTMCスタックである。
テキストコンディショニングを強化するためのタウフリーガイダンスと、確率パスと音響プロンプトを整合させるプロンプト整合条件結合と、スケジュール制約付きリマッシング機構であるSC-ReMaskを組み合わせる。
これらのコンポーネントは、ポストホック微調整を必要とせず、単一のタウリーピングサンプリング器で作動する。
- 参考スコア(独自算出の注目度): 4.005154152981212
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent alignment-free non-autoregressive (NAR) text-to-speech (TTS) models formulate synthesis as a conditional infilling task, bypassing explicit duration predictors and external aligners. When speech is represented with neural codec tokens, the infilling problem becomes discrete, making Discrete Flow Matching (DFM), a Continuous-Time Markov Chain (CTMC) framework for discrete generation, a natural fit. However, inference-time control for stable low-step conditional infilling remains underexplored. We propose Mask, Sample, Revise, an inference-time CTMC stack for alignment-free DFM-TTS. The stack combines predictor-free guidance to strengthen text conditioning, prompt-matched conditional coupling to align the probability path with the acoustic prompt, and SC-ReMask, a schedule-constrained remasking mechanism that introduces token-to-mask transitions so early de-masking decisions can be revised. These components require no post-hoc fine-tuning and operate in a single tau-leaping sampler. Controlled ablations show that this stack improves intelligibility and robustness in the low-NFE prompted setting, outperforming unguided and guidance-only samplers with substantially more steps.
- Abstract(参考訳): 最近のアライメントフリー非自己回帰(NAR)テキスト音声合成(TTS)モデルは、明示的な時間予測器と外部アライメント器をバイパスし、条件を満たすタスクとして合成を定式化している。
音声をニューラルコーデックトークンで表現すると、補充問題は離散化され、離散生成のための離散フローマッチング(DFM)フレームワークであるCTMC(Continuous-Time Markov Chain)が自然に適合する。
しかし, 安定な低段条件充満のための推定時間制御は未検討のままである。
我々は、アライメントフリーDFM-TTSのための推論時間CTMCスタックであるMask, Sample, Reviseを提案する。
このスタックは、テキストコンディショニングを強化するための予測自由誘導と、確率パスと音響プロンプトを整合させるプロンプト整合条件結合と、トークン・ツー・マスクのトランジションを導入するスケジュール制約付きリメイキング機構であるSC-ReMaskを組み合わせることで、早期のデメイキング決定を修正できる。
これらのコンポーネントは、ポストホック微調整を必要とせず、単一のタウリーピングサンプリング器で作動する。
制御されたアブリゲーションは、このスタックが低NFE誘導設定の信頼性と堅牢性を向上し、ガイドのみのサンプルをかなり多くのステップで改善することを示している。
関連論文リスト
- Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models [59.51249894128724]
マスク付き拡散言語モデルは、反復を識別するごとに複数のトークンを明らかにすることで推論ステップを削減することができる。
パラレルマスク拡散復号法のためのトレーニング不要な復号法であるADASを提案する。
論文 参考訳(メタデータ) (2026-06-09T13:17:27Z) - Multi-scale Coarse-to-fine Modeling for Test-time Human Motion Control [51.92884966472683]
MSCoTは、テストタイムの人間のモーション合成と制御のための、マルチスケールで粗い粒度モデルである。
MSCoTは動きを多スケールの階層表現に識別し、各時間スケールでトークンシーケンス全体を予測する。
論文 参考訳(メタデータ) (2026-05-14T15:09:49Z) - Stability-Weighted Decoding for Diffusion Language Models [8.670026899042483]
既存のデコード戦略は、1つのデノナイジングステップで計算された静的な信頼度に依存し、時間的履歴を無視し、不安定なトークンを早めに解き放つ。
本研究では,時間的安定性をトークンスコアリングに組み込んだ学習自由なプラグアンドプレイ戦略であるStable-Weighted Decoding(SWD)を提案し,任意のスコアベースのデコーディングポリシーのためのユニバーサルモジュレータとして機能する。
論文 参考訳(メタデータ) (2026-04-18T17:04:10Z) - Stratified Hazard Sampling: Minimal-Variance Event Scheduling for CTMC/DTMC Discrete Diffusion and Flow Models [0.0]
累積ハザード(CTMC)または累積ジャンプ質量(DTMC)によって駆動される事象としての階層的ハザードサンプリングサンプリング(SHS)モデル
SHSは、累積ハザード(CTMC)または累積ジャンプ質量(DTMC)によって駆動されるイベントとして編集され、累積量を成層化することによってイベントを配置する。
また、ブラックリストスタイルの語彙制約に対する位相アロケーション変種を導入し、リスクの高い位置での早期編集を優先し、遅延マスキングアーティファクトを緩和する。
論文 参考訳(メタデータ) (2026-01-06T08:19:02Z) - DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation [30.150846119894577]
DISTARはゼロショットのテキスト音声合成フレームワークで、離散的残差ベクトル量子化符号空間で完全に動作する。
DISTARは、堅牢性、自然性、話者/スタイルの整合性において、最先端のゼロショットTSシステムを超えている。
論文 参考訳(メタデータ) (2025-10-14T07:03:29Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - StableEmit: Selection Probability Discount for Reducing Emission Latency
of Streaming Monotonic Attention ASR [46.69852287267763]
我々は,MoChAが早期にトークンを発行することを奨励するために,単純なアライメントフリーの正規化手法であるStableEmitを提案する。
以上の結果から,StableEmitは認識誤差と発光遅延を同時に低減することがわかった。
論文 参考訳(メタデータ) (2021-07-01T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。