論文の概要: FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
- arxiv url: http://arxiv.org/abs/2606.20518v1
- Date: Thu, 18 Jun 2026 17:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.024816
- Title: FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
- Title(参考訳): FlowEdit: Asociative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS
- Authors: Harshit Singh, Ayush Pratap Singh, Nityanand Mathur,
- Abstract要約: FlowEdit はフリーズフローマッチング TTS の適応フレームワークである。
ウェイト更新ではなく、潜時条件付けの編集として発音補正を学習する。
ゼロショットベースラインと比較して、ターゲットワードの音素誤り率を92.7%削減する。
- 参考スコア(独自算出の注目度): 1.6624384368855523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-matching text-to-speech systems achieve remarkable zero-shot quality but remain static after deployment: pronunciation errors on out-of-vocabulary proper nouns persist unless the model is retrained. We introduce FlowEdit, a life-long adaptation framework for frozen flow-matching TTS that learns pronunciation corrections as latent conditioning edits rather than weight updates. When corrective feedback is provided, FlowEdit optimizes a token-level perturbation in the text embedding space, then stores the correction in a Modern Hopfield Network serving as content-addressable episodic memory. At inference, corrections are retrieved via soft attention with a similarity gate, enabling fuzzy morphological matching. On our curated benchmark of 312 multilingual proper nouns across 18 language families, FlowEdit reduces target-word Phoneme Error Rate by 92.7% relative to the zero-shot baseline while maintaining identical general-speech quality. Corrections complete in approximately 15 seconds on a single GPU.
- Abstract(参考訳): フローマッチングによるテキスト音声合成システムは、目覚ましいゼロショットの品質を達成するが、デプロイ後に静的のまま残る: 語彙外固有名詞の発音エラーは、モデルの再訓練がなければ持続する。
本稿では,フローマッチングTTSの長寿命適応フレームワークであるFlowEditを紹介した。
修正フィードバックが提供されると、FlowEditはテキスト埋め込み空間におけるトークンレベルの摂動を最適化し、その補正をコンテンツに適応可能なエピソードメモリとして機能するModern Hopfield Networkに格納する。
推測において、補正は類似したゲートでソフトアテンションにより検索され、ファジィな形態的マッチングが可能である。
対象単語の音素誤り率をゼロショットベースラインに対して92.7%削減し,同じ音声品質を維持した。
補正は1つのGPUで約15秒で完了する。
関連論文リスト
- RobustSpeechFlow: Learning Robust Text-to-Speech Trajectories via Augmentation-based Contrastive Flow Matching [10.755921557009307]
RobustSpeechFlowは、長さ保存リピートにマッチするコントラストフローを拡張し、遅延拡張をスキップすることでアライメントを改善するトレーニング戦略である。
ワードエラー率(WER)を0.06Bパラメータで1.44から1.38に削減する。
多様な話者および韻律条件に対して、一貫したインテリジェンスの改善を提供する。
論文 参考訳(メタデータ) (2026-05-21T07:22:28Z) - AST: Adaptive, Seamless, and Training-Free Precise Speech Editing [28.699272599440032]
ASTはAdaptive, Seamless, and Trainingなしの正確な音声編集フレームワークである。
ASTはワードエラー率を70%近く削減し,一貫性を向上させることを示す。
基礎的TSモデルにASTを適用すると、WDTWは27%減少し、最先端の話者保存と時間的忠実度を達成する。
論文 参考訳(メタデータ) (2026-04-17T13:30:59Z) - SonoEdit: Null-Space Constrained Knowledge Editing for Pronunciation Correction in LLM-Based TTS [1.392548092257887]
本稿では,事前訓練したTSモデルの発音誤りを再訓練せずに外科的に修正するモデル編集手法であるSanoEditを紹介する。
コストのかかる微調整や明示的な音素注入の代わりに,Null-Space Pronunciation Editingに基づく類似の代替法を提案する。
論文 参考訳(メタデータ) (2026-01-23T08:40:49Z) - Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [61.601626186678146]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。
本手法により, 単語誤り率の相対的な改善を最大8%まで達成し, 単語誤り率の競争力を維持した。
論文 参考訳(メタデータ) (2025-06-23T14:42:03Z) - Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。