論文の概要: Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading
- arxiv url: http://arxiv.org/abs/2606.09667v1
- Date: Mon, 08 Jun 2026 15:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.483167
- Title: Cross-Modal Masking for Robust Silent Speech Synthesis Using sEMG and Lipreading
- Title(参考訳): sEMGとLipreadingを用いたロバスト無声音声合成のためのクロスモーダルマスキング
- Authors: Eder del Blanco, David Gimeno-Gómez, Eva Navas, Carlos-D. Martínez-Hinarejos, Inma Hernáez,
- Abstract要約: サイレント音声インタフェース (SSI) による音声の復元は, 喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・
本研究では,SEMGとLipreading信号とを協調的に活用するマスク付きマルチモーダル音声合成フレームワークを提案する。
複数話者設定下では,最強の単調ベースラインに比べて単語誤り率を最大14ポイント削減する。
- 参考スコア(独自算出の注目度): 2.5880359009782055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech restoration through silent speech interfaces (SSIs) has emerged as a promising assistive technology for individuals with impaired or absent laryngeal voice production. Among non-invasive SSI modalities, surface electromyography (sEMG) and video-based lipreading provide complementary articulatory information, yet their integration for continuous speech synthesis remains underexplored. Moreover, existing multimodal approaches rarely address robustness to modality degradation or temporary sensor failure, limiting their applicability in realistic scenarios. In this work, we propose a masked multimodal speech synthesis framework that jointly leverages sEMG and lipreading signals through modality masking during training. Under multispeaker settings, the proposed approach reduces word error rate by up to 14 absolute percentage points compared to the strongest unimodal baseline. Experimental results not only show that masking strategies are critical for these performance gains and robustness under low-bitrate conditions, but also that they generalize better than degradation-specific data augmentations in the presence of modality absence conditions. Phone-level analyses further reveal complementary contributions across modalities, with particularly strong benefits for vowels and for specific consonant groups. Overall, these findings demonstrate the effectiveness and robustness of masked multimodal integration for silent speech synthesis, although adaptation to laryngectomized speakers remains an open research challenge.
- Abstract(参考訳): サイレント音声インタフェース (SSI) による音声の復元は, 喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・喉頭・
非侵襲的なSSIモダリティの中では、表面筋電図(SEMG)とビデオベースのリップレディングは相補的な調音情報を提供するが、連続音声合成のための統合はいまだ検討されていない。
さらに、既存のマルチモーダルアプローチは、モダリティ劣化や一時的なセンサー故障に対する堅牢性にはほとんど対処せず、現実的なシナリオにおける適用性を制限する。
本研究では,SEMGとLipreading信号とを協調的に活用するマスク付きマルチモーダル音声合成フレームワークを提案する。
複数話者設定下では,最強の単調ベースラインに比べて単語誤り率を最大14ポイント削減する。
実験結果から,これらのマスキング戦略は,低ビットレート条件下での性能向上とロバスト性に重要なだけでなく,モダリティ不在条件下での劣化特異的データ増大よりも優れることが示された。
音声レベルの分析により、特に母音や特定の子音群に強い利点を持つ、モーダル性にまたがる補完的な寄与が明らかにされる。
これらの結果から,無声音声合成におけるマスク付きマルチモーダル統合の有効性とロバスト性が示されたが,喉頭音化話者への適応は依然としてオープンな研究課題である。
関連論文リスト
- ACT Now: Preempting LVLM Hallucinations via Adaptive Context Integration [71.21097024566285]
LVLM(Large-Language Models)はしばしば深刻な幻覚に悩まされる。
既存の緩和戦略は、視覚的焦点を強化するか、強い先行を抑えるために、言語的、単一段階の状態に依存している。
本研究では,適応的な文脈情報の統合を通じて幻覚を緩和する学習自由推論介入手法であるAdaptive Context in VisionTegration (ACT)を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:49:50Z) - Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - FauForensics: Boosting Audio-Visual Deepfake Detection with Facial Action Units [40.86547778808649]
本稿では,オーディオ・ビジュアル・ディープフェイク検出のためのFauForensicsという新しいフレームワークを提案する。
本手法は, フレーム単位の音響視覚的類似性を, 専用の融合モジュールを用いて計算する。
FakeAVCelebとLAV-DFの実験では、最先端(SOTA)性能と、平均4.83%のクロスデータセットの一般化性が示された。
論文 参考訳(メタデータ) (2025-05-13T07:18:07Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。