Fugu-MT 論文翻訳(概要): Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement

論文の概要: Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement

arxiv url: http://arxiv.org/abs/2606.23712v1
Date: Tue, 16 Jun 2026 06:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.551545
Title: Audio-visual Contrastive Alignment for Diffusion-based Visual-conditioned Speech Enhancement
Title（参考訳）: 拡散型視覚条件音声強調のための聴覚的コントラストアライメント
Authors: Colombe Mboungou, Mostafa Sadeghi, Jean-Eudes Ayilo, Romain Serizel,
Abstract要約: 音声視覚音声強調(AVSE)は、唇の動きなどの視覚的手がかりを利用して、雑音の多い環境での音声を回復する。最近の研究は、拡散に基づく教師なしAVSEを導入し、クロスアテンションによる視覚的特徴に条件付けされた音声拡散モデルを訓練し、後部サンプリングに基づく音声強調のためのデータ駆動の先行として使用した。本稿では,後部サンプリングフレームワークをそのまま維持しつつ,視覚情報のより強力な利用を促すために,コントラストのある音声視覚損失による拡散訓練目標の強化を提案する。
参考スコア（独自算出の注目度）: 29.82200674804193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual speech enhancement (AVSE) exploits visual cues such as lip movements to recover speech in noisy environments. Recent work introduced diffusion-based unsupervised AVSE, where a speech diffusion model conditioned on visual features via cross-attention is trained and used as a data-driven prior for posterior sampling-based speech enhancement. Despite promising performance over its audio-only counterpart, the impact of explicitly enforcing cross-modal alignment in the fusion remains unclear. In this work, we propose to augment the diffusion training objective with a contrastive audio-visual loss to encourage stronger use of visual information while keeping the posterior sampling framework unchanged. Experiments across matched and mismatched test data show consistent improvements in interference suppression, signal reconstruction, and perceptual quality, with the largest gains at low SNRs. Code is available at https://github.com/ cexauce/AV-CA-DiffUSE
Abstract（参考訳）: 音声視覚音声強調(AVSE)は、唇の動きなどの視覚的手がかりを利用して、雑音の多い環境での音声を回復する。最近の研究は、拡散に基づく教師なしAVSEを導入し、クロスアテンションによる視覚的特徴に条件付けされた音声拡散モデルを訓練し、後部サンプリングに基づく音声強調のためのデータ駆動の先行として使用した。オーディオのみの性能よりも有望なパフォーマンスにもかかわらず、融合におけるクロスモーダルアライメントを明示的に強制する影響は、まだ不明である。本研究では,後部サンプリングの枠組みをそのまま維持しつつ,視覚情報のより強力な利用を促すために,コントラストのある聴覚・視覚的損失を伴って拡散訓練の目的を増強することを提案する。一致したテストデータとミスマッチしたテストデータによる実験では、干渉抑制、信号再構成、知覚的品質が一貫した改善が見られ、SNRが低かった。コードはhttps://github.com/cexauce/AV-CA-DiffUSEで入手できる。

関連論文リスト

Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-10-04T12:22:54Z)
Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。 MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文参考訳（メタデータ） (2024-07-15T00:47:56Z)
AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-14T21:07:53Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文参考訳（メタデータ） (2022-11-20T15:27:55Z)
Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文参考訳（メタデータ） (2021-04-01T07:48:29Z)
Correlating Subword Articulation with Lip Shapes for Embedding Aware Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文参考訳（メタデータ） (2020-09-21T01:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。