論文の概要: Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation
- arxiv url: http://arxiv.org/abs/2606.10368v1
- Date: Tue, 09 Jun 2026 03:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.290841
- Title: Speech Meets ELF: Audio Conditional Continuous-Target Diffusion for Speech Recognition and Translation
- Title(参考訳): ELFと音声: 音声認識と翻訳のための条件付き連続ターゲット拡散
- Authors: Xuanchen Li, Tianrui Wang, Yuheng Lu, Zikang Huang, Yu Jiang, Chenghan Lin, Chenrui Cui, Ziyang Ma, Xingyu Ma, Chunyu Qiang, Guochen Yu, Xie Chen, Longbiao Wang, Jianwu Dang,
- Abstract要約: ELF-S2Tは,音声からテキストへの連続ターゲット生成モデルである。
ELF-S2Tは凍結したウィスパーエンコーダと1つの線形プロジェクタを介して音声を処理する。
LibriSpeechとCoVoST2の実験により、ELF-S2Tは競争力のあるASRとS2TTの性能を達成することが示された。
- 参考スコア(独自算出の注目度): 48.98480497536377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-to-text (S2T) systems for recognition (ASR) and translation (S2TT) typically generate discrete text tokens. In contrast, continuous-target language modelling performs generation in a continuous space, yet its potential for S2T remains unexplored. To bridge this gap, we propose ELF-S2T, an audio-conditioned continuous-target generative model for S2T. Built upon the pre-trained Embedded Language Flows (ELF) backbone, ELF-S2T processes speech via a frozen Whisper encoder and a single linear projector, prepending the resulting audio condition to the noisy text latent for in-context, flow-matching denoising. To prevent the model from over-relying on its pre-trained text context, we introduce audio forcing during training, and further amplify the audio condition via classifier-free guidance at inference. Experiments on LibriSpeech and CoVoST2 show that ELF-S2T achieves competitive ASR and S2TT performance. Crucially, our error analysis reveals that, although ASR and S2TT errors look very different on the surface, both stem from the same underlying cause, a close distance confusion in the continuous latent space. This finding naturally aligns with the continuous representation generation paradigm, indicating a common semantic mapping process beneath recognition and translation. Our code and pretrained models are publicly available at https://github.com/Sslnon/ELF-S2T.
- Abstract(参考訳): 音声認識(ASR)と翻訳(S2TT)のためのS2Tシステムは通常、個別のテキストトークンを生成する。
対照的に、連続ターゲット言語モデリングは連続空間で生成を行うが、S2Tのポテンシャルは未解明のままである。
このギャップを埋めるために,S2Tの音声条件付き連続ターゲット生成モデルであるELF-S2Tを提案する。
事前訓練された埋め込み言語フロー(ELF)のバックボーンに基づいて、ELF-S2Tは凍結したウィスパーエンコーダと単一の線形プロジェクタを介して音声を処理する。
事前訓練されたテキストコンテキストでモデルが過度に参照されるのを防止するため、トレーニング中の音声強制を導入し、推論時に分類子なしガイダンスを用いて音声条件を増幅する。
LibriSpeechとCoVoST2の実験により、ELF-S2Tは競争力のあるASRとS2TTの性能を達成することが示された。
重要なことは、ASRとS2TTの誤差は表面で非常に異なるように見えるが、どちらも同じ原因に由来するが、連続的な潜伏空間における近接距離の混乱である。
この発見は、認識と翻訳の下に共通の意味マッピングプロセスを示す連続表現生成パラダイムと自然に一致している。
私たちのコードと事前訓練されたモデルはhttps://github.com/Sslnon/ELF-S2T.comで公開されています。
関連論文リスト
- Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。
We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。
実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-07T17:07:56Z) - V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。
これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。
これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文 参考訳(メタデータ) (2024-11-29T05:55:20Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。