論文の概要: Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition
- arxiv url: http://arxiv.org/abs/2606.21340v1
- Date: Fri, 19 Jun 2026 11:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:11:58.281921
- Title: Synthetic Audio Generation Framework for Air Traffic Control Speech Recognition
- Title(参考訳): 空気交通制御音声認識のための合成音声生成フレームワーク
- Authors: Raphaël Bagat, Zhe Zhang, Junichi Yamagishi, Irina Illina, Emmanuel Vincent,
- Abstract要約: 合成データのみによる微調整や、実データと合成データの混合による微調整は、アウト・オブ・ザ・ボックスと実データのみのベースラインよりも単語誤り率を大幅に向上させることを示す。
ATCO2コーパス上でのWhisperモデルによる実験により,合成データのみを用いた微調整,あるいは実データと実データの組み合わせによる微調整により,単語誤り率をアウト・オブ・ザ・ボックスと実データのみのベースラインよりも大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 37.456341310281225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems, despite achieving remarkable accuracy in general-purpose domains with native speech (L1), struggle in domains like Air Traffic Control (ATC) due to strong channel noise, a presence of non-native (L2) English accents, and data scarcity. We propose a synthetic data generation pipeline with acoustical properties simulations specifically designed to address this lack of real data to improve recognition accuracy in the ATC domain. Our approach leverages a combination of neural generation techniques, including Text-to-Speech, Voice Conversion, L2-to-L1 accent conversion, and a novel controllable L1-to-L2 accent conversion framework built to simulate accented speech. Our experiments with the Whisper model on the ATCO2 corpus demonstrate that fine-tuning with either synthetic data alone, or a mix of real and synthetic data, significantly improves the word error rate over out-of-the-box and real data only baselines respectively.
- Abstract(参考訳): 音声認識システム(ASR)は、ネイティブ音声(L1)の汎用ドメインでは顕著な精度を達成しているが、強いチャネルノイズ、非ネイティブ(L2)英語アクセントの存在、データ不足などにより、空気交通制御(ATC)などのドメインでは苦戦している。
本研究では,ATC領域の認識精度を向上させるために,音響特性シミュレーションを用いた合成データ生成パイプラインを提案する。
提案手法は,テキスト音声変換,音声変換,L2-to-L1アクセント変換,アクセント付き音声をシミュレートする新しい制御可能なL1-to-L2アクセント変換フレームワークなど,ニューラル生成技術の組み合わせを利用する。
ATCO2コーパス上でのWhisperモデルによる実験により,合成データのみを用いた微調整,あるいは実データと実データの組み合わせによる微調整により,単語誤り率をアウト・オブ・ザ・ボックスと実データのみのベースラインよりも大幅に向上することを示した。
関連論文リスト
- ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis [3.1848820580333737]
低リソースなパーソナライズされた音声合成のためのデータ拡張源としてゼロショット音声合成(ZS-TTS)を用いることを検討した。
実音声と合成音声を区別するシンプルなドメイン条件学習フレームワークZesTAを提案する。
論文 参考訳(メタデータ) (2026-03-04T16:04:02Z) - Stuttering-Aware Automatic Speech Recognition for Indonesian Language [0.04666493857924358]
本稿では,繰り返しや長文を流布テキストに注入することにより,音声を合成するデータ拡張フレームワークを提案する。
本稿では,この合成データを用いて,移動学習を用いたインドネシアのWhisperモデルの微調整を行う。
実験により,このターゲット合成露光は,流速セグメントの性能を維持しながら,破れた音声の認識誤差を一定に低減することを示した。
論文 参考訳(メタデータ) (2026-01-07T09:21:12Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition [23.9811164130045]
本稿では,頑健な音声認識訓練のためのチャネル認識データシミュレーション手法を提案する。
提案手法は,チャネル抽出技術とGANの相乗効果を利用する。
台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスについて, 相対的文字誤り率 (CER) を 20.02% と 9.64% の減少率で評価した。
論文 参考訳(メタデータ) (2024-09-19T01:02:31Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。