論文の概要: Linguistically Augmented Audio Speech Data (LinguAS)
- arxiv url: http://arxiv.org/abs/2606.10246v1
- Date: Mon, 08 Jun 2026 23:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.227253
- Title: Linguistically Augmented Audio Speech Data (LinguAS)
- Title(参考訳): 言語学的に拡張された音声データ(LinguAS)
- Authors: Ashley R. Keaton, Zahra Khanjani, Christine Mallinson, Vandana P. Janeja,
- Abstract要約: LinguASには、Expert-Defined Linguistic Features (EDLFs)で注釈付けされた800以上のオーディオサンプルが含まれている。
ASVspoof 2021のディープラーニングベースラインを超えて,EDLFを付加したデータに基づいてトレーニングしたモデルでは,モデル性能が大幅に向上していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Maliciously-created fake speech, including deepfaked and spoofed audio, is proliferating at an alarming rate, and detection models are racing to stay ahead of the curve. Yet, most detection models are trained to make inference on frame-level audio features alone without leveraging valuable linguistic cues at larger timescales. To address this gap, we present Linguistically Augmented Audio Speech Data (LinguAS), a dataset of genuine and deepfaked audio samples annotated with five strategically-chosen, Expert-Defined Linguistic Features (EDLFs) that occur frequently in spoken English and are characteristic of natural human speech. LinguAS contains over 800 audio samples, each of which are annotated with EDLFs. The dataset has a balanced number of four spoofed audio attack types and a proportionate number of genuine speech samples. We also include metadata on speaker gender and the generator/source for each spoofed audio sample, offering more granularity for model training. We found that models trained on data augmented with EDLFs had improved model performance significantly beyond the ASVspoof 2021 deep learning baselines and SSL models like HuBert and XLSR. LinguAS's augmented linguistic, gender, and generator metadata provide audio deepfake researchers with a dataset that emphasizes real human language traits to improve model inference of faked speech. Data and code are publicly available.
- Abstract(参考訳): ディープフェイクやスプーフされた音声を含む悪意ある偽のスピーチは、警戒速度で増加しており、検出モデルは曲線より先に留まるように競い合っている。
しかし、ほとんどの検出モデルは、より大きな時間スケールで貴重な言語的手がかりを活用せずに、フレームレベルの音声特徴のみを推測するように訓練されている。
このギャップに対処するために、LinguAS(Lingguistically Augmented Audio Speech Data)を提示する。LinguAS(LinguAS)は、音声英語で頻繁に発生する5つの戦略的な専門言語特徴(EDLF)を付加した、真の音声サンプルと深層音声サンプルのデータセットである。
LinguASには800以上のオーディオサンプルがあり、それぞれがEDLFで注釈付けされている。
データセットには、4つのスプーフされたオーディオアタックタイプと、真の音声サンプルの比率のバランスの取れた数がある。
また、話者性別のメタデータや、各スプーフ音声サンプルのジェネレータ/ソースも含み、モデルトレーニングの粒度をより高めます。
ASVspoof 2021のディープラーニングベースラインやHuBertやXLSRといったSSLモデルよりも、EDLFで強化されたデータに基づいてトレーニングされたモデルでは、モデルパフォーマンスが大幅に向上していることがわかった。
LinguASの強化された言語、性別、ジェネレータメタデータは、偽音声のモデル推論を改善するために実際の人間の言語特性を強調するデータセットをオーディオディープフェイク研究者に提供する。
データとコードは公開されています。
関連論文リスト
- Multilingual Source Tracing of Speech Deepfakes: A First Benchmark [19.578741954970738]
本稿では,多言語音声のディープフェイクソーストレースのための最初のベンチマークを紹介する。
DSPおよびSSLに基づくモデリングを比較検討し、異なる言語で調整されたSSL表現が言語間一般化性能にどのように影響するかを検討する。
この結果から,学習言語と推論言語の違いによる音声生成モデル同定の課題について,総合的な知見が得られた。
論文 参考訳(メタデータ) (2025-08-06T07:11:36Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。