論文の概要: Ethical and Technical Limits of Deepfake Speech Datasets
- arxiv url: http://arxiv.org/abs/2606.10911v1
- Date: Tue, 09 Jun 2026 14:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.546098
- Title: Ethical and Technical Limits of Deepfake Speech Datasets
- Title(参考訳): ディープフェイク音声データセットの倫理的・技術的限界
- Authors: Vojtěch Staněk, Eva Trnovská, Kamil Malinka, Anton Firc,
- Abstract要約: 本稿では,ディープフェイク音声景観のデータセットレベル監査について述べる。
アクセシビリティ、ドキュメンテーション、人口統計および言語カバレッジ、データセットスケール、基礎となるボナフッド音声ソースなど、重要な属性について検討する。
- 参考スコア(独自算出の注目度): 0.18665975431697432
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Claims about the robustness and fairness of deepfake speech detectors are only as credible as the datasets used to train and evaluate those systems. We present a dataset-level audit of the deepfake speech landscape. We compile and analyze 39 deepfake speech datasets, examining key attributes including accessibility, documentation, demographic and language coverage, dataset scale, and the underlying bona fide speech sources. Our audit reveals two important takeaways. Firstly, fairness assessment is largely infeasible because most datasets lack demographic metadata, and only a few contain gender or language labels. This prevents any meaningful subgroup analysis and leaves other demographic attributes unaddressed. Secondly, we identify substantial overlap in underlying bona fide source corpora across datasets, which can undermine cross-dataset evaluation and lead to overstated generalization claims.
- Abstract(参考訳): ディープフェイク音声検出装置の堅牢性と公正性に関する主張は、これらのシステムのトレーニングと評価に使われるデータセットと同じくらい信用できる。
本稿では,ディープフェイク音声景観のデータセットレベル監査について述べる。
39のディープフェイク音声データセットをコンパイル・解析し、アクセシビリティ、ドキュメンテーション、人口統計および言語カバレッジ、データセットスケール、基礎となるボナフェイド音声ソースなどの重要な属性を調査した。
私たちの監査は2つの重要なテイクアウトを明らかにします。
第一に、フェアネスアセスメントは、ほとんどのデータセットは人口統計メタデータを欠いているため、性別や言語ラベルを含むものはほとんどないため、ほぼ不可能である。
これにより、意味のあるサブグループ分析を防ぎ、他の人口統計学的属性をそのまま残すことができる。
第2に、データセット間のボナファイドソースコーパスの相当な重複が、データセット間の評価を損なう可能性があり、過剰な一般化要求につながる可能性がある。
関連論文リスト
- TaigiSpeech: A Low-Resource Real-World Speech Intent Dataset and Preliminary Results with Scalable Data Mining In-the-Wild [102.11425887660327]
音声技術は急速に進歩し、世界中の多様な人口に役立っている。
多くの言語は限られた資源のために表現されていない。
台湾の台義における実世界の発話意図データセットであるtextbfTaigiSpeechを紹介した。
論文 参考訳(メタデータ) (2026-03-23T01:44:45Z) - Context and Transcripts Improve Detection of Deepfake Audios of Public Figures [24.44957433526574]
現在のオーディオディープフェイク検出器は、文脈や書き起こしを考慮せずにオーディオファイルを解析するのみである。
音声深度検出装置の有効性は,十分なコンテキストおよび/または転写書が向上できることが示唆された。
さらに,CADDは,文脈や書き起こしを用いて,5つの敵の回避戦略に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2026-01-19T23:40:05Z) - TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文 参考訳(メタデータ) (2025-08-19T08:31:15Z) - SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2499537119440245]
話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2025-08-11T12:58:37Z) - IndieFake Dataset: A Benchmark Dataset for Audio Deepfake Detection [0.4451479907610763]
Deepfake技術は、AIアシスタント、音声障害のアクセシビリティ向上、エンターテイメントの向上などのメリットを提供する。
また、セキュリティ、プライバシー、およびデジタルコミュニケーションに対する信頼に重大なリスクをもたらす。
既存のデータセットには多様な民族的アクセントがなく、現実世界のシナリオでは不十分である。
この研究はインディーフェイクデータセット(IFD)を導入し、インド語を話す50人の英語話者から27.17時間のボナフィドとディープフェイクのオーディオを収録した。
論文 参考訳(メタデータ) (2025-06-23T18:10:06Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。