論文の概要: Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection
- arxiv url: http://arxiv.org/abs/2606.15117v1
- Date: Sat, 13 Jun 2026 05:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.856411
- Title: Teacher-Student Structure for Domain Adaptation in Ensemble Audio-Visual Video Deepfake Detection
- Title(参考訳): アンサンブル映像深度検出における教師学習構造とドメイン適応
- Authors: Elham Abolhasani, Maryam Ramezani, Hamid R. Rabiee,
- Abstract要約: 本稿では、ドメイン適応機構と組み合わせて、一般化されたディープアンサンブル・オーディオ・ヴィジュアルモデル(EAV-DFD)を提案する。
実験の結果,提案手法はドメイン適応に有効であることがわかった。
これは新しいドメインに適応し、どのモダリティが操作されたかを解釈できる新しいディープフェイク検出モデルをもたらす。
- 参考スコア(独自算出の注目度): 6.39593002676344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of generative AI models is leading to more realistic deepfake media, encompassing the manipulation of audio, video, or both. This raises severe privacy and societal concerns. Numerous studies in this area have yielded promising intra-domain results; however, these models frequently exhibit decreased efficacy when faced with data from dissimilar domains. Consequently, recent deepfake detection approaches focus on enhancing the generalization ability through multiple techniques that incorporate all input modalities, including audio, images, and their interactions. In this regard, we propose the EAV-DFD method, a generalized deep ensemble audio-visual model (EAV-DFD) combined with a domain adaptation mechanism utilizing a teacher-student framework to enhance the model's ability to perform and generalize effectively across unseen domains. To evaluate the model's performance, we used the FakeAVCeleb dataset as the primary domain and the DFDC, Deepfake_TIMIT, and PolyGlotFake datasets as an unseen domain. Our experimental results demonstrate that the proposed framework is efficient in domain adaptation, improving AUC performance of the model by 4.09%, 17.94%, and 0.5% on three unseen datasets, using only a small portion of them to train the student model. This leads to a novel deepfake detection model capable of adapting to new domains and interpreting which modality has been manipulated, highlighting the potential of our approach for real-world applications.
- Abstract(参考訳): 生成AIモデルの急速な進歩は、より現実的なディープフェイクメディアをもたらし、オーディオ、ビデオ、あるいはその両方を操作する。
これにより、プライバシーと社会的懸念が高まる。
この領域における多くの研究は、有望なドメイン内結果をもたらすが、異なるドメインのデータに直面すると、効果が低下することが多い。
その結果、近年のディープフェイク検出手法は、音声、画像、およびそれらの相互作用を含む全ての入力モダリティを組み込んだ複数の手法による一般化能力の向上に重点を置いている。
そこで本研究では,教師の学習フレームワークを応用した,一般化されたディープアンサンブル音声視覚モデル(EAV-DFD)とドメイン適応機構を組み合わせたAEV-DFD手法を提案する。
モデルの性能を評価するために、FakeAVCelebデータセットをプライマリドメインとして、DFDC、Deepfake_TIMIT、PolyGlotFakeデータセットを見えないドメインとして使用した。
実験の結果,提案手法はドメイン適応において有効であり,学生モデルの学習にわずかしか用いていない3つの未確認データセットにおいて,モデルのAUC性能を4.09%,17.94%,0.5%向上させることができた。
これにより、新しいドメインに適応し、どのモダリティが操作されているかを解釈できる新しいディープフェイク検出モデルが実現し、実際のアプリケーションに対する我々のアプローチの可能性を強調します。
関連論文リスト
- Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object Detector [0.0]
拡散に基づく生成モデルは、高品質で多様な画像を生成する際、顕著な能力を示している。
我々は、ソースドメイン上の凍結拡散モデルを用いて検出器を訓練し、それを教師モデルとして使用し、ラベルのないターゲットドメイン上で擬似ラベルを生成する。
本手法は6つのデータセットのベースラインと比較して平均mAP改善率21.2%を達成する。
論文 参考訳(メタデータ) (2025-06-04T17:56:46Z) - Object Style Diffusion for Generalized Object Detection in Urban Scene [69.04189353993907]
本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
論文 参考訳(メタデータ) (2024-12-18T13:03:00Z) - Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation [48.039156140237615]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、連続的なテスト時間適応タスクを提案する。
我々はCTTA用のVisual Domain Adapter (ViDA) を設計し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Robust Representation Learning with Self-Distillation for Domain Generalization [2.0817769887373245]
本稿では,ロバスト表現学習(Robust Representation Learning with Self-Distillation)と呼ばれる新しい領域一般化手法を提案する。
3つのデータセットの最先端データに対して、平均精度を1.2%から2.3%に改善する。
論文 参考訳(メタデータ) (2023-02-14T07:39:37Z) - DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2022-11-12T12:14:16Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Domain Generalization for Activity Recognition via Adaptive Feature
Fusion [9.458837222079612]
本稿では,emphAdaptive Feature Fusion for Activity Recognition (AFFAR)を提案する。
AFFARは、モデルの一般化性能を改善するために、ドメイン不変表現とドメイン固有表現を融合することを学ぶ。
AFARを実際の応用、すなわち子どもの注意欠陥性高活動障害(ADHD)の診断に適用する。
論文 参考訳(メタデータ) (2022-07-21T02:14:09Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。