論文の概要: LoCC: Detection and Localization of Lip-Syncing Deepfakes via Counterfactual Frame Consistency
- arxiv url: http://arxiv.org/abs/2606.22772v1
- Date: Mon, 22 Jun 2026 02:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:48:16.55612
- Title: LoCC: Detection and Localization of Lip-Syncing Deepfakes via Counterfactual Frame Consistency
- Title(参考訳): LoCC:反ファクトフレーム一貫性によるリップシンクディープフェイクの検出と位置決定
- Authors: Soumyya Kanti Datta, Shan Jia, Siwei Lyu,
- Abstract要約: リップシンクのディープフェイクは、その人工物が口領域にのみ局在しているため、操作されたメディアの最も困難な形態の1つである。
セグメントレベルとフレームレベルの両方でリップ同期ディープフェイクの微細な検出と局所化を行う新しい検出フレームワークであるLoCCを提案する。
- 参考スコア(独自算出の注目度): 28.817029705247155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-syncing deepfakes are among the most challenging forms of manipulated media because their artifacts are localized almost exclusively to the mouth region and evolve dynamically over time. Detecting such deepfakes requires precise temporal and spatial modeling of lip motion. In this paper, we propose LoCC, a novel detection framework that performs fine-grained detection and localization of lip-syncing deepfakes at both segment and frame levels. Unlike prior approaches that analyze videos holistically, our method evaluates whether each frame aligns with a counterfactual estimate generated from its temporal neighbors. Real videos exhibit strong and stable consistency, whereas lip-sync deepfakes introduce localized inconsistencies. Following a teacher-student learning paradigm, our model effectively captures these frame-level discrepancies and achieves superior performance over state-of-the-art methods on multiple benchmark lip-syncing deepfake datasets, including LAV-DF, AVDF1M, FakeAVCeleb, and KODF, and generalizes well across compression levels and datasets.
- Abstract(参考訳): リップシンクのディープフェイクは、その人工物が口領域にのみ局在し、時間とともに動的に進化するため、操作されたメディアの最も困難な形態である。
このようなディープフェイクを検出するには、唇の動きを正確に時間的・空間的にモデル化する必要がある。
本稿では,リップシンクディープフェイクの細粒度検出と局所化をセグメントレベルとフレームレベルで行う新しい検出フレームワークであるLoCCを提案する。
動画を全体分析する従来の手法とは違って,本手法では,各フレームが時間的近傍から生成された実測値と一致しているかどうかを評価する。
リアルビデオは強い一貫性と安定した一貫性を示すが、リップシンクのディープフェイクは局所的不整合をもたらす。
教師の学習パラダイムに従って,本モデルはこれらのフレームレベルの不一致を効果的に捉え,LAV-DF,AVDF1M,FakeAVCeleb,KODFを含む複数のベンチマークリップ同期ディープフェイクデータセット上での最先端の手法よりも優れた性能を実現し,圧縮レベルやデータセットをまたいだ一般化を実現している。
関連論文リスト
- Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。
マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。
我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文 参考訳(メタデータ) (2025-11-11T09:33:39Z) - Detecting Lip-Syncing Deepfakes: Vision Temporal Transformer for Analyzing Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイクは、検出するのが最も難しいディープフェイクの1つだ。
本稿では,リップシンクディープフェイクを検出する新しいフレームワークLIPINC-V2を提案する。
本モデルでは,口の動きの短期的・長期的変化を捉えることができる。
論文 参考訳(メタデータ) (2025-04-02T08:24:06Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - Exposing Lip-syncing Deepfakes from Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
本稿では,口内持続性(LIPINC)に基づくリップシンクディープフェイク検出のための新しいLIP同期検出法について述べる。
論文 参考訳(メタデータ) (2024-01-18T16:35:37Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。