論文の概要: Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video Detection
- arxiv url: http://arxiv.org/abs/2606.16742v1
- Date: Mon, 15 Jun 2026 14:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.5972
- Title: Revealing Artifacts via Noise Amplification: A Novel Perspective for AI-Generated Video Detection
- Title(参考訳): ノイズ増幅によるアーチファクトの探索:AI生成ビデオ検出の新しい視点
- Authors: Renxi Cheng, Jie Gui, Hongsong Wang,
- Abstract要約: AI生成ビデオを検出するために、ノイズ増幅と呼ばれる新しい手法が提案されている。
ノイズ増幅は, 画素レベルの強度向上, 領域レベルの空間増幅, フレームレベルの時間アグリゲーションの3つの側面を組み込むことによって構成される。
実験の結果,我々の単純なアプローチは最先端の手法を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 25.492080916045012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of video generation models, distinguishing between AI-generated and authentic videos has emerged as a challenging endeavor. The majority of existing research endeavors concentrate on the development of detectors for identifying samples generated by generative adversarial networks. Nevertheless, the detection of AI-generated videos, particularly those produced by text-to-video models, still remains an uncharted territory. Although state-of-the-art text-to-video models can generate realistic visual content similar to real videos, they fall short of generating the details of the images and the changes in details within the videos. Inspired by this, we address AI-generated video detection from a novel perspective of bit-planes, which can effectively describe the details or noises in images or videos. To this end, we propose a simple yet effective approach called Noise Amplification. This approach first extracts noise signals based on bit-planes, then amplifies these noise signals, and finally feeds them into the discriminator networks for video fake classification. Noise amplification is comprehensively constructed by incorporating three aspects: pixel-level intensity enhancement, region-level spatial amplification, and frame-level temporal aggregation. To evaluate methods of AI-generated video detection in challenging scenarios, we also introduce a benchmark named HardGVD. Extensive experiments on both the large-scale dataset GenVidBench and HardGVD show that our simple approach significantly outperforms state-of-the-art methods.
- Abstract(参考訳): ビデオ生成モデルの急速な進歩により、AI生成と認証ビデオの区別が困難な取り組みとして現れている。
既存の研究成果の大半は、生成的敵ネットワークによって生成されたサンプルを識別する検出器の開発に集中している。
それでも、AIが生成したビデオ、特にテキスト・トゥ・ビデオ・モデルによるビデオの検出は、いまだ未知の領域である。
最先端のテキスト・トゥ・ビデオモデルでは、実際のビデオと同様のリアルなビジュアルコンテンツを生成できるが、画像の詳細やビデオ内の詳細の変更を生成できない。
これに触発された我々は、画像やビデオの細部やノイズを効果的に記述できる、ビットプレーンの新たな視点からAI生成ビデオ検出に対処する。
そこで本研究では,ノイズ増幅方式を提案する。
このアプローチはまずビットプレーンに基づいてノイズ信号を抽出し、次にこれらのノイズ信号を増幅し、最後にビデオフェイク分類のために識別器ネットワークに供給する。
ノイズ増幅は, 画素レベルの強度向上, 領域レベルの空間増幅, フレームレベルの時間的アグリゲーションの3つの側面を組み込むことで, 包括的に構成される。
難易度シナリオにおけるAI生成ビデオ検出の手法を評価するため,HardGVDというベンチマークも導入した。
大規模データセットGenVidBenchとHardGVDの大規模な実験は、我々の単純なアプローチが最先端の手法を大幅に上回っていることを示している。
関連論文リスト
- Video as Natural Augmentation: Towards Unified AI-Generated Image and Video Detection [17.82437958396922]
我々は、ビデオから抽出したフレームに適用すると、SOTA AI生成画像検出器がしばしば崩壊することを示した。
これらの知見に触発されて、画像と映像データを共同でトレーニングする統合AIGC検出フレームワークVINAを提案する。
論文 参考訳(メタデータ) (2026-05-21T04:11:32Z) - DBINDS - Can Initial Noise from Diffusion Model Inversion Help Reveal AI-Generated Videos? [3.94169897749583]
本稿では,拡散モデルインバージョンに基づく検出器DBINDSを提案する。
拡散インバージョンにより復元された初期ノイズシーケンスは,実ビデオと生成ビデオとで系統的に異なることがわかった。
特徴最適化とベイズ探索によって調整されたLightGBMにより、DBINDSはGenVidBench上で強力なクロスジェネレータ性能を実現する。
論文 参考訳(メタデータ) (2025-11-12T10:26:33Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Revealing the Implicit Noise-based Imprint of Generative Models [71.94916898756684]
本稿では,検出タスクにノイズに基づくモデル固有インプリントを利用する新しいフレームワークを提案する。
様々な生成モデルからのインプリントを集約することにより、将来のモデルのインプリントを外挿してトレーニングデータを拡張することができる。
提案手法は,GenImage,Synthbuster,Chameleonの3つの公開ベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-12T12:04:53Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Unsupervised Coordinate-Based Video Denoising [2.867801048665443]
我々は、データ不足の問題を緩和するのに役立つ、新しい教師なしのディープラーニングアプローチを導入します。
提案手法は,特徴マップを生成する特徴生成器,復号化参照フレームを生成するデノワーズネット,高周波詳細を再導入するRefine-Netの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-07-01T00:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。