Fugu-MT 論文翻訳(概要): Detecting Temporally Localized Manipulations in Authentic Video Streams

論文の概要: Detecting Temporally Localized Manipulations in Authentic Video Streams

arxiv url: http://arxiv.org/abs/2606.07090v1
Date: Fri, 05 Jun 2026 09:35:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.673248
Title: Detecting Temporally Localized Manipulations in Authentic Video Streams
Title（参考訳）: 認証ビデオストリームにおける一時的局所的操作の検出
Authors: Okan Umur, Ali Emre Güşlü, Ibrahim Delibasoglu,
Abstract要約: ビデオ編集と生成人工知能技術は、現実的なビデオ操作をますますアクセスしやすくしている。既存のデータセットは、短い操作されたセグメントを実際のビデオに挿入するシナリオを適切にモデル化しない。我々は,短時間かつリアルに操作された間隔を含む実写ビデオに特化して設計された新しいデータセットを作成する。
参考スコア（独自算出の注目度）: 1.9116784879310027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of video editing and generative artificial intelligence technologies has made realistic video manipulation increasingly accessible. Although existing datasets have significantly advanced research in deepfake detection, object removal, and video inpainting, they do not adequately model scenarios in which a short manipulated segment is inserted into an otherwise authentic video and the original video continues afterward. In this study, we review representative datasets from the literature, analyze their characteristics, and discuss their limitations with respect to temporally localized realistic manipulation detection. Based on this analysis, we motivate the need for a new dataset specifically designed for authentic videos containing short and highly realistic manipulated intervals. Finally, we evaluate two complementary approaches on our custom-curated test set to establish an initial benchmark for this challenging scenario. The first employs a linear probe on DINOv3 features, assessed under three thresholding strategies. The second leverages DINOv3 features with a consecutive frame similarity-based method to detect temporal manipulation boundaries. Together, these experiments provide an initial benchmark for partially manipulated video detection and highlight the need for content-adaptive thresholding mechanisms. The dataset, code, and supplementary materials are publicly available at https://github.com/OkanUmur/temporally-localized-video-manipulation-detection.
Abstract（参考訳）: ビデオ編集と生成人工知能技術の急速な進歩により、現実的なビデオ操作がますますアクセスしやすくなっている。既存のデータセットは、ディープフェイクの検出、オブジェクトの除去、およびビデオのインペインティングにおいてかなり高度な研究がなされているが、短い操作されたセグメントを実際のビデオに挿入し、元のビデオが後続するシナリオを適切にモデル化していない。本研究では,文献からの代表的データセットをレビューし,その特徴を分析し,時間的局所的なリアルな操作検出に関してその限界について議論する。この分析に基づいて,短時間かつリアルに操作された間隔を含む実写ビデオに特化して設計された新しいデータセットの必要性を動機づける。最後に、この挑戦的なシナリオの初期ベンチマークを確立するために、カスタムキュレートされたテストセットに対する2つの補完的なアプローチを評価します。 1つ目はDINOv3の特徴を3つのしきい値で評価する線形プローブである。 2つ目は、時間的操作境界を検出するために連続的なフレーム類似性に基づくDINOv3機能を利用する。これらの実験は、部分的に操作されたビデオ検出のための初期ベンチマークを提供し、コンテンツ適応型しきい値設定機構の必要性を強調している。データセット、コード、補足資料はhttps://github.com/OkanUmur/temporally localized-video-manipulation-detectionで公開されている。

関連論文リスト

Explainable Forensics of Manipulated Segments in Untrimmed Long Videos [50.190474724159465]
時間的AI生成セグメンテーションの局所化と説明のタスクを定式化する。多様な操作パターンと豊富なアノテーション信号を備えた12,472の未トリミングビデオからなる大規模ベンチマークであるTASLEを紹介する。そこで本稿では,MLLMに基づく精密な境界ローカライゼーションと解釈可能な推論のためのリファインメントモジュールと,効率的な長ビデオスキャンのためのバウンダリ感性提案生成モジュールを組み合わせた,粗大な法医学ベースラインであるMSLocを提案する。
論文参考訳（メタデータ） (2026-06-01T15:48:38Z)
Preserving Forgery Artifacts: AI-Generated Video Detection at Native Scale [36.51885181895111]
包括的データセットと新しい検出フレームワークを導入する。まず、最先端の15のオープンソースおよび商用ジェネレータから140Kビデオの大規模なデータセットをキュレートする。本稿では,Qwen-VL Vision Transformer上に構築された新しい検出フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-06T12:36:08Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Real-Time Anomaly Detection in Video Streams [0.0]
この論文は、Othello社とIASD研究所との間のCIFRE協定の一部である。目的は、ビデオストリーム内のリアルタイムな危険を検出する人工知能システムを開発することである。
論文参考訳（メタデータ） (2024-11-29T14:24:33Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。 AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Spatio-temporal Features for Generalized Detection of Deepfake Videos [12.453288832098314]
我々は3D CNNによってモデル化された時間的特徴を提案し、新しい種類のディープビデオを検出する能力を拡張した。提案手法は,一般化能力において既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-10-22T16:28:50Z)
Dynamic texture analysis for detecting fake faces in video sequences [6.1356022122903235]
本研究では,映像信号のテクスチャ・時間的ダイナミクスの解析について検討する。目標は、実際の偽のシーケンスを識別し、識別することである。時間セグメントの連成解析に基づいて複数の二分決定を構築することを提案する。
論文参考訳（メタデータ） (2020-07-30T07:21:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。