論文の概要: Efficient Document Tampering Localization with Multi-Level Discrepancy Features and Unified DCT-Quantization Embedding
- arxiv url: http://arxiv.org/abs/2606.22285v1
- Date: Sun, 21 Jun 2026 00:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 19:24:31.459054
- Title: Efficient Document Tampering Localization with Multi-Level Discrepancy Features and Unified DCT-Quantization Embedding
- Title(参考訳): マルチレベル離散化特徴と統一DCT量子化埋め込みを用いた効率的な文書タンパ
- Authors: Mohamed Dhouib, Ye Zhu, Sonia Vanier, Aymen Shabou,
- Abstract要約: 文書のローカライズは、操作が視覚的に一貫したように見えるため、非常に難しい。
比較的シンプルで効果的なRGB-DCTアーリーフュージョンアーキテクチャである textbfDiffNet を提案する。
提案手法は,クロスドメインおよび人為的文書のローカライゼーションを改ざんし,従来の手法を約30%上回り,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 9.386011004825281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localizing document tampering is extremely challenging, as manipulations are crafted to appear visually consistent and often leave only subtle traces that are nearly invisible to the human eye. In prior work, evaluation has been largely dominated by synthetic benchmarks that closely match the training distribution, and methods have shown steady progress under this setting. However, these gains often translate poorly to human-made forgeries and to cross-domain evaluation, where both the source documents and the tampering pipeline can change, leading to a distribution shift. In addition, since the introduction of the Frequency Perception Head for the discrete cosine transform (DCT) modality, it has become a standard choice, and subsequent work has largely focused on downstream modules and fusion strategies rather than revisiting the backbone itself. To help close this gap in cross-domain performance and improve the DCT backbone design, we propose \textbf{DiffNet}, a relatively simple yet effective RGB--DCT early-fusion architecture driven by two key design choices. First, to ensure that the decoder aggregates multi-scale inconsistency evidence rather than operating on raw, content-heavy activations, we apply a lightweight multi-level discrepancy transformation at the output of each backbone stage, replacing features with magnitude-only responses to learned zero-sum filters. Second, we design an efficient DCT-domain backbone that relies on a lightweight frequency-index-aware DCT--quantization joint embedding. Our approach achieves state-of-the-art performance on cross-domain and human-made document tampering localization, outperforming prior methods by around 30\%, with up to $7\times$ higher throughput than the previous best model.
- Abstract(参考訳): 文書の改ざんは、視覚的に一貫性があり、人間の目にはほとんど見えない微妙な痕跡のみを残すように工夫されているため、非常に難しい。
これまでの研究では、評価は主にトレーニング分布と密接に一致した総合的なベンチマークによって行われており、この設定下では着実に進歩している。
しかし、これらの利益は人造の偽造物や、ソース文書と改ざんパイプラインの両方が変更可能なクロスドメイン評価によく当てはまる。
さらに、離散コサイン変換(DCT)のモダリティに対する周波数知覚ヘッドの導入以来、標準選択となり、その後の研究は、バックボーン自体を再考するのではなく、下流モジュールや融合戦略に重点を置いている。
ドメイン間性能のギャップを埋め、DCTのバックボーン設計を改善するために、比較的シンプルで効果的なRGB--DCTアーリーフュージョンアーキテクチャである \textbf{DiffNet} を提案する。
まず,復号器が生の,内容量の多いアクティベーションではなく,マルチスケールの不整合性の証拠を集約するために,各バックボーンステージの出力に軽量なマルチレベル不整合変換を適用し,学習したゼロサムフィルタに対して,特徴をマグニチュードのみの応答で置き換える。
第二に、軽量な周波数インデクス対応DCT量子化ジョイント埋め込みに依存する効率的なDCTドメインバックボーンを設計する。
提案手法は, クロスドメインおよび人為的文書のローカライズ処理における最先端性能を実現し, 従来の手法よりも約30倍, 最大7倍のスループットを実現している。
関連論文リスト
- Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - Dual Path Attribution: Efficient Attribution for SwiGLU-Transformers through Layer-Wise Target Propagation [5.186807923082922]
本稿では,凍結変圧器上の情報の流れを,一方の前方および一方の後方通過で忠実に追跡する新しいフレームワークであるDual Path Attribution(DPA)を紹介する。
DPAは、既存のベースラインと比較して、最先端の忠実さと前例のない効率を達成する。
論文 参考訳(メタデータ) (2026-03-20T08:28:24Z) - Sculpting the Vector Space: Towards Efficient Multi-Vector Visual Document Retrieval via Prune-then-Merge Framework [39.59931739606983]
Visual Document Retrieval (VDR) は、視覚的にリッチな膨大なコーパス内の関連ページを検索することを目的としている。
プルーニングやマージといった現在の効率性は不完全であり、圧縮率と特徴の忠実さのトレードオフが難しい。
本稿では,これらの相補的アプローチを相補する新しい2段階フレームワークPrune-then-Mergeを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:45:19Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Voxelmorph++ Going beyond the cranial vault with keypoint supervision
and multi-channel instance optimisation [8.88841928746097]
近年のLearn2Regベンチマークでは,単スケールU-Netアーキテクチャーは腹部または患者内肺登録の最先端性能に劣っている。
本稿では、この精度のギャップを大幅に減らすための2つの簡単な手順を提案する。
まず、離散化されたヒートマップを予測する新しいネットワークヘッドを備えたキーポイント・セルフスーパービジョンを用いる。
次に、複数の学習した微調整ステップを、手作りの機能とAdamオプティマイザでひとつのインスタンスに置き換える。
論文 参考訳(メタデータ) (2022-02-28T19:23:29Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。