論文の概要: DR-Mamba: Automatic Inference-Time Domain Adaptation for Document Image Binarization via Sample-Conditioned Detail-Background Suppression
- arxiv url: http://arxiv.org/abs/2606.22625v1
- Date: Sun, 21 Jun 2026 18:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:16:47.382102
- Title: DR-Mamba: Automatic Inference-Time Domain Adaptation for Document Image Binarization via Sample-Conditioned Detail-Background Suppression
- Title(参考訳): DR-Mamba:サンプル記述詳細背景抑圧による文書画像二元化のための自動推論時間領域適応
- Authors: Sheng-Wei Chan, Jen-Shiun Chiang,
- Abstract要約: DR-Mambaは、文書画像のバイナライゼーションのためのサンプル条件付き詳細背景抑圧フレームワークである。
1つのフォワードパス内の入力依存ゲートを介して、各入力ドキュメントに適合する。
最もひどく劣化したホールドアウトフォールドに強いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Degraded document image binarization is sensitive to domain shifts caused by paper aging, bleed-through, stains, shadows, and uneven illumination, and the foreground-background separation of recent learning-based methods can become unstable on unseen degradation domains. We propose DR-Mamba, a sample-conditioned detail-background suppression framework that performs automatic inference-time domain adaptation for document image binarization. Unlike test-time adaptation methods that require gradient updates or auxiliary data at inference, DR-Mamba adapts to each input document through input-dependent gates within a single forward pass, requiring no target-domain labels, no fine-tuning, and no test-time parameter updates. Instead of using Mamba-style selective scanning as a single generic feature path, DR-Mamba reinterprets it as fast-slow route modeling: a fast detail route captures local stroke structures, while a slow background route accumulates spatially persistent degradation responses. The two routes are integrated through an input-dependent subtractive gate that explicitly suppresses background interference rather than fusing features by addition or concatenation. We further add full-resolution detail-guided reconstruction and thin-stroke-aware supervision to recover fine strokes lost during downsampling. Evaluated under a leave-one-year-out protocol on DIBCO-style benchmarks, where each held-out year is treated as an unseen degradation domain, DR-Mamba shows that per-document, per-location subtractive suppression improves cross-domain robustness, with particularly strong performance on the most severely degraded held-out fold.
- Abstract(参考訳): 劣化文書画像のバイナライゼーションは, 紙の老朽化, 出血スルー, 汚れ, 影, 不均一照明による領域シフトに敏感であり, 最新の学習手法の背景と背景の分離は, 目に見えない劣化領域で不安定になる可能性がある。
本稿では,文書画像のバイナライゼーションのための自動推論時間領域適応を行う,サンプル条件付き詳細背景抑圧フレームワークDR-Mambaを提案する。
勾配更新や推測時の補助データを必要とするテスト時適応法とは異なり、DR-Mambaは入力依存ゲートを通じて入力文書に適応し、ターゲットドメインラベルを必要とせず、微調整もせず、テスト時パラメータ更新も不要である。
DR-Mambaは、単一の汎用的な特徴パスとしてMambaスタイルの選択的スキャンを使用する代わりに、これを高速スロー経路モデリングとして再解釈する: 高速詳細経路は局所的なストローク構造を捉え、スローバック経路は空間的に持続的な劣化応答を蓄積する。
この2つの経路は入力依存の減算ゲートを介して統合され、追加や連結によって特徴を融合させるのではなく、背景干渉を明示的に抑制する。
さらに,ダウンサンプリング中に失われる微細な脳卒中を回復するために,ディテールガイドによるフルレゾリューションとシンストローク・アウェア・インスペクションを加えている。
DR-Mamba氏は、DIBCOスタイルのベンチマークで、各ホールドアウト年を目に見えない劣化領域として扱う場合の1年間のプロトコルで評価し、ドキュメントごとの、ロケーション毎の減算的抑制が、最も深刻な劣化したホールドアウトフォールドに対して特に強いパフォーマンスで、クロスサイトロバスト性を改善することを示した。
関連論文リスト
- Efficient Document Tampering Localization with Multi-Level Discrepancy Features and Unified DCT-Quantization Embedding [9.386011004825281]
文書のローカライズは、操作が視覚的に一貫したように見えるため、非常に難しい。
比較的シンプルで効果的なRGB-DCTアーリーフュージョンアーキテクチャである textbfDiffNet を提案する。
提案手法は,クロスドメインおよび人為的文書のローカライゼーションを改ざんし,従来の手法を約30%上回り,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-06-21T00:29:59Z) - Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection [53.789057575175065]
領域認識型prompt Augmentation(RAPTA)とAttention-Driven Multimodal Copy Detection(ADMCD)を示す。
RAPTAはオブジェクト検出器を使用して、正常な領域を見つけ、それらを意味論的に接地したプロンプトの変種に変換する。
ADMCDは、ローカルパッチ、グローバルセマンティック、テクスチャキューを軽量トランスフォーマーで集約し、融合表現を生成する。
実験により、RAPTAは高い合成品質を維持しながら過度な適合を減少させ、ADMCDはコピーを確実に検出し、単一モードの指標より優れることが示された。
論文 参考訳(メタデータ) (2026-03-13T15:16:27Z) - Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy [65.15943255667733]
自動深度選択機能付きサブネットワーク画像翻訳ADDA(SIT-ADDA-Auto)について紹介する。
より深い層を凍結しながら、最も初期の畳み込み層のみを適応させることで、信頼できる転送が得られることを示す。
この結果から,マイクロスコープにおけるラベルなし適応の設計規則とフィールド設定のレシピが提供され,コードが公開されている。
論文 参考訳(メタデータ) (2025-11-15T03:01:05Z) - Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。
拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。
LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文 参考訳(メタデータ) (2025-11-11T08:40:28Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。
暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。
目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。