論文の概要: Addressing Detail Bottlenecks in Latent Diffusion for RGB-to-SWIR Image Translation
- arxiv url: http://arxiv.org/abs/2606.19961v1
- Date: Thu, 18 Jun 2026 08:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.751143
- Title: Addressing Detail Bottlenecks in Latent Diffusion for RGB-to-SWIR Image Translation
- Title(参考訳): RGB-SWIR画像変換における潜伏拡散における詳細ボツネックの対応
- Authors: Kaili Wang, Martin Dimitrievski, Jose Maria Salvador, Ben Stoffelen, David Van Hamme, Lore Goetschalckx,
- Abstract要約: 遅延拡散モデル(LDMs)は、画像から画像への効率的な変換を可能にするが、圧縮中に詳細を破棄する。
そこで我々は,情報を失うオートエンコーダと条件付け経路の2つのボトルネックを同定した。
スイッチ接続によりデコーダに高解像度のソース機能を注入するSCAE(Source-Conditioned Autoencoder)と,ナイーブダウンサンプリングを学習条件信号に置き換えるLearningable Guidance(LGE)の2つの軽量なバックボーン非依存修正を提案する。
- 参考スコア(独自算出の注目度): 3.8750462550584044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Latent diffusion models (LDMs) enable efficient image-to-image translation but discard fine spatial details during compression, degrading downstream perception tasks. We identify two bottlenecks: the autoencoder, which loses spatial information, and the conditioning pathway, which further degrades the source signal through naive downsampling. We propose two lightweight, backbone-agnostic fixes: a Source-Conditioned Autoencoder (SCAE) that injects high-resolution source features into the decoder via skip connections, and a Learnable Guidance Encoder (LGE) that replaces naive downsampling with a learned conditioning signal. Evaluated on RGB-to-SWIR translation for driving scenes with two denoiser backbones (U-Net and DiT), our approach improves detection mAP by up to 2x over the latent diffusion baseline, with up to 3.4x gains on small objects (COCO-small, <32^2 px^2), while achieving state-of-the-art FID. We further show that FID and detection performance are poorly correlated, motivating multi-axis evaluation. Results generalise zero-shot to the public RASMD benchmark. We will publicly release test data with annotations, all checkpoints, and training code.
- Abstract(参考訳): 遅延拡散モデル(LDMs)は、画像から画像への効率的な翻訳を可能にするが、圧縮中に細かな空間的詳細を破棄し、下流の知覚タスクを劣化させる。
空間情報を失うオートエンコーダと条件付け経路の2つのボトルネックを同定する。
スイッチ接続によりデコーダに高解像度のソース機能を注入するSCAE(Source-Conditioned Autoencoder)と,ナイーブダウンサンプリングを学習条件信号に置き換えるLearningable Guidance Encoder(LGE)の2つの軽量なバックボーン非依存修正を提案する。
U-NetとDiTの2つの背骨を持つシーンを駆動するためのRGB-to-SWIR翻訳を評価したところ,本手法は潜伏拡散ベースラインの最大2倍,小物体(COCO-small, <32^2 px^2)では最大3.4倍,最先端FIDでは最大3.4倍の精度で検出できることがわかった。
さらに、FIDと検出性能は相関が低く、多軸評価を動機付けていることを示す。
結果は、ゼロショットをパブリックRASMDベンチマークに一般化する。
アノテーション、すべてのチェックポイント、トレーニングコードを備えたテストデータを公開します。
関連論文リスト
- DCCS-Det: Directional Context and Cross-Scale-Aware Detector for Infrared Small Target [4.318503966844226]
赤外線小目標検出(IRSTD)は、リモートセンシングや監視などのアプリケーションにおいて重要である。
本稿では,DSEブロックとLatent-aware Semantic extract and Aggregation (LaSEA)モジュールを組み込んだ新しい検出器DCCS-Detを提案する。
実験により、DCCS-Detは複数のデータセットをまたいだ競合効率で最先端の検出精度を達成することが示された。
論文 参考訳(メタデータ) (2026-01-23T03:53:59Z) - Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D
Object Detection [46.041193889845474]
レイデノジング(Ray Denoising)は、カメラ線に沿って戦略的にサンプリングすることで検出精度を高める革新的な手法である。
Ray Denoisingはプラグイン・アンド・プレイモジュールとして設計されており、DETR方式のマルチビュー3D検出器と互換性がある。
NuScenesデータセット上の最先端のStreamPETR法よりも平均精度(mAP)が1.9%向上した。
論文 参考訳(メタデータ) (2024-02-06T02:17:44Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - TRACER: Extreme Attention Guided Salient Object Tracing Network [3.2434811678562676]
本稿では,注意誘導型トレーシングモジュールを組み込んで,鮮明なエッジで有意な物体を検出するTRACERを提案する。
13の既存手法との比較により、TRACERは5つのベンチマークデータセットで最先端のパフォーマンスを達成することが明らかになった。
論文 参考訳(メタデータ) (2021-12-14T13:20:07Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - LR-CNN: Local-aware Region CNN for Vehicle Detection in Aerial Imagery [43.91170581467171]
最先端の物体検出手法は、大規模な空中画像において、任意の向きの密集した小さなターゲットを検出するのに困難である。
本稿では,航空画像における車両検出のための新しい2段階アプローチとして,地域認識型地域畳み込みニューラルネットワーク(LR-CNN)を提案する。
論文 参考訳(メタデータ) (2020-05-28T19:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。