論文の概要: Modular Diffusion Models for Structured Visual Recognition
- arxiv url: http://arxiv.org/abs/2606.22702v1
- Date: Sun, 21 Jun 2026 22:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 07:25:41.740129
- Title: Modular Diffusion Models for Structured Visual Recognition
- Title(参考訳): 構造的視覚認識のためのモジュラ拡散モデル
- Authors: Siddhesh Khandelwal, Björn Ommer, Leonid Sigal,
- Abstract要約: 与えられた入力画像に対する構造化出力の分布を学習する,シンプルで斬新なフレームワークであるModular Diffusion Models (MDMs)を提案する。
MDMは拡散過程を異なるタスク固有のモジュールに分解し、それぞれが構造化情報空間の異なる側面を捉えることに重点を置いている。
このモジュール設計により、各コンポーネントは独立して学習でき、追加のトレーニングなしで推論時にシームレスに統合できる。
- 参考スコア(独自算出の注目度): 52.38687800325397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional supervised methods for structured visual recognition tasks -- such as object detection, segmentation, and scene graph generation -- often produce deterministic, fixed outputs, limiting their ability to capture the inherent uncertainty in complex visual scenes. As a consequence, such point estimates are unable to capture the prediction uncertainty (or multi modality) intrinsic to these problems, often arising from natural ambiguities (e.g., ambiguity in size of partially occluded objects, local ambiguity of exact segmentation boundary, etc.) as well as noise and sparsity of training data. To address this limitation, we present Modular Diffusion Models (MDMs), a simple and novel framework that learns a distribution over structured outputs for a given input image. MDMs decompose the diffusion process into distinct, task-specific modules, each focused on capturing a different aspect of the structured information space, such as object categories, spatial locations, and inter-object relationships. This modular design allows each component to be learned independently, with seamless integration at inference without additional training. Furthermore, the modularity of MDMs enables the diffusion process to easily operate over the heterogeneous output space common in many structured learning tasks (e.g., a continuous bounding boxes and discrete class labels). Experimental results over three distinct structured tasks -- object detection, instance segmentation, and scene graph generation -- highlight the benefits of our proposed framework.
- Abstract(参考訳): オブジェクト検出、セグメンテーション、シーングラフ生成など、構造化された視覚認識タスクのための従来の教師付きメソッドは、しばしば決定論的で固定された出力を生成し、複雑な視覚シーンで固有の不確実性をキャプチャする能力を制限する。
その結果、そのような点推定はこれらの問題に固有の予測の不確実性(あるいは多様性)を捉えることができず、しばしば自然の曖昧さ(例えば、部分的に隠蔽された物体の大きさの曖昧さ、正確なセグメンテーション境界の局所的曖昧さなど)から生じる。
この制限に対処するために、与えられた入力画像の構造化出力の分布を学習する、単純で斬新なフレームワークであるModular Diffusion Models (MDMs)を提案する。
MDMは拡散過程を異なるタスク固有のモジュールに分解し、それぞれが対象カテゴリ、空間的位置、オブジェクト間の関係など、構造化情報空間の異なる側面を捉えることに重点を置いている。
このモジュール設計により、各コンポーネントは独立して学習でき、追加のトレーニングなしで推論時にシームレスに統合できる。
さらに、MDMのモジュラリティにより、拡散プロセスは、多くの構造化学習タスク(連続的有界ボックスや離散クラスラベルなど)で共通する不均一な出力空間上で容易に操作できる。
オブジェクト検出、インスタンスセグメンテーション、シーングラフ生成という3つの異なる構造化されたタスクに対する実験結果は、提案したフレームワークの利点を浮き彫りにする。
関連論文リスト
- Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。
このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。
本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文 参考訳(メタデータ) (2025-06-10T16:25:15Z) - Quantifying the Limits of Segmentation Foundation Models: Modeling Challenges in Segmenting Tree-Like and Low-Contrast Objects [13.311084447321234]
本研究は,対象樹状度とテクスチュラルセパビリティを定量化するための解釈可能な指標を提案する。
慎重に制御された合成実験と実世界のデータセットにおいて、SFMの性能はこれらの要因と顕著に相関していることを示す。
モデルでは局所構造をグローバルなテクスチャと誤解釈し、過剰なセグメンテーションや類似した背景からのオブジェクトの識別が困難になる。
論文 参考訳(メタデータ) (2024-12-05T15:25:51Z) - Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - CellSegmenter: unsupervised representation learning and instance
segmentation of modular images [0.0]
本稿では,教師なし表現学習とインスタンスセグメンテーションタスクのための構造化された深層生成モデルとアモータイズ推論フレームワークを提案する。
提案した推論アルゴリズムは、再帰的なメカニズムなしで畳み込み並列化されている。
細胞核イメージングデータセットで得られたセグメンテーション結果を示し,高品質なセグメンテーションを実現するための手法の有効性を示した。
論文 参考訳(メタデータ) (2020-11-25T02:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。