論文の概要: Toward 360-Degree Indoor Panorama Editing via Tuning-Free Diffusion Model with Refocusing Cross-Attention
- arxiv url: http://arxiv.org/abs/2606.14035v1
- Date: Fri, 12 Jun 2026 02:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.714135
- Title: Toward 360-Degree Indoor Panorama Editing via Tuning-Free Diffusion Model with Refocusing Cross-Attention
- Title(参考訳): クロスアテンションを考慮した調整自由拡散モデルによる360度室内パノラマ編集に向けて
- Authors: Dinh-Khoi Vo, Nhut-Thanh Le-Hinh, Viet-Tham Huynh, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: FocusDiffは、クロスアテンションの再焦点に基づく、正確で領域固有の画像操作のためのチューニング不要のフレームワークである。
FocusDiffを360度屋内パノラマ編集に拡張し、バーチャルリアリティ環境での有効性を実証する。
- 参考スコア(独自算出の注目度): 17.520899840491527
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot text-guided diffusion has significantly advanced image editing; however, its practical usability remains constrained by three persistent challenges: prompt brittleness that requires meticulous prompt engineering, spillover edits that unintentionally affect non-target regions, and failures on small or cluttered objects caused by limited fine-grained supervision in training data. We propose FocusDiff (Target-Aware Refocusing for Tuning-Free Diffusion Editing), a tuning-free framework for precise and region-specific image manipulation based on refocusing cross-attention. Given a target region obtained through automated segmentation or manual selection, FocusDiff applies selective blurring to non-edit areas to guide attention toward the masked region while accurately transferring the object's identity, structure, and appearance to the edited output. Integrated context-preserving modules further ensure background fidelity and global coherence, enabling accurate edits from simple text prompts in a single pass. We also extend FocusDiff to 360-degree indoor panorama editing and demonstrate its effectiveness within virtual reality environments. Extensive experiments on our localized editing benchmark LIMB, comprising 30 multi-object images and 100 annotated examples including challenging small-object cases, show that FocusDiff outperforms existing zero-shot editors in text-image alignment and background preservation, achieving superior precision, photorealism, and usability. The project page is available at https://vdkhoi20.github.io/FocusDiff.
- Abstract(参考訳): ゼロショットテキスト誘導拡散は画像編集を著しく進歩させたが、その実用性は、3つの永続的な課題によって制限されている。
クロスアテンションの再フォーカスに基づく高精度かつ領域固有の画像操作のためのチューニング不要なフレームワークであるFocusDiff (Target-Aware Refocusing for Tuning-Free Diffusion Editing)を提案する。
自動セグメンテーションや手動選択によって得られる対象領域が与えられた場合、FocusDiffは、被写体の位置、構造、外観を正確に編集された出力に転送しながら、被写体領域への注意を誘導するために、非編集領域に選択的にぼかしを施す。
統合されたコンテキスト保存モジュールは、背景の忠実さとグローバルコヒーレンスをさらに保証し、単一のパスで単純なテキストプロンプトから正確な編集を可能にする。
また、FocusDiffを360度屋内パノラマ編集に拡張し、バーチャルリアリティ環境での有効性を実証する。
テキスト画像のアライメントや背景保存において,FocusDiffは既存のゼロショットエディタよりも優れ,精度,フォトリアリズム,ユーザビリティに優れていた。
プロジェクトのページはhttps://vdkhoi20.github.io/FocusDiff.comで公開されている。
関連論文リスト
- Fine-grained Defocus Blur Control for Generative Image Models [66.30016220484394]
現在のテキストと画像の拡散モデルは、多様な高品質な画像を生成するのに優れている。
本稿では,カメラメタデータを活用した新しいテキスト・画像拡散フレームワークを提案する。
我々のモデルは、描写されたシーンを変更することなく、より優れたきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2025-10-07T17:59:15Z) - CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。
我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。
また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文 参考訳(メタデータ) (2025-06-23T09:19:38Z) - IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。
我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。
我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文 参考訳(メタデータ) (2025-05-13T18:24:15Z) - Addressing Text Embedding Leakage in Diffusion-based Image Editing [33.1686050396517]
本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。