論文の概要: On the Controllability-Fidelity Frontier in Diffusion Editing
- arxiv url: http://arxiv.org/abs/2606.09901v1
- Date: Fri, 05 Jun 2026 13:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.0321
- Title: On the Controllability-Fidelity Frontier in Diffusion Editing
- Title(参考訳): 拡散編集における制御可能性-忠実フロンティアについて
- Authors: Yi Hu, Leying Yi, Emily Davis, Finn Carter,
- Abstract要約: 本研究では,ユーザ意図の遵守,非ターゲットコンテンツ保存,出力品質のトレードオフについて検討する。
私たちの作業は、テキストとマスクによる編集、ポイント/ドラッグ操作、反転ベースのパイプラインにまたがっています。
マスク局所化および命令誘導編集のためのアルゴリズムフレームワーク(擬似コード付き)を提案する。
- 参考スコア(独自算出の注目度): 7.759950850415493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative models enable powerful image editing capabilities, but achieving precise control while maintaining fidelity and safety remains challenging. We present a comprehensive theoretical and empirical study of controllable diffusion-based image editing, analyzing the trade-offs between adherence to user intent, preservation of non-target content, and output quality. Our work spans text- and mask-guided edits, point/drag manipulation, and inversion-based pipelines. We derive mathematical formulations of editing objectives and analyze dynamics of noise injection, score guidance, and inversion error. We provide theoretical bounds on reconstruction error, stability under repeated edits, and locality of changes. We propose algorithmic frameworks (with pseudocode) for mask-localized and instruction-guided editing, and present extensive experiments comparing state-of-the-art methods (e.g.\ TF-ICON \cite{lu2023tficone}, DragFlow \cite{zhou2025dragflow}, InstructPix2Pix \cite{brooks2023instructpix2pix}, UltraEdit \cite{zhao2024ultraedit}) on multiple tasks and metrics (FID, identity similarity, CLIP alignment, artifact scores, etc). Our results reveal key failure modes, such as identity drift, prompt sensitivity, and compositional errors. We also discuss ethical considerations in image editing, including misuse risks, bias, consent, and concept erasure techniques (e.g.\ MACE \cite{lu2024mace}, ANT \cite{li2025ant}, EraseAnything \cite{gao2024eraseanything}) as safeguards. We conclude with best practices and future directions for responsible, high-fidelity diffusion-based editing.
- Abstract(参考訳): 拡散に基づく生成モデルは強力な画像編集機能を実現するが、忠実さと安全性を維持しながら正確な制御を実現することは依然として困難である。
本稿では,ユーザ意図への固執,非ターゲット内容の保存,出力品質のトレードオフを解析し,制御可能な拡散に基づく画像編集に関する包括的な理論的・実証的研究を行う。
私たちの作業は、テキストとマスクによる編集、ポイント/ドラッグ操作、反転ベースのパイプラインにまたがっています。
編集対象の数学的定式化を導出し,ノイズ注入,スコア誘導,逆誤差のダイナミクスを解析する。
再現の誤り, 繰り返し編集による安定性, 変化の局所性について理論的に考察した。
マスク局所化および命令誘導編集のためのアルゴリズムフレームワーク(疑似コード付き)を提案し、複数のタスクとメトリクス(FID、ID類似性、CLIPアライメント、アーティファクトスコアなど)について最先端の手法(例:TF-ICON \cite{lu2023tficone}、DragFlow \cite{zhou2025dragflow}、InstructPix2Pix \cite{brooks2023instructpix2pix}、UltraEdit \cite{zhao2024ultraedit})を比較した広範な実験を行った。
この結果から,アイデンティティドリフト,迅速な感度,構成誤差など,重要な障害モードが明らかになった。
また,誤用リスク,バイアス,同意,概念消去技術 (e g \ MACE \cite{lu2024mace}, ANT \cite{li2025ant}, EraseAnything \cite{gao2024eraseanything}) などの画像編集における倫理的考察についても検討した。
我々は,高忠実度拡散に基づく編集におけるベストプラクティスと今後の方向性を結論づける。
関連論文リスト
- Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking [0.3644540605358075]
拡散ベースの画像編集はノイズを注入し、強力な生成前処理を通じて画像を再構成する。
非対向拡散編集は無意識に劣化したり、頑健な透かしを除去できることを示す。
結果は、定期的なセマンティック編集でさえ、透かしの復元可能性を大幅に低下させることを示している。
論文 参考訳(メタデータ) (2026-03-13T12:46:27Z) - The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy [71.39358554558667]
我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。
本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。
位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
論文 参考訳(メタデータ) (2025-12-16T14:08:00Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Immunizing Images from Text to Image Editing via Adversarial Cross-Attention [17.498230426195114]
本稿では,編集手法の視覚的構成要素を標的とした新たな攻撃を提案する。
本稿では,テキストプロンプトと画像の視覚的表現との交差注意を妨害するアテンションアタックを紹介する。
TEDBench++ベンチマークで行った実験では、我々の攻撃は認識不能なまま編集性能を著しく低下させることが示された。
論文 参考訳(メタデータ) (2025-09-12T15:47:50Z) - Flux-Sculptor: Text-Driven Rich-Attribute Portrait Editing through Decomposed Spatial Flow Control [24.057959328107387]
Flux-Sculptorは、正確なテキスト駆動のポートレート編集のために設計されたフラックスベースのフレームワークである。
本フレームワークでは,関連する編集領域を正確に識別するための空間ロケータ(PASL)を導入している。
実験により、Flux-Sculptorは、リッチ属性編集や顔情報保存において既存の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-07-05T10:08:39Z) - Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。
本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。
我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文 参考訳(メタデータ) (2025-04-03T17:59:58Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。