論文の概要: Unified Safe In-context Image Generation in Multimodal Diffusion Transformers via Restricting Unsafe Information Flows
- arxiv url: http://arxiv.org/abs/2606.06875v1
- Date: Fri, 05 Jun 2026 03:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.549896
- Title: Unified Safe In-context Image Generation in Multimodal Diffusion Transformers via Restricting Unsafe Information Flows
- Title(参考訳): 非安全情報流の制限によるマルチモーダル拡散変圧器の統一型インコンテクスト画像生成
- Authors: Xiang Yang, Feifei Li, Mi Zhang, Geng Hong, Xiaoyu You, Mi Wen, Min Yang,
- Abstract要約: Unified Visual Safety Regulator (UVR)は、トレーニング不要の安全生成フレームワークで、生成した画像の安全でないセマンティクスを規制する。
UVRは、統一された注意調整と有害な情報の流れの明示的な制限を通じて、安全でない生成を緩和する。
UVRは画像合成および編集作業において91%と77%の消去率を達成することにより、最先端の安全性能を達成する。
- 参考スコア(独自算出の注目度): 20.386952794426833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion transformers (DiTs) equipped with multimodal attention (MM-Attn) have become a dominant paradigm for image generation. However, preventing the generation of harmful content remains a critical challenge, particularly in image-to-image (I2I) editing tasks. Existing safety mechanisms are primarily designed for text-to-image (T2I) synthesis or U-Net-based architectures, which limits their effectiveness for unified safety mitigation in DiT-based frameworks. To bridge this gap, we propose Unified Visual Safety Regulator (UVR), a training-free safe generation framework that regulates unsafe semantics in generated images. UVR is grounded in an analysis of attention dynamics from the perspective of information flow in MM-Attn. We identify a task-independent start-up stage, during which unsafe semantics in output patches rapidly emerge and can be accurately localized, followed by task-specific semantic amplification and interference stages, where harmful signals are further propagated and entangled with benign content. Based on these observations, UVR mitigates unsafe generation through unified, targeted attention modulation and explicit restriction of harmful information flow over the identified unsafe output patches. Experiments across various concepts show that UVR achieves state-of-the-art safety performance by achieving 91% and 77% erase rate in image synthesis and editing tasks, while preserving visual quality and fidelity with minimal degradation. Code is available at https://github.com/deng12yx/UVR.
- Abstract(参考訳): マルチモーダルアテンション(MM-Attn)を備えた拡散変換器(DiT)が画像生成の主流となっている。
しかし、特にイメージ・ツー・イメージ(I2I)編集タスクでは、有害なコンテンツの発生を防止することが重要な課題である。
既存の安全メカニズムは、主にテキスト・ツー・イメージ(T2I)合成やU-Netベースのアーキテクチャのために設計されており、DiTベースのフレームワークにおける統一安全対策の有効性を制限している。
このギャップを埋めるために、生成した画像の安全でないセマンティクスを規制するトレーニング不要の安全な生成フレームワークであるUnified Visual Safety Regulator (UVR)を提案する。
UVRは、MM-Attnにおける情報フローの観点からの注意ダイナミクスの分析に基礎を置いている。
出力パッチにおける安全でないセマンティクスが急速に出現し、正確な局所化が可能なタスク非依存のスタートアップステージを特定し、続いてタスク固有のセマンティクス増幅と干渉ステージを行い、有害な信号をさらに伝播し、良質な内容に絡み合わせる。
これらの観測に基づいて、UVRは、統一された注意変調と、特定された安全でない出力パッチ上の有害な情報フローの明示的な制限を通じて、安全でない生成を緩和する。
UVRは画像合成と編集作業において91%と77%の消去率を達成し、視覚的品質と忠実さを最小限の劣化で保ちながら、最先端の安全性能を達成する。
コードはhttps://github.com/deng12yx/UVR.comで入手できる。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation [11.663809872664103]
現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
我々は、より安全でより有用なテキスト・ツー・イメージ・ジェネレーションのためのゼロショットエージェント・フレームワークであるVALORを紹介した。
VALORは、階層化されたプロンプト分析とヒューマンアラインな値推論を統合している。
論文 参考訳(メタデータ) (2025-11-12T09:52:47Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。