論文の概要: ForceForget: Reinforcement Concept Removal for Enhancing Safety in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2606.14351v1
- Date: Fri, 12 Jun 2026 11:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.87283
- Title: ForceForget: Reinforcement Concept Removal for Enhancing Safety in Text-to-Image Models
- Title(参考訳): ForceForget: テキスト・画像モデルにおける安全性向上のための強化概念除去
- Authors: Dong Han, Yong Li,
- Abstract要約: 生成AIの進歩により、テキスト・ツー・イメージ(T2I)モデルは様々なコンテンツを生成する能力を持つ。
本稿では,安全意味解釈におけるモデル能力を維持しながら,安全でないコンテンツを排除することに焦点を当てる。
我々はSafe Adapterを導入し、クロスアテンション層における効率的な概念規制のために部分的なテキスト埋め込みを計画する。
- 参考スコア(独自算出の注目度): 10.644460694822467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of generative AI, the text-to-image (T2I) model has the ability to generate various contents. However, T2I models still can generate unsafe contents. To alleviate this issue, various concept erasing methods are proposed. However, existing methods tend to excessively erase unsafe concepts and suppress benign concepts contained in harmful prompts, which can negatively affect model utility. In this paper, we focus on eliminating unsafe content while maintaining model capability in safe semantic meaning interpretation by optimizing the concept erasing reward (CER) with reinforcement learning. To avoid overly content erasure, we introduce the Safe Adapter to project partial text embedding for efficient concept regulation in cross-attention layers. Extensive experiments conducted on different datasets demonstrate the effectiveness of the proposed method in alleviating unsafe content generation while preserving the high fidelity of benign images compared with existing state-of-the-art (SOTA) concept erasing methods. In terms of robustness, our method outperforms counterparts against red-teaming tools. Moreover, we showcase the proposed approach is more effective in emerging image-to-image (I2I) scenarios compared with others. Lastly, we extend our method to erase general concepts, such as artistic styles and objects. Disclaimer: This paper includes discussions of sexually explicit content that may be offensive to certain readers. All images used in this work are synthesized or from public datasets.
- Abstract(参考訳): 生成AIの進歩により、テキスト・ツー・イメージ(T2I)モデルは様々なコンテンツを生成する能力を持つ。
しかし、T2Iモデルは安全でないコンテンツを生成することができる。
この問題を軽減するため,様々な概念消去手法が提案されている。
しかし、既存の手法では、安全でない概念を過度に消去し、有害なプロンプトに含まれる良心的な概念を抑える傾向があり、これはモデルの有用性に悪影響を及ぼす可能性がある。
本稿では、強化学習による概念消去報酬(CER)の最適化により、安全な意味意味解釈におけるモデル能力を維持しながら、安全でないコンテンツを排除することに焦点を当てる。
コンテンツ消去を過度に回避するため、私たちはSafe Adapterを導入し、クロスアテンション層における効率的な概念規制のために部分的なテキスト埋め込みを投影する。
既存のSOTA(State-of-the-art)概念の消去手法と比較して,良性画像の高忠実性を保ちながら,安全でないコンテンツ生成を緩和するための提案手法の有効性を示す。
堅牢性という点では、我々の手法は赤チームツールよりも優れています。
さらに,提案手法は,他の手法と比較して,新たなイメージ・ツー・イメージ(I2I)のシナリオに有効であることを示す。
最後に,芸術的スタイルや物体などの一般的な概念を消去する手法を拡張した。
Disclaimer: 本論文は、特定の読者に不快な性的な内容に関する議論を含む。
この作業で使用されるすべての画像は、合成されるか、あるいは公開データセットから生成される。
関連論文リスト
- Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration [31.335104022933695]
テキストから画像への生成モデルは、大規模なトレーニングデータセットに埋め込まれた暗黙のバイアスにより、不安全または望ましくないコンテンツを不注意に生成することができる。
本稿では,テキスト画像を用いた協調的消去フレームワークTICoEを提案する。
論文 参考訳(メタデータ) (2026-04-17T08:32:39Z) - VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。
コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。
提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文 参考訳(メタデータ) (2025-09-21T09:00:27Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Growth Inhibitors for Suppressing Inappropriate Image Concepts in Diffusion Models [35.2881940850787]
テキストと画像の拡散モデルは、広範かつ未フィルタリングのトレーニングデータから不適切な概念を不適切な方法で学習する。
本手法は,画像レベルでの微妙な単語の出現を効果的に捉え,ターゲット概念の直接的かつ効率的な消去を可能にする。
論文 参考訳(メタデータ) (2024-08-02T05:17:14Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。