論文の概要: DivRL: Disentangled Self-Similarity Rewards for Diverse Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2606.23950v1
- Date: Mon, 22 Jun 2026 21:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.692291
- Title: DivRL: Disentangled Self-Similarity Rewards for Diverse Subject-Driven Generation
- Title(参考訳): DivRL: 異方性自己相似リワード
- Authors: Qian Wang, Zhenyu Li, Abdelrahman Eldesokey, Peter Wonka,
- Abstract要約: 本研究では,アイデンティティの整合性と構造的多様性を同時に最適化するDivRLというポストトレーニングフレームワークを提案する。
構造的多様性を定量化するための負の自己相似性尺度(nSSM)と、アイデンティティの整合性を評価するための視覚的セマンティックマッチング(VSM)を導入する。
- 参考スコア(独自算出の注目度): 52.23323703015865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-driven image generation faces an "Identity-Diversity Paradox", where strong identity preservation often leads to rigid and low-diversity outputs. We propose a post-training framework called DivRL that jointly optimizes identity consistency and structural diversity simultaneously by leveraging disentangled visual features from a robust similarity model. Specifically, we introduce a Negative Self-Similarity Measure (nSSM) to quantify structural diversity, and Visual Semantic Matching (VSM) to evaluate identity consistency. We propose an "Explore-and-Suppress" strategy that treats VSM as a gated constraint: the model freely explores structurally diverse configurations, and only samples that violate the identity threshold are penalized via a quadratic hinge loss. This converts identity preservation from a competing objective into a feasibility constraint, allowing nSSM and VSM to improve jointly. Experiments demonstrate that our method effectively pushes the model to generate both consistent and diverse images and improves structural diversity while maintaining comparable identity consistency through a gated optimization formulation.
- Abstract(参考訳): 被写体駆動画像生成は「アイデンティティ・ダイバーシティ・パラドックス(Identity-Diversity Paradox)」に直面している。
本研究では,頑健な類似性モデルから切り離された視覚的特徴を活用することで,アイデンティティの整合性と構造的多様性を同時に最適化するDivRLというポストトレーニングフレームワークを提案する。
具体的には、構造多様性を定量化するための負の自己相似性尺度(nSSM)と、アイデンティティの整合性を評価するための視覚セマンティックマッチング(VSM)を導入する。
本稿では,VSM をゲート制約として扱う "Explore-and-Suppress" 戦略を提案する。
これにより、競合対象からのアイデンティティ保存が実現可能性制約に変換され、nSSMとVSMが共同で改善される。
実験により,本手法はモデルに一貫した画像と多彩な画像の両方を生成することを効果的に推し進め,構造的多様性を向上させるとともに,ゲート最適化の定式化による同一性の維持を図っている。
関連論文リスト
- Identity-Decoupled Anonymization for Visual Evidence in Multi-modal Retrieval-Augmented Generation [9.39195684989942]
Identity-Decoupled MRAGは、生成匿名化モジュールを検索と生成の間に介在するフレームワークである。
提案手法は,各面を識別符号と空間的に構造化された属性コードに分解し,相互情報的ペナルティと勾配に基づく独立項で正規化する不整形変分エンコーダ,識別符号を元のものと現実とを区別することが保証された合成物に置換する多様体認識拒絶サンプリング器,および (iii)匿名化顔と置換IDとを合成する条件付き潜時拡散発生器からなる。
論文 参考訳(メタデータ) (2026-04-26T07:42:33Z) - AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:25:04Z) - SIDeR: Semantic Identity Decoupling for Unrestricted Face Privacy [53.75084833636302]
本稿では,非制限顔プライバシー保護のためのセマンティックデカップリング駆動フレームワークSIDeRを提案する。
SIDeRは、顔画像をマシン認識可能な識別特徴ベクトルと視覚的に知覚可能なセマンティックな外観成分に分解する。
認証されたアクセスのために、SIDeRは正しいパスワードが提供されるときに元の形式に復元できる。
論文 参考訳(メタデータ) (2026-02-04T19:30:48Z) - DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO [50.89703227426486]
強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
論文 参考訳(メタデータ) (2025-12-25T05:37:37Z) - Taming Identity Consistency and Prompt Diversity in Diffusion Models via Latent Concatenation and Masked Conditional Flow Matching [1.9270911143386336]
被写体駆動画像生成は、様々な文脈において、特定の被写体の新たな描写を合成することを目的としている。
潜在連結戦略を用いたLoRA微調整拡散モデルを提案する。
フィルタリングと品質評価のために, きめ細かい評価フレームワークCHARISを提案する。
論文 参考訳(メタデータ) (2025-11-11T10:00:32Z) - WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - From Poses to Identity: Training-Free Person Re-Identification via Feature Centralization [9.614305363044737]
人物再識別(ReID)は、正確な識別表現の特徴を抽出することを目的としている。
個人ノイズを低減するための訓練自由特徴集中型ReIDフレームワーク(Pose2ID)を提案する。
提案手法は, 標準, クロスモダリティ, 隠蔽されたReIDタスクにまたがって, 最先端の新たな結果を設定する。
論文 参考訳(メタデータ) (2025-03-02T15:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。