論文の概要: CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis
- arxiv url: http://arxiv.org/abs/2606.13964v1
- Date: Thu, 11 Jun 2026 22:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.676453
- Title: CaricHarmony: Contrastive Diffusion Paths for Identity-Preserving Caricature Synthesis
- Title(参考訳): CaricHarmony: アイデンティティ保存型画像合成のためのコントラスト拡散経路
- Authors: Dongyu Wang, Dar-Yen Chen, Yi-Zhe Song,
- Abstract要約: スケッチベースの似顔絵合成は、基本的な失敗モードに悩まされる。
アイデンティティと形状の条件は拡散モデルに組み合わされ、地味な肖像画や認識不能な歪みに対して崩壊する。
並列な未汚染拡散経路を通じてこの汚染を明示的に解消する最初の訓練不要な手法であるCaricHarmonyを提案する。
- 参考スコア(独自算出の注目度): 49.596677723190886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sketch-based caricature synthesis suffers from a fundamental failure mode: when identity and shape conditions are combined in diffusion models, they create destructive interference that causes inevitable collapse toward either bland portraits or unrecognizable distortions. We identify the root cause as \emph{condition signal contamination} -- competing probability distributions in the denoising trajectory that make balanced generation impossible. We present CaricHarmony, the first training-free method that explicitly resolves this contamination through parallel uncontaminated diffusion paths. During inference, we maintain three paths: $\mathcal{P}^{\mathrm{i}}$ (pure identity), $\mathcal{P}^{\mathrm{s}}$ (pure shape), and $\mathcal{P}^{\mathrm{i+s}}$ (harmonized output). Novel energy functions operating on cross-attention features provide gradient guidance that steers $\mathcal{P}^{\mathrm{i+s}}$ toward optimal balance: $\mathcal{E}_{\mathrm{shape}}$ ensures sketch fidelity through layout and semantic alignment, while $\mathcal{E}_{\mathrm{id}}$ employs token-level correspondence matching robust to extreme distortions. Unlike DemoCaricature requiring 70 seconds per-identity fine-tuning or CaricatureBooth constrained to Bezier curves, CaricHarmony accepts any sketch format and generates in under 16 seconds. Experiments demonstrate state-of-the-art performance: 0.8615 shape CLIP score (vs. 0.8450) under comparable identity consistency score, with 7.81 overall user preference score (vs. 6.06). Our method fundamentally reconceptualizes the ID-shape conflict as conditioning signal contamination for diffusion models, enabling unprecedented creative control while preserving recognition.
- Abstract(参考訳): 同一性と形状条件が拡散モデルに組み合わされた場合、それらは破壊的な干渉を引き起こし、鈍いポートレートや認識不能な歪みに対して避けられない崩壊を引き起こす。
我々は根本原因を 'emph{condition signal contamination} -- 平衡生成を不可能にするデノナイジング軌道における競合する確率分布として同定する。
並列な未汚染拡散経路を通じてこの汚染を明示的に解消する最初の訓練不要な手法であるCaricHarmonyを提案する。
推論では、$\mathcal{P}^{\mathrm{i}}$(純正)、$\mathcal{P}^{\mathrm{s}}$(純正)、$\mathcal{P}^{\mathrm{i+s}}$(調和出力)の3つのパスを保持します。
クロスアテンション機能に作用する新しいエネルギー関数は、最適バランスに向けて$\mathcal{P}^{\mathrm{i+s}}$を操る勾配ガイダンスを提供する:$\mathcal{E}_{\mathrm{shape}}$はレイアウトとセマンティックアライメントを通じて忠実なスケッチを保証し、$\mathcal{E}_{\mathrm{id}}$は極度の歪みに頑健なトークンレベル対応を用いる。
DemoCaricatureが1個あたり70秒の微調整や、Bezier曲線に制約されたCaricatureBoothと異なり、CaricHarmonyはスケッチ形式を受け入れて16秒以内に生成する。
0.8615 形状の CLIP スコア (vs. 0.8450) と同等なアイデンティティ整合性スコア (vs. 6.06) の7.81 のユーザ嗜好スコア (vs. 6.06) である。
本手法は,拡散モデルに対する条件付き信号汚染としてID-形状衝突を根本的に再認識し,認識を保ちながら前例のない創造的制御を可能にする。
関連論文リスト
- Prism: Structural Symmetry Scanning via Duality-Constrained Laplacian Projection [0.0]
複雑なネットワークにおける構造対称性診断のためのフレームワークである textbfPrism を導入する。
Prismは、ネットワークが構造的自己整合性からどのくらい離れているかを測定するスカラーである。
論文 参考訳(メタデータ) (2026-05-18T04:20:05Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - Why Training-Free Token Reduction Collapses: The Inherent Instability of Pairwise Scoring Signals [0.0]
ビジョントランスフォーマーのトレーニング不要なトークン削減方法は異なるスコアリング機構を用いるが、高い圧縮で密に一致した崖のような崩壊を共有できる。
我々は,(1)信号非依存のエラー増幅器に分解する2つのツールを用いて,一貫性のランキング $_s$ と非対角相関 $_textoff$ を作成した。
我々はCATISを構成的検証として構築し、単一信号はトリガー閾値を上昇させ、トリアージは利得を抑制する。
論文 参考訳(メタデータ) (2026-04-17T23:26:27Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Coupled Data and Measurement Space Dynamics for Enhanced Diffusion Posterior Sampling [27.146380722473932]
ノイズや不完全な測定から未知の信号を回復することが目的の逆問題であり、医療画像、リモートセンシング、計算生物学の中心である。
本稿では,空間拡散後サンプリング(C-DPS)と呼ばれる新しいフレームワークを提案する。
C-DPSは、複数の逆問題ベンチマークにおいて、定性的かつ定量的に、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-08T18:59:16Z) - Robust Graph-Based Semi-Supervised Learning via $p$-Conductances [49.0776396776252]
本研究では,データラベルが不足している,あるいは破損しているような状況下でのグラフに対する半教師付き学習の課題について検討する。
我々は、$p$-laplace と Poisson の学習方法を一般化した $p$-conductance learning という手法を提案する。
コンピュータビジョンと引用データセットの実証実験結果から,本手法が低ラベルレート, 劣化ラベル, 部分ラベルレジームにおける最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2025-02-13T01:11:25Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Convergence Analysis of Probability Flow ODE for Score-based Generative Models [5.939858158928473]
確率フローODEに基づく決定論的サンプリング器の収束特性を理論的・数値的両面から検討する。
連続時間レベルでは、ターゲットと生成されたデータ分布の総変動を$mathcalO(d3/4delta1/2)$で表すことができる。
論文 参考訳(メタデータ) (2024-04-15T12:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。