論文の概要: Controllable Texture Tiling with Transformed RoPE-Enhanced Diffusion Models
- arxiv url: http://arxiv.org/abs/2606.22945v1
- Date: Mon, 22 Jun 2026 07:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:23:50.112791
- Title: Controllable Texture Tiling with Transformed RoPE-Enhanced Diffusion Models
- Title(参考訳): 変換 RoPE 拡張拡散モデルによる制御可能なテクスチャタイリング
- Authors: Junrong Huang, Zhiyuan Zhang, Rui Tang, Hongbo Fu, Jnig Liao,
- Abstract要約: 拡散変換器に基づく制御可能で高忠実なテクスチャタイリングのための新しいフレームワークを提案する。
本手法は,コンテンツ生成から空間操作を分離する技術革新を2つ導入する。
本手法は, 制御精度とテクスチャ忠実度の両方において, 最先端のベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 21.26349994452928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic integration of user-specified textures into scene images is a fundamental task in computer graphics and image editing. While existing material transfer and reference-guided inpainting methods can edit surface appearances, they often fail to address the specific requirements of texture tiling. This task necessitates precisely repeating a reference pattern according to user-defined parameters such as frequency, orientation, and scale. Furthermore, current generative approaches often struggle to maintain the structural fidelity of the reference texture, limited by either destructive pixel-level resampling or the lack of fine-grained spatial information in semantic image encoders, and they frequently fail to preserve the coherent lighting and geometry of the original scene. In this paper, we propose a novel framework for controllable and high-fidelity texture tiling based on Diffusion Transformers. Our approach introduces two key technical innovations to decouple spatial manipulation from content generation. First, we propose a Coordinate-Transformed Rotary Embedding mechanism. By applying 2D affine transformations directly to the relative positional embeddings between the target latent and the image condition, we achieve precise control over tiling patterns without explicit pixel warping, thereby utilizing the full information of the reference condition without degradation. Second, a Disjoint Attention Mask is employed to shield reference features from semantic leakage. This preserves structural integrity while seamlessly blending the synthesized texture with the scene's original lighting and geometry. Extensive experiments demonstrate that our method outperforms state-of-the-art baselines in both control accuracy and texture fidelity.
- Abstract(参考訳): ユーザ特定テクスチャのシーンイメージへのリアルな統合は、コンピュータグラフィックスと画像編集の基本的な課題である。
既存の物質移動と基準誘導塗装法は表面の外観を編集できるが、テクスチャタイリングの特定の要求に対処できないことが多い。
このタスクは、頻度、向き、スケールといったユーザ定義パラメータに従って、参照パターンを正確に繰り返す必要がある。
さらに、現在の生成的アプローチは、しばしば、破壊的なピクセルレベルの再サンプリングまたはセマンティックイメージエンコーダにおけるきめ細かい空間情報の欠如によって制限される基準テクスチャの構造的忠実性を維持するのに苦労する。
本稿では拡散変換器をベースとした制御可能で高忠実なテクスチャタイリングのための新しいフレームワークを提案する。
本手法は,コンテンツ生成から空間操作を分離する技術革新を2つ導入する。
まず,コーディネート変換ロータリー埋め込み機構を提案する。
2Dアフィン変換を目標潜像と画像条件との間の相対的な位置埋め込みに直接適用することにより、明示的な画素ワープを伴わずにタイリングパターンの正確な制御を実現し、参照条件の全情報を劣化せずに活用する。
第2に、セマンティックリークから参照特徴を保護するために、Disjoint Attention Maskが使用される。
これは、合成されたテクスチャとシーンの元々の照明と幾何学をシームレスにブレンドしながら、構造的な整合性を保っている。
本手法は, 制御精度とテクスチャ忠実度の両方において, 最先端のベースラインよりも優れていることを示す。
関連論文リスト
- CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization [36.4737529204489]
テキスト駆動の手法は柔軟性とインスタンスレベルの細かい制御を提供し、品質が不十分なテクスチャをしばしば生成する。
インスタンスレベルの編集のための新しいフレームワークであるCustomTexを紹介する。
論文 参考訳(メタデータ) (2026-03-19T16:44:08Z) - Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - Semantic-Guided Two-Stage GAN for Face Inpainting with Hybrid Perceptual Encoding [1.7761223012399532]
Facial Image inpaintingは、アイデンティティ、構造的一貫性、画質を保ちながら、顔画像の欠落した領域や破損した領域を復元することを目的としている。
既存の方法は大きな不規則なマスクで問題に直面し、しばしばマスクされた領域の端にぼやけたテクスチャを生み出す。
本稿では,これらの課題に対処する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-12-04T17:56:08Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Generating Non-Stationary Textures using Self-Rectification [70.91414475376698]
本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正する,新しい2段階のアプローチを提案する。
提案手法は「自己修正(self-rectification)」と呼ばれ、このターゲットを自動的にコヒーレントでシームレスなテクスチャに洗練する。
論文 参考訳(メタデータ) (2024-01-05T15:07:05Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。