論文の概要: Physically-guided Image Generation for Multi-Projection Mapping
- arxiv url: http://arxiv.org/abs/2606.22477v1
- Date: Sun, 21 Jun 2026 12:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:59:50.004303
- Title: Physically-guided Image Generation for Multi-Projection Mapping
- Title(参考訳): マルチプロジェクションマッピングのための物理誘導画像生成
- Authors: Xingyun Liu, Yuqi Li, Jinhui Xiang, Pinyan Tang, Chong Wang,
- Abstract要約: 投影マッピング(PM)は、デジタルコンテンツを現実世界の3Dオブジェクトにシームレスに重ね合わせすることを可能にする。
本稿では、協調的パラダイムと敵対的パラダイムの2つの応用レベルの生成パラダイムを定式化する。
統合制御可能な多射影マッピングフレームワークであるConPhyGを提案する。
- 参考スコア(独自算出の注目度): 13.227477542441918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Projection Mapping (PM) enables seamless superimposition of digital content onto real-world 3D objects, serving as a fundamental technique for immersive visualization, digital twins, and interactive art. Although text-to-image diffusion models have greatly facilitated customized content creation, directly integrating them into practical PM pipelines remains challenging due to the mismatch between idealized 2D generation and physical constraints. To bridge this gap, this paper formalizes two application-level generative paradigms: the cooperative paradigm (harmonizing generated semantics with physical attributes) and the adversarial paradigm (eliminating surface interference via radiometric compensation). Based on this, we propose ConPhyG, a unified controllable physically-guided generative multi-projection mapping framework that enables creators to interactively adjust physical constraints and flexibly switch generative paradigms. In cooperative mode, multi-dimensional physical priors (per-pixel gamut, depth, and edges) are injected into the diffusion process. In adversarial mode, the framework releases the generative potential and applies bounded numerical optimization for multi-projector radiometric compensation. It allows users to dynamically switch constraints to balance artistic freedom with physical feasibility. Furthermore, we extend ConPhyG to 360-degree multi-view consistent PM using a sequential generation strategy. Quantitative and qualitative evaluations on a real-world four-projector setup demonstrate that ConPhyG significantly outperforms state-of-the-art methods in geometric alignment, gamut utilization, and semantic fidelity.
- Abstract(参考訳): 投影マッピング(PM)は、デジタルコンテンツを現実世界の3Dオブジェクトにシームレスに重ね合わせ、没入型ビジュアライゼーション、デジタルツイン、インタラクティブアートの基本的な技術として機能する。
テキストと画像の拡散モデルは、カスタマイズされたコンテンツ作成を大いに促進してきたが、理想化された2次元生成と物理的制約のミスマッチのため、それらを実践的なPMパイプラインに直接統合することは困難である。
このギャップを埋めるために、この論文では、協調的パラダイム(物理的属性で生成されたセマンティクスを調和させる)と対向的パラダイム(ラジオメトリック補償による表面干渉の除去)の2つの応用レベルの生成パラダイムを定式化する。
そこで我々はConPhyGを提案する。ConPhyGは、物理的制約をインタラクティブに調整し、生成パラダイムを柔軟に切り替えることのできる、統合制御可能な物理誘導型多射影マッピングフレームワークである。
協調モードでは、拡散過程に多次元物理先行(画素ごとのガミュート、深さ、エッジ)を注入する。
逆モードでは、このフレームワークは生成ポテンシャルを解放し、多重プロジェクタラジオメトリック補償に有界数値最適化を適用する。
制約を動的に切り替えて、芸術的自由と身体的可能性のバランスをとることができる。
さらに、逐次生成戦略を用いて、ConPhyGを360度多視点一貫したPMに拡張する。
実世界の4つのプロジェクタの量的および質的評価は、ConPhyGが幾何的アライメント、ガミュート利用、意味的忠実性において最先端の手法を著しく上回っていることを示す。
関連論文リスト
- TrioPose: Native Triple-Stream Diffusion Transformers for Pose-Guided Text-to-Image Generation [1.709500663078044]
TrioはSD3.5Mアーキテクチャ上に構築されたポーズ駆動フレームワークである。
Human-Art、CrowdPose、OCHumanなど、挑戦的なベンチマークで最先端のパフォーマンスを実現している。
人文芸術のAPは6,4.33ドルに達し、それまでの芸術よりも30%値上がりしている。
論文 参考訳(メタデータ) (2026-06-05T08:54:28Z) - SpatialFusion: Endowing Unified Image Generation with Intrinsic 3D Geometric Awareness [62.38746300197673]
本稿では、3次元幾何学的認識を統合画像生成モデルに内包する新しいフレームワークを提案する。
具体的には、まずMixture-of-Transformers (MoT)アーキテクチャを用いて、MLLMを並列空間変換器で拡張する。
自己注意をMLLMと共有することにより、空間変換器は、リッチなセマンティックコンテキストからターゲット画像の計量深度マップを導出することを学ぶ。
これらの明示的な幾何学的足場は、特殊深度アダプターを介して拡散バックボーンに注入される。
論文 参考訳(メタデータ) (2026-04-29T06:46:59Z) - MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling [55.72785604682579]
MMPhysVideoは、共同マルチモーダルモデリングにおけるビデオ生成における物理的可視性を拡大するフレームワークである。
MMPhysVideoは、様々なベンチマークで高度なモデルよりも、物理的な可視性と視覚的品質を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-03T07:32:24Z) - MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation [2.5925656171325127]
相乗的マルチモーダル顔合成のための統合デュアルストリーム拡散変換器MMFace-DiTを導入する。
その中核的な特徴は、空間(マスク/スケッチ)と意味(テキスト)トークンを並列に処理するデュアルストリームトランスフォーマーブロックにある。
MMFace-DiTは、6つの最先端マルチモーダル顔生成モデルに対して、視覚的忠実度を40%向上させ、迅速なアライメントを実現する。
論文 参考訳(メタデータ) (2026-03-30T21:44:18Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-07-30T19:43:47Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - Guiding Diffusion with Deep Geometric Moments: Balancing Fidelity and Variation [35.428991756584935]
本稿では,Deep Geometric Moments (DGM) を,学習前の幾何学的特徴とニュアンスをカプセル化した新しいガイダンスとして紹介する。
実験により,DGMは拡散画像生成における制御と多様性のバランスを効果的に保ち,拡散過程を制御するための柔軟な制御機構を実現できることが示された。
論文 参考訳(メタデータ) (2025-05-18T16:19:27Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。