Fugu-MT 論文翻訳(概要): JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

論文の概要: JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

arxiv url: http://arxiv.org/abs/2606.20563v1
Date: Thu, 18 Jun 2026 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:40.058276
Title: JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising
Title（参考訳）: JanusMesh: クロススペースデノーミングによる高速でゼロショットの3Dビジュアルイリュージョン生成
Authors: Siang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu,
Abstract要約: テキスト駆動型3次元視覚錯覚を生成するためのフレームワークを提案する。提案手法は,3～5分で2次元のリアルな3Dイリュージョンを生成できる。これは、幾何学的整合性、意味認識可能性、効率性において既存の手法を著しく上回っている。
参考スコア（独自算出の注目度）: 4.625351881266883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Creating 3D visual illusions, a single 3D mesh that reveals entirely different semantics from various viewing angles, is a fascinating but tough challenge. Existing optimization-based methods are slow and can produce oversaturated colors. In contrast, naive stitching approaches fail to produce geometrically coherent objects. This results in visible unnatural seams and semantic leaks. In this paper, we present a fast and training-free framework for generating text-driven 3D visual illusions. Our approach decouples the generation into two stages. First, we propose a cross-space dual-branch denoising process. This process dynamically decodes 3D latents into voxel space for CLIP-guided orientation alignment and Signed Distance Field (SDF) blending, which ensures seamless geometric fusion. Second, we introduce a view-conditioned texture synthesis module that projects and aggregates view-specific 2D diffusion priors onto the fused geometry. Extensive experiments demonstrate that our method generates highly realistic, dual-semantic 3D illusions in just 3-5 minutes. It significantly outperforms existing methods in geometric integrity, semantic recognizability, and efficiency. Project page: https://siang1105.github.io/JanusMesh.github.io/
Abstract（参考訳）: 3Dの視覚的錯覚を作るのは、1つの3Dメッシュで、さまざまな角度から完全に異なるセマンティクスを表現している。既存の最適化ベースの手法は遅く、過飽和色を生成できる。対照的に、単純縫合法は幾何学的に整合性のある物体を生成するのに失敗する。この結果、目に見えない不自然な縫い目と意味的な漏れが生じる。本稿では,テキスト駆動型3次元視覚錯覚を生成するための,高速かつトレーニング不要なフレームワークを提案する。我々のアプローチは世代を2つの段階に分離する。まず,クロススペースなデュアルブランチ・デノゲーションプロセスを提案する。このプロセスは、3DラテントをCLIP誘導配向アライメントと符号距離場(SDF)ブレンディングのためのボクセル空間に動的にデコードし、シームレスな幾何学的融合を実現する。第二に、ビュー条件付きテクスチャ合成モジュールを導入し、ビュー固有の2次元拡散先行を融合幾何学に投影し、集約する。広汎な実験により,本手法は3～5分で高現実的で2次元の錯覚を発生させることが示された。これは、幾何学的整合性、意味認識可能性、効率性において既存の手法を著しく上回っている。プロジェクトページ: https://siang1105.github.io/JanusMesh.github.io/

論文の概要: JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

関連論文リスト