論文の概要: SierpinskiCam: Camera-Controlled Video Retaking with Sierpinski Triangle Pattern Cues
- arxiv url: http://arxiv.org/abs/2606.17310v1
- Date: Mon, 15 Jun 2026 21:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.151398
- Title: SierpinskiCam: Camera-Controlled Video Retaking with Sierpinski Triangle Pattern Cues
- Title(参考訳): SierpinskiCam:Sierpinskiの3角パターンのキュートで撮影できるカメラ付きビデオ
- Authors: Suttisak Wizadwongsa, Hyelin Nam, Supasorn Suwajanakorn, Jeong Joon Park,
- Abstract要約: ビデオのリテイクは、コンテンツ作成と視覚効果において魅力的だが難しい問題だ。
本研究では,Sierpinski ドームテクスチャキューを用いた幾何学的ガイダンスを付加した SierpinskiCam を提案する。
SierpinskiCamは、多様で困難なリテイクシナリオにおいて、カメラ制御性、幾何的一貫性、ビデオ品質の大幅な向上を実現している。
- 参考スコア(独自算出の注目度): 27.421239786446645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating novel renderings of a scene along user-defined camera trajectories from a single monocular video, dubbed video retaking, is a compelling but difficult problem in content creation and visual effects. Existing geometry-guided approaches reconstruct a 4D representation from the source video and render it along the target trajectory to condition video diffusion models. However, this guidance degrades as the target camera departs from the source trajectory, leaving newly revealed regions sparse or entirely missing. We propose SierpinskiCam, which addresses this limitation by augmenting geometry-based guidance with Sierpinski dome texture cues that contains rich trackable features even under large viewpoint changes. We further introduce a reference video conditioning mechanism that appends source-video tokens to the target-token sequence and separates the two streams with negative RoPE indices, enabling appearance grounding without architectural modification or per-video adaptation. Extensive experiments show that SierpinskiCam achieves significant gains in camera controllability, geometric consistency, and video quality across diverse and challenging retaking scenarios. Project page: https://hyelinnam.github.io/SierpinskiCam/.
- Abstract(参考訳): ビデオリテイクと呼ばれる単一のモノクロビデオから、ユーザーが定義したカメラ軌跡に沿ったシーンの新たなレンダリングを生成することは、コンテンツ作成と視覚効果において魅力的だが難しい問題である。
既存の幾何誘導型アプローチは、ソースビデオから4D表現を再構成し、ターゲット軌道に沿ってレンダリングし、条件付きビデオ拡散モデルを作成する。
しかし、このガイダンスは、対象のカメラがソースの軌跡から外れるにつれて劣化し、新たに明らかになった領域は狭くなり、完全に失われる。
本研究では,Sierpinski ドームテクスチャキューを用いた幾何学的ガイダンスの強化により,この制限に対処する SierpinskiCam を提案する。
さらに、ソース・ビデオ・トークンをターゲット・トーケン・シーケンスに付加し、負のRoPE指標で2つのストリームを分離する参照ビデオ・コンディショニング機構を導入する。
大規模な実験により、SierpinskiCamは、多様で挑戦的なリテイクシナリオにおいて、カメラ制御性、幾何的一貫性、ビデオ品質の大幅な向上を実現している。
プロジェクトページ: https://hyelinnam.github.io/SierpinskiCam/.com
関連論文リスト
- Reshoot-Anything: A Self-Supervised Model for In-the-Wild Video Reshooting [3.1328424544428852]
インターネット規模のモノクロビデオを活用するためのフレームワークを構築した。
私たちのコアコントリビューションは、ソースビデオ、幾何アンカー、ターゲットビデオからなる擬似多視点トレーニング三脚の生成です。
提案する拡散変圧器は4Dポイントクラウド誘導アンカーを用いて,最先端の時間的整合性を実現する。
論文 参考訳(メタデータ) (2026-04-23T15:32:56Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。
我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文 参考訳(メタデータ) (2025-06-16T17:02:47Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。