論文の概要: Geometry-Instructed Video Editing
- arxiv url: http://arxiv.org/abs/2606.24225v1
- Date: Tue, 23 Jun 2026 07:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.818316
- Title: Geometry-Instructed Video Editing
- Title(参考訳): 幾何学的指導によるビデオ編集
- Authors: Chirui Chang, Xiaoyang Lyu, Yi-Hua Huang, Haoru Tan, Shizhen Zhao, Yikang Ding, Jianmin Bao, Xin Tao, Pengfei Wan, Xiaojuan Qi,
- Abstract要約: GIVEは幾何学的に指示されたビデオ編集フレームワークで、統一されたオブジェクト状態の定式化によって編集を表現する。
我々は、オブジェクトレベルの編集プログラムを実行し、ペアの前後で制御されるレンダリングを行うスケーラブルなグラフィックスエンジンパイプラインを構築している。
実験結果から,GIVEは時間的コヒーレンスと一貫した二次効果で忠実な幾何学的編集を行うことが示された。
- 参考スコア(独自算出の注目度): 54.86319853573801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-level geometric edits, including translating, rotating, scaling, duplicating, or removing an object, are routine operations in digital content creation (DCC) workflows, yet they remain unreliable in generative video editing. The key challenge lies in specifying the target object's 3D state change unambiguously across viewpoint and time, while consistently updating geometry-dependent secondary effects such as shadows and reflections. We introduce GIVE, a geometry-instructed video editing framework that represents edits through a unified object-state formulation. Two video-aligned geometry streams describe the target object before and after editing: a depth-box encoding coarse 3D placement and extent, and an orientation-box providing an appearance-agnostic orientation cue. Together, these streams provide a compact pre/post geometric specification for object-state transitions. To provide paired supervision for learning these edits, we build a scalable graphics-engine pipeline that executes object-level edit programs and renders controlled before/after pairs, isolating the intended geometric edit while keeping secondary effects consistent with the transformation. Experimental results demonstrate that GIVE produces faithful geometric edits with temporal coherence and consistent secondary effects across operators in a unified framework, and shows promising transfer to in-the-wild videos. Project page: https://geometry-instructed-video-editing.github.io/give/
- Abstract(参考訳): オブジェクトレベルの幾何学的編集(翻訳、回転、スケーリング、複製、削除)はデジタルコンテンツ作成(DCC)ワークフローにおける日常的な操作であるが、生成ビデオ編集では信頼性が低い。
重要な課題は、対象のオブジェクトの3D状態の変化を視点と時間で不明瞭に特定し、シャドーやリフレクションのような幾何学に依存した二次効果を一貫して更新することである。
GIVEは、オブジェクト状態の統一的な定式化によって編集を表現する、幾何学的に指示されたビデオ編集フレームワークである。
2つのビデオアライメント幾何ストリームは、編集前後のターゲットオブジェクトを記述している: 粗い3D配置と範囲を符号化する奥行きボックスと、外観に依存しない配向キューを提供する配向ボックス。
これらのストリームは、オブジェクト状態遷移のためのコンパクトな事前/ポスト幾何学的仕様を提供する。
これらの編集を学習するためのペア化された監視を提供するため、我々は、オブジェクトレベルの編集プログラムを実行し、ペアの前後で制御されたレンダリングを行うスケーラブルなグラフィックスエンジンパイプラインを構築し、変換に整合した二次効果を維持しながら、意図した幾何学的編集を分離する。
実験により,GIVEは時間的コヒーレンスと一貫した二次効果を持つ忠実な幾何学的編集を,一貫した枠組みで生成し,有望な映像への転送を示す。
プロジェクトページ: https://geometry-instructed-video-editing.github.io/give/
関連論文リスト
- Feedforward 3D Editing Learns from Semantic-Part Transformation [13.61340944347895]
フィードフォワード3D編集における中心的な課題は、高品質なペア管理の欠如にある。
スケーラブルなフィードフォワード3D編集はセマンティック部分変換から学習されるべきである。
PartFlowはフィードフォワード3D編集ネットワークで、ソース認識の潜伏制御を事前訓練された3D生成先行に注入する。
論文 参考訳(メタデータ) (2026-05-26T17:51:59Z) - VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction [59.303842406260124]
VGGT-Editはテキスト条件のネイティブ3Dシーン編集のためのフィードフォワードフレームワークである。
本研究では,奥行き同期テキストインジェクションを導入し,意味的指導をバックボーンの空間的ポーズと整合させる。
VGGT-Editは2Dリフトベースラインを大幅に上回り、よりシャープなオブジェクトの詳細、より強力なマルチビュー一貫性、ほぼインスタントな推論速度を生み出している。
論文 参考訳(メタデータ) (2026-05-14T17:59:04Z) - CEI-3D: Collaborative Explicit-Implicit 3D Reconstruction for Realistic and Fine-Grained Object Editing [51.73433734209541]
既存の3D編集手法は、再構成ネットワークの深い統合性のために、非現実的で未精細な結果をもたらすことが多い。
本稿では,現実的できめ細かな編集を容易にするための,編集指向の再構築パイプラインであるCEI-3Dを紹介する。
提案手法は,最新技術(SOTA)手法よりも,よりリアルできめ細かな編集結果を実現すると同時に,編集時間を短縮する。
論文 参考訳(メタデータ) (2026-03-12T11:15:11Z) - Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers [41.08668138583002]
GeoEditは、正確なオブジェクト編集のための幾何学変換を統合するフレームワークである。
エフェクト・コンテクスト・アテンションは、複雑な照明とシャドーエフェクトのモデリングを強化し、リアリズムを改善する。
RS-Objectsは、12万以上の高品質の画像ペアを含む大規模な幾何学的編集データセットである。
論文 参考訳(メタデータ) (2026-02-09T08:39:47Z) - POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion [46.97254555348757]
本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
連続的かつインタラクティブな位置決めのためのフレームワーク(POCI-Diff)を導入する。
本手法は,個々のテキスト記述を特定の3次元境界ボックスに結合することで,オブジェクトごとのセマンティック制御を可能にする。
論文 参考訳(メタデータ) (2026-01-20T15:13:43Z) - 3DGS-Drag: Dragging Gaussians for Intuitive Point-Based 3D Editing [58.54083747494426]
3DGS-Dragはポイントベースの3D編集フレームワークで、リアルな3Dシーンを効率よく直感的にドラッグ操作できる。
本手法は,変形に基づく3次元編集と2次元編集による3次元編集のギャップを埋めるものである。
論文 参考訳(メタデータ) (2026-01-12T19:57:31Z) - Dragging with Geometry: From Pixels to Geometry-Guided Image Editing [42.176957681367185]
幾何学誘導型ドラッグベース画像編集手法であるGeoDragを提案する。
ジオドラグは3次元幾何学と2次元空間先行を共同で符号化する統一された変位場に基づいており、コヒーレントで高忠実で構造に一貫性のある編集を可能にしている。
論文 参考訳(メタデータ) (2025-09-30T03:53:11Z) - Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [48.72918598961146]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。