論文の概要: SCOPE: Scale-Consistent One-Pass Estimation of 3D Geometry
- arxiv url: http://arxiv.org/abs/2606.21300v1
- Date: Fri, 19 Jun 2026 10:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:34:18.704542
- Title: SCOPE: Scale-Consistent One-Pass Estimation of 3D Geometry
- Title(参考訳): SCOPE:3次元形状のスケール一貫性のあるワンパス推定
- Authors: Zheng Zhang, Lihe Yang, Tianyu Yang, Chaohui Yu, Yixing Lao, Xiaoyang Guo, Biao Gong, Fan Wang, Hengshuang Zhao,
- Abstract要約: SCOPE (Scale-Consistent One-Pass Estimation of 3D Geometry) は、拡張された単眼ビデオシーケンスから3次元幾何学を推定するための新しいアプローチである。
提案手法では,アフィン不変な3次元点マップを全列に共通パラメータで生成し,一貫したスケール不変表現を実現する。
- 参考スコア(独自算出の注目度): 69.89196162649091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SCOPE (Scale-Consistent One-Pass Estimation of 3D Geometry), a novel approach for estimating 3D geometry from extended monocular video sequences, where existing methods struggle to maintain both geometric accuracy and temporal consistency across hundreds of frames. Our approach generates affine-invariant 3D point maps with shared parameters across entire sequences, enabling consistent scale-invariant representations. We introduce three key innovations: viewpoint-invariant geometry aligning multi-perspective points in a unified reference frame; appearance-invariant learning enforcing consistency across exponential timescales; and frequency-modulated positioning enabling extrapolation to sequences vastly exceeding training length. Experiments across diverse datasets demonstrate significant improvements, reducing relative point map error by 24.2% and temporal alignment error by 34.9% on ScanNet compared to state-of-the-art methods. Our approach handles challenging scenarios with complex camera trajectories and lighting variations while efficiently processing extended sequences in a single pass. Project page: https://scope3d.github.io/.
- Abstract(参考訳): 本稿では,拡張単眼ビデオシーケンスから3次元幾何を推定する新しい手法であるSCOPE(Scale-Consistent One-Pass Estimation of 3D Geometry)を提案する。
提案手法では,アフィン不変な3次元点マップを全列に共通パラメータで生成し,一貫したスケール不変表現を実現する。
統合参照フレーム内の多視点点を整列する視点不変幾何、指数時間スケールにまたがる一貫性を強制する外観不変学習、トレーニング長をはるかに超えるシーケンスへの外挿を可能にする周波数変調位置決めという3つの重要な革新を紹介した。
多様なデータセットに対する実験では、相対的なポイントマップエラーを24.2%削減し、ScanNetの時間的アライメントエラーを34.9%削減した。
提案手法は,複雑なカメラトラジェクトリと照明変動を伴う難解なシナリオに対処し,拡張シーケンスを1回のパスで効率的に処理する。
プロジェクトページ: https://scope3d.github.io/.com
関連論文リスト
- GemDepth: Geometry-Embedded Features for 3D-Consistent Video Depth [12.866152238833104]
ビデオ深度推定は、一眼的予測を時間領域に拡張し、コヒーレンスを確保する。
現在のアプローチは主にトランスフォーマーによる時間的平滑化に依存しており、厳密な3次元幾何学的整合性を維持するのに苦労している。
GemDepthは,カメラモーションとグローバル3D構造を明確に認識することが3D一貫性の前提条件である,という知見に基づいて構築されたフレームワークである。
論文 参考訳(メタデータ) (2026-05-11T13:11:54Z) - Geometrically Consistent Multi-View Scene Generation from Freehand Sketches [58.98194920417429]
フリーハンドスケッチは、マルチビュージェネレータを提供することができる最も幾何学的に不十分な入力である。
学習データの欠如、歪んだ2次元入力からの幾何学的推論の必要性、ビュー間の整合性という3つの複合的な課題に対処する。
本フレームワークは,参照画像,反復的精細化,シーンごとの最適化を必要とせず,単一のデノナイジングプロセスですべてのビューを合成する。
論文 参考訳(メタデータ) (2026-04-15T18:00:45Z) - FAST3DIS: Feed-forward Anchored Scene Transformer for 3D Instance Segmentation [15.271467111162714]
FAST3DISは、ホット後のクラスタリングを効果的にバイパスするエンドツーエンドのアプローチである。
本稿では,基礎的な奥行きバックボーン上に構築された3Dアンコール型クエリベースのTransformerアーキテクチャを提案する。
複雑な屋内3次元データセットを用いた実験により,本手法が競合セグメンテーション精度を実現することを示す。
論文 参考訳(メタデータ) (2026-03-27T00:45:31Z) - COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation [58.47973015036709]
スパース多視点からの3次元ポーズ推定は、行動認識、スポーツ分析、人間とロボットの相互作用にとって重要な課題である。
ハイパーグラフ問題として多視点ポーズ対応マッチングを定式化する新しいフレームワークComposEを提案する。
COMPOSEは,従来の最適化手法よりも平均23%,自己教師付きエンドツーエンド学習手法より最大11%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-14T18:50:17Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。