論文の概要: OneCanvas: 3D Scene Understanding via Panoramic Reprojection
- arxiv url: http://arxiv.org/abs/2606.19253v1
- Date: Wed, 17 Jun 2026 16:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.269298
- Title: OneCanvas: 3D Scene Understanding via Panoramic Reprojection
- Title(参考訳): OneCanvas:パノラマリジェクションによる3Dシーン理解
- Authors: Bartłomiej Baranowski, Dave Zhenyu Chen, Matthias Nießner,
- Abstract要約: OneCanvasは、すべてのビューのパッチ機能を単一のパノラマキャンバスに集約する。
パッチのメートル法座標を埋め込んだ3D位置が特徴に加えられ、世界が角のキャンバス座標に崩壊したときに失われた深さを復元する。
キャンバスは興味のあるポーズに集中できるので、同じ表現は特定の視点から位置推論を直接サポートする。
- 参考スコア(独自算出の注目度): 50.6678644849432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on complex, model-specific geometry encoders or large training budgets in pursuit of spatial reasoning. Instead, OneCanvas aggregates patch features from all views onto a single equirectangular panoramic canvas. Namely, each patch is unprojected to a 3D world coordinate using its depth and camera pose, then placed on the canvas at the continuous longitude and latitude of that point as seen from the canvas origin, with no rasterization or aggregation across overlapping views. A 3D position embedding of the patch's metric coordinates is added to its feature, restoring the depth lost when collapsing the world position to an angular canvas coordinate. Patches from all frames thus share one spatial coordinate system with no fusion or major architectural modifications of the backbone. The pretrained VLM consumes this representation as if it were an ordinary image. Because the canvas can be centered on any pose of interest, the same representation directly supports situated reasoning from a specific viewpoint, a common requirement in robotics and embodied AI. Thanks to this representation, we can also introduce a spatial pretraining curriculum: by procedurally placing patch features of objects, drawn from real images, at chosen 3D world positions on an otherwise empty canvas, we generate on-the-fly supervision spanning a broad range of spatial reasoning tasks, with answer distributions controlled to reduce spatial reasoning shortcuts. OneCanvas achieves state-of-the-art accuracy on SQA3D and VSI-Bench, and generalizes to out-of-distribution data on SPBench, using an order of magnitude less training compute than the strongest competing methods.
- Abstract(参考訳): 視覚言語モデル(VLM)における既存の3Dシーン理解へのアプローチは、複雑な、モデル固有の幾何学エンコーダか、空間的推論を追求する大規模な訓練予算に依存している。
代わりにOneCanvasは、すべてのビューからパッチ機能を単一の正方形パノラマキャンバスに集約する。
すなわち、それぞれのパッチはその深さとカメラのポーズを使って3D世界座標に投影されず、その点の連続した経度と緯度でキャンバス上に置かれる。
パッチのメートル法座標の3次元位置埋め込みが特徴に加えられ、世界位置を角のキャンバス座標に折り畳む際に失われる深さを復元する。
すべてのフレームからのパッチは、1つの空間座標系を共有し、融合やバックボーンのアーキテクチャ変更はない。
事前訓練されたVLMは、この表現を通常の画像のように消費する。
キャンバスはどんなポーズでも中心にすることができるため、同じ表現は特定の視点から、ロボット工学や具現化されたAIにおいて共通の要件である位置推論を直接サポートする。
この表現により、空間的事前学習のカリキュラムも導入でき、実際の画像から抽出されたオブジェクトのパッチ特徴を、空のキャンバス上に選択した3次元世界位置にプロシージャ的に配置することで、空間的推論タスクの幅広い範囲にわたるオンザフライ監視を生成し、空間的推論ショートカットを減らすために回答分布を制御できる。
OneCanvas は SQA3D と VSI-Bench で最先端の精度を達成し,SPBench の出力外データに一般化する。
関連論文リスト
- Dexterity-BEV: Aligning 3D World and Actions for Generalizable Robot Policies Learning [51.799524981291235]
エンドツーエンドの操作ポリシーは、汎用的で巧妙なロボット操作を約束することを示している。
2Dファンデーションモデルから2つの重要な制限を継承する。
これらの問題に対処するために、一連のコントリビューションを提示します。
論文 参考訳(メタデータ) (2026-06-01T14:01:11Z) - Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence [28.712695548782037]
我々は,高密度対応とグローバル検索を統一する基盤モデルであるTango3Dを提案する。
画像の2次元パッチへのエンコードや,雲の3次元トークンへのポインティングには,幾何学的に認識された2次元視覚バックボーンと,事前訓練された3次元VAEを用いる。
実験により, 競合するグローバル検索を維持しつつ, オブジェクトレベルの画素間アライメントを実現することができた。
論文 参考訳(メタデータ) (2026-05-19T12:01:23Z) - Geometry-Guided 3D Visual Token Pruning for Video-Language Models [35.786221225043455]
我々はGeo3DPrunerを提案する。
Geo3DPrunerは、まず、幾何学的に認識されたグローバルな注意を通して、クロスフレームの関連性をモデル化し、2段階のプルーニングプロセスを実行する。
複数の3Dシーン理解ベンチマークの実験では、Geo3DPrunerは元の性能の90%以上を維持し、ビジュアルトークンの90%をプルーニングし、既存のテキスト誘導型および視覚誘導型プルーニング法を著しく上回っている。
論文 参考訳(メタデータ) (2026-04-20T13:33:50Z) - Pano360: Perspective to Panoramic Vision with Geometric Consistency [7.713672589538202]
我々は新しいトランスフォーマーベースのアーキテクチャを採用し、すべての視点で3D認識とグローバル情報を集約する。
評価ベンチマークを確立し,ネットワークをトレーニングするために,実世界のシーンの大規模データセットを構築した。
論文 参考訳(メタデータ) (2026-03-12T14:56:14Z) - 3D Congealing: 3D-Aware Image Alignment in the Wild [44.254247801001675]
3D Congealingは、意味的に類似したオブジェクトをキャプチャする2D画像の3D対応アライメントの問題である。
形状テンプレートやポーズ,あるいは任意のカメラパラメータを仮定することなく,タスクに対処する一般的なフレームワークを導入する。
我々のフレームワークは、対応マッチング、ポーズ推定、画像編集といった様々なタスクに利用できる。
論文 参考訳(メタデータ) (2024-04-02T17:32:12Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CAPE: Camera View Position Embedding for Multi-View 3D Object Detection [100.02565745233247]
現在のクエリベースの手法は、画像と3次元空間の幾何学的対応を学習するために、グローバルな3D位置埋め込みに依存している。
本稿では,CAPE と呼ばれる,CAmera view position Embedding に基づく新しい手法を提案する。
CAPEはnuScenesデータセット上の全てのLiDARフリーメソッドの中で最先端のパフォーマンス(61.0% NDSと52.5% mAP)を達成する。
論文 参考訳(メタデータ) (2023-03-17T18:59:54Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。