論文の概要: Lightweight 3D Feature Pretraining by Bayesian Inversion of 2D Foundation Models
- arxiv url: http://arxiv.org/abs/2606.21292v1
- Date: Fri, 19 Jun 2026 10:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:36:29.494417
- Title: Lightweight 3D Feature Pretraining by Bayesian Inversion of 2D Foundation Models
- Title(参考訳): ベイズインバージョンによる2次元基礎モデルの軽量3次元特性予測
- Authors: Marwane Hariat, Gianni Franchi, David Filliat, Antoine Manzanera,
- Abstract要約: ノイズの多い多視点2次元基礎モデル埋め込みを潜在3次元表現に変換するための軽量な確率的フレームワークであるCasper3Dを提案する。
ビューレベルのセマンティックな特徴を、基礎となる3次元セマンティックな状態のノイズの多い観測としてモデル化し、この状態をセットベース変分モデルで推測する。
実験によると、Casper3Dは単純なマルチビュープーリングよりも安定な3Dセマンティクスを生成する。
- 参考スコア(独自算出の注目度): 15.931354477455445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Casper3D, a lightweight probabilistic framework for converting noisy multi-view 2D foundation-model embeddings into a latent 3D semantic representation. We model view-level semantic features as noisy observations of an underlying 3D semantic state and infer this state with a set-based variational model that incorporates relative pose during multi-view reasoning. Casper3D is trained by predicting held-out semantic observations from novel viewpoints, while remaining aligned with visual and text semantic spaces for open-vocabulary 3D understanding. The framework is backbone-agnostic and applies to both language-aligned and self-supervised embeddings. Experiments show that Casper3D produces more stable 3D semantics than simple multi-view pooling, especially in ambiguous and noisy settings.
- Abstract(参考訳): 雑音の多い多視点2次元基礎モデル埋め込みを潜在3次元意味表現に変換するための軽量な確率的フレームワークであるCasper3Dを提案する。
ビューレベルのセマンティックな特徴を基礎となる3次元セマンティックな状態のノイズの多い観測としてモデル化し、マルチビュー推論における相対的なポーズを含むセットベース変分モデルを用いてこの状態を推定する。
Casper3Dは、新しい視点から保持されたセマンティックな観察を予測しながら、オープンな語彙の3D理解のために視覚的およびテキスト的なセマンティックな空間と整合して訓練される。
フレームワークはバックボーンに依存しないため、言語対応および自己教師型埋め込みの両方に適用できる。
実験によると、Casper3Dは単純なマルチビュープーリングよりも安定な3Dセマンティクスを生成する。
関連論文リスト
- EPS3D: End-to-End Feed-Forward 3D Panoptic Segmentation [92.9295124221522]
EPS3Dは、オープンな3Dパノラマセグメンテーションのためのエンドツーエンドフィードフォワードフレームワークである。
マルチビューイメージからセマンティックとインスタンスの機能を予測し、3D一貫性を改善し、エラーの蓄積を避ける。
ロボット操作や3Dシーン編集などのタスクをサポートする。
論文 参考訳(メタデータ) (2026-06-08T03:26:54Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Pts3D-LLM: Studying the Impact of Token Structure for 3D Scene Understanding With Large Language Models [9.658828841170472]
本研究は,3次元トークン構造に関する厳密な研究であり,映像ベースおよび点ベース表現を体系的に比較する。
本稿では,ソナタで事前学習したポイントトランスフォーマーV3エンコーダの3Dポイントクラウド機能を組み込むことで,視覚トークンを充実させる手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T02:35:26Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。