論文の概要: QueryGaussian: Scalable and Training-Free Open-Vocabulary 3D Instance Retrieval
- arxiv url: http://arxiv.org/abs/2606.19733v1
- Date: Thu, 18 Jun 2026 02:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.622261
- Title: QueryGaussian: Scalable and Training-Free Open-Vocabulary 3D Instance Retrieval
- Title(参考訳): QueryGaussian: スケーラブルでトレーニング不要なOpen-Vocabulary 3Dインスタンス検索
- Authors: Xiuyuan Zhu, Ke Lu, Zijie Yang, Chao Yue, Jian Xue, Dongming Zhang,
- Abstract要約: QueryGaussianは、高速でスケーラブルなオープンな3Dインスタンス検索のためのトレーニング不要のフレームワークである。
トレーニング済みの2次元視覚モデルを用いて,ユーザのプロンプトを解釈し,セグメンテーションマスクを3Dに変換する。
また,プロジェクションのあいまいさを軽減するため,多段適応密度クラスタリングを備えた時間融合モジュールを導入する。
- 参考スコア(独自算出の注目度): 19.833205230045074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently retrieving specific 3D instances from large-scale scenes via natural language prompts remains a formidable challenge in multimedia analysis. Existing approaches predominantly follow a "scene-level embedding" paradigm, which requires distilling high-dimensional semantic features into every 3D primitive. This strategy suffers from a fundamental architectural bottleneck: memory and computational costs scale linearly with scene complexity, inevitably triggering out-of-memory (OOM) failures in city-scale environments. To address this barrier, we propose QueryGaussian, a training-free framework for expeditious and scalable open-vocabulary 3D instance retrieval. Unlike holistic semantic distillation, QueryGaussian employs an instance-level query mechanism that decouples semantic understanding from geometric representation. Specifically, we leverage pre-trained 2D vision models to interpret user prompts and lift segmentation masks into 3D via a concurrent maximum-weight association strategy, ensuring semantic-visual consistency. To mitigate projection ambiguity, we introduce a temporal fusion module with multi-stage adaptive density clustering. Experimental results demonstrate that QueryGaussian not only matches the accuracy of state-of-the-art methods but also delivers a decisive efficiency leap, reducing GPU memory usage by over 70% and accelerating inference by 180x. Crucially, QueryGaussian enables expeditious instance retrieval on city-scale scenes containing tens of millions of Gaussians using consumer-grade hardware.
- Abstract(参考訳): 自然言語のプロンプトを通じて大規模なシーンから、特定の3Dインスタンスを効率よく取得することは、マルチメディア分析において深刻な課題である。
既存のアプローチは主に「シーンレベルの埋め込み」パラダイムに従っており、3Dプリミティブごとに高次元のセマンティックな特徴を蒸留する必要がある。
この戦略は基本的なアーキテクチャ上のボトルネックに悩まされる: メモリと計算コストはシーンの複雑さと線形にスケールし、必然的に都市規模環境でのメモリ外障害(OOM)を引き起こす。
この障壁に対処するために、我々はQueryGaussianを提案する。これは、高速でスケーラブルなオープンな3Dインスタンス検索のためのトレーニング不要のフレームワークである。
全体論的意味蒸留とは異なり、QueryGaussianは、幾何学的表現から意味的理解を分離するインスタンスレベルのクエリメカニズムを採用している。
具体的には、事前学習された2次元視覚モデルを利用して、ユーザプロンプトとセグメンテーションマスクを3Dに解釈し、同時に最大重み付け戦略により、セグメンテーションマスクを3Dにリフトし、セグメンテーションと視覚の整合性を確保する。
プロジェクションのあいまいさを軽減するため,多段適応密度クラスタリングを用いた時間融合モジュールを導入する。
実験の結果、QueryGaussianは最先端のメソッドの精度と一致しただけでなく、決定的な効率向上を実現し、GPUメモリ使用量を70%以上削減し、推論を180倍高速化した。
重要な点として、QueryGaussianは、コンシューマグレードのハードウェアを使用して、数千万ガウスのガウシアンを含む都市規模のシーンの高速なインスタンス検索を可能にする。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion [89.98812408058336]
textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-10-21T03:24:12Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - CAGS: Open-Vocabulary 3D Scene Understanding with Context-Aware Gaussian Splatting [18.581169318975046]
3D Gaussian Splatting (3DGS) はシーン再構築のための強力な表現を提供するが、相互視の粒度の不整合は問題である。
空間コンテキストを3DGSに組み込んだ新しいフレームワークCAGSを提案する。
CAGSは3Dインスタンスのセグメンテーションを大幅に改善し、LERF-OVSやScanNetといったデータセットのフラグメンテーションエラーを低減する。
論文 参考訳(メタデータ) (2025-04-16T09:20:03Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。
本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。
提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-28T16:08:36Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。