論文の概要: GVC-Seg: Training-Free 3D Instance Segmentation via Geometric Visual Correspondence
- arxiv url: http://arxiv.org/abs/2606.08014v1
- Date: Sat, 06 Jun 2026 07:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.663893
- Title: GVC-Seg: Training-Free 3D Instance Segmentation via Geometric Visual Correspondence
- Title(参考訳): GVC-Seg:幾何学的視覚対応による学習不要な3次元インスタンスセグメンテーション
- Authors: Liang Xu, Fangjing Wang, Jinyu Yang, Feng Zheng,
- Abstract要約: 幾何学的視覚対応(GVC-Seg)による学習不要な3Dインスタンスセグメンテーション手法を提案する。
GVC-Segは3次元幾何学的手がかりと2次元視覚的手がかりの対応を利用して、信頼性バイアスを緩和する。
提案手法は,いくつかの挑戦的ベンチマークにおいて最先端の性能を実現するとともに,オープン語彙セマンティックセマンティックセマンティックスセグメンテーション設定に強い可能性を示す。
- 参考スコア(独自算出の注目度): 50.10864740041483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D instance segmentation in point cloud data is critical for machine vision applications. Recent advancements leverage multiple pre-trained foundation models to generate 3D proposals, followed by the application of proposal aggregation methods, which significantly enhance performance. However, they often produce sub-optimal results due to inherent variations in confidence levels across different segmentation models, resulting in a bias toward the model with higher confidence. This bias is inherently model-dependent and is influenced by factors such as data preprocessing techniques and training strategies. To address this bias, we propose a novel, training-free 3D instance segmentation approach via Geometric Visual Correspondence (GVC-Seg), which exploits the correspondence between 3D geometric cues and 2D visual cues to mitigate the confidence bias. Additionally, a 3D proposal generation module and a mask-aware CLIP feature extraction module are introduced during the instance mask generation and instance semantic reasoning, respectively. In this way, GVC-Seg enhances proposal quality assessment, ensuring unbiased ensemble learning across different models. Extensive experiments demonstrate that our method achieves state-of-the-art performance on several challenging benchmarks, while also exhibiting strong potential in open-vocabulary semantic segmentation settings.
- Abstract(参考訳): ポイントクラウドデータの正確な3Dインスタンスセグメンテーションは、マシンビジョンアプリケーションにとって重要である。
近年の進歩は、複数の事前訓練された基礎モデルを利用して3D提案を生成し、続いて、性能を大幅に向上させる提案集約手法の適用が進んでいる。
しかし、それらはしばしば、異なるセグメンテーションモデルにまたがる信頼レベルの固有のばらつきのために、準最適結果を生成し、より高い信頼度を持つモデルに対するバイアスをもたらす。
このバイアスは本質的にモデルに依存しており、データ前処理技術やトレーニング戦略などの要因に影響を受けています。
このバイアスに対処するために,3次元幾何学的手がかりと2次元視覚的手がかりとの対応を利用して,信頼バイアスを緩和する,幾何学的視覚対応(GVC-Seg)による新しい3Dインスタンスセグメンテーション手法を提案する。
さらに、インスタンスマスク生成とインスタンス意味推論の間に、3Dプロポーザル生成モジュールとマスク対応のCLIP特徴抽出モジュールがそれぞれ導入される。
このようにして、GVC-Segは提案の品質評価を強化し、異なるモデル間でのアンサンブル学習を保証します。
大規模な実験により,提案手法はいくつかの挑戦的なベンチマークにおいて最先端の性能を実現するとともに,オープン語彙セマンティックセマンティックセマンティクス設定に強い可能性を示す。
関連論文リスト
- FAST3DIS: Feed-forward Anchored Scene Transformer for 3D Instance Segmentation [15.271467111162714]
FAST3DISは、ホット後のクラスタリングを効果的にバイパスするエンドツーエンドのアプローチである。
本稿では,基礎的な奥行きバックボーン上に構築された3Dアンコール型クエリベースのTransformerアーキテクチャを提案する。
複雑な屋内3次元データセットを用いた実験により,本手法が競合セグメンテーション精度を実現することを示す。
論文 参考訳(メタデータ) (2026-03-27T00:45:31Z) - Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Generalized Zero-Shot Learning for Point Cloud Segmentation with Evidence-Based Dynamic Calibration [12.973924671425074]
3Dポイントクラウドの一般化されたゼロショットセマンティックセマンティックセマンティックセマンティクスは、各ポイントを目に見えないクラスと見えないクラスの両方に分類することを目的としている。
これらのモデルの重大な課題は、バイアスのある予測を行う傾向にあり、しばしばトレーニング中に遭遇するクラスを好んでいることである。
E3DPC-GZSLを提案する。これは、見知らぬデータに対して、別個の分類器に頼ることなく、見知らぬクラスに対する過信予測を減らす。
論文 参考訳(メタデータ) (2025-09-10T04:37:00Z) - Proto-FG3D: Prototype-based Interpretable Fine-Grained 3D Shape Classification [59.68055837500357]
本稿では,3次元形状のきめ細かい分類のためのプロトタイプベースフレームワークProto-FG3Dを提案する。
Proto-FG3Dは、Prototype Associationを介して、共同でマルチビューとマルチカテゴリ表現学習を確立する。
Proto-FG3Dは、精度、透明な予測、そして視覚化によるアドホックな解釈可能性において最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-05-23T09:31:02Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Semi-Supervised Adversarial Recognition of Refined Window Structures for
Inverse Procedural Fa\c{c}ade Modeling [17.62526990262815]
本稿では,逆手続きモデルに組み込んだ半教師付き対角認識戦略を提案する。
既存の3Dモデリングソフトウェアの内部に、単純なプロシージャエンジンが構築され、きめ細かい窓のジオメトリが生成される。
公開されているファサード画像データセットを用いた実験により、提案したトレーニング戦略により、分類精度が約10%向上できることが判明した。
論文 参考訳(メタデータ) (2022-01-22T06:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。