論文の概要: Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.18472v1
- Date: Tue, 16 Jun 2026 20:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.893299
- Title: Domain Generalizable Adaptation of 3D Vision-Language Models via Regularized Fine-Tuning
- Title(参考訳): 正規化ファインチューニングによる3次元視覚言語モデルのドメイン一般化可能な適応
- Authors: Sneha Paul, Zachary Patterson, Nizar Bouguila,
- Abstract要約: 本稿では,ReFine3Dについて紹介する。ReFine3Dは3次元大規模マルチモーダルモデルのドメイン一般化可能なチューニングのための規則化された微調整フレームワークである。
ReFine3Dは、ベース・ツー・ノーベル・クラスの一般化を1.36%改善し、データセット間の転送を2.43%改善し、破損に対する堅牢性を1.80%改善し、ショット精度を最大3.11%向上した。
- 参考スコア(独自算出の注目度): 22.63554774942836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptation remains a central challenge in 3D vision, especially for multimodal foundation models that align 3D point clouds with visual and textual data. While these models demonstrate strong general capabilities, adapting them to downstream domains with limited data often leads to overfitting and catastrophic forgetting. To address this, we introduce ReFine3D, a regularized fine-tuning framework designed for domain-generalizable tuning of 3D large multimodal models (LMMs). ReFine3D combines selective layer tuning with two targeted regularization strategies: multi-view consistency across augmented point clouds and text diversity through synonym-based prompts generated by large language models. Additionally, we incorporate point-rendered vision supervision and a test-time augmentation mechanism with confidence-based aggregation to further enhance robustness. Extensive experiments across different 3D domain generalization benchmarks show that ReFine3D improves base-to-novel class generalization by 1.36%, cross-dataset transfer by 2.43%, robustness to corruption by 1.80%, and few-shot accuracy by up to 3.11%, outperforming prior state-of-the-art methods with minimal added computational overhead.
- Abstract(参考訳): ドメイン適応は、特に3Dポイントクラウドを視覚的およびテキストデータと整合させるマルチモーダル基盤モデルにおいて、3Dビジョンにおいて依然として中心的な課題である。
これらのモデルは強力な汎用能力を示しているが、限られたデータで下流のドメインに適応することで、過度に適合し、破滅的な忘れがもたらされる。
そこで本研究では,3次元大規模マルチモーダルモデル(LMM)のドメイン一般化可能なチューニングを目的とした,正規化ファインチューニングフレームワークReFine3Dを紹介する。
ReFine3Dは、選択的なレイヤチューニングと、拡張ポイントクラウド間のマルチビュー一貫性と、大規模言語モデルによって生成された同義語ベースのプロンプトによるテキストの多様性の2つのターゲット正則化戦略を組み合わせる。
さらに,信頼性に基づくアグリゲーションを付加した点レンダリング型視覚監視機構とテスト時間拡張機構を導入し,ロバスト性をさらに向上する。
異なる3Dドメインの一般化ベンチマークによる大規模な実験により、ReFine3Dはベース・ツー・ノーベルのクラス一般化を1.36%改善し、データセット間の転送を2.43%改善し、破損に対する堅牢性は1.80%向上し、ショット精度は3.11%向上し、計算オーバーヘッドが最小限に抑えられた。
関連論文リスト
- From Dataset to Real-world: General 3D Object Detection via Generalized Cross-domain Few-shot Learning [13.282416396765392]
本稿では,3次元オブジェクト検出においてGCFS(Generalized Cross-domain few-shot)タスクを導入する。
本ソリューションでは,マルチモーダル融合とコントラスト強化型プロトタイプ学習を1つのフレームワークに統合する。
限定対象データから各クラスに対するドメイン固有表現を効果的に捉えるために,コントラスト強化型プロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2025-03-08T17:05:21Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - GCA-3D: Towards Generalized and Consistent Domain Adaptation of 3D Generators [24.67369444661137]
GCA-3Dはデータ生成の複雑なパイプラインを使わずに汎用的で一貫した3Dドメイン適応法である。
我々は,非逆方向の3次元生成モデルに効率よく適応するために,多モード深度対応型スコア蒸留サンプリング損失を導入する。
実験により, GCA-3Dは, 効率, 一般化, 精度, アイデンティティの整合性の観点から, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-20T02:13:11Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection [71.78795573911512]
textbfOneDet3Dは、異なるドメイン間での3D検出に対処する汎用的なワン・ツー・オール・モデルである。
本稿では、データ干渉問題に対処するため、ルーティング機構によって誘導される散乱とコンテキストにおけるドメイン認識を提案する。
完全なスパース構造とアンカーフリーヘッドは、さらに大きなスケールの差のある点雲を収容する。
論文 参考訳(メタデータ) (2024-11-03T14:21:56Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-28T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。