論文の概要: VISA: VLM-Guided Instance Semantic Auditing for 3D Occupancy World Models
- arxiv url: http://arxiv.org/abs/2606.13460v1
- Date: Thu, 11 Jun 2026 15:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.877392
- Title: VISA: VLM-Guided Instance Semantic Auditing for 3D Occupancy World Models
- Title(参考訳): VISA:3次元業務世界モデルのためのVLMガイド型セマンティック監査
- Authors: Ruiqi Xian, Yuehan Xian, Jing Liang, Xuewei Qi, Dinesh Manocha,
- Abstract要約: 本稿では,3Dボクセルやオブジェクトの特徴を作物の捕集型埋め込みと整合させ,テキスト空間の類似性を向上すると共に,クローズドセット占有率mIoUを確実に向上させるような共通VLM戦略を示す。
このミスマッチに触発され、既存の占領世界モデルのための訓練時意味監査手法であるVISAを提案する。
- 参考スコア(独自算出の注目度): 41.775659029491564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic 3D occupancy provides a voxelized world state for autonomous driving and robot decision making, but object and rare-class errors can affect free-space interpretation, collision checking, and temporal state propagation. We show that a common VLM strategy, aligning 3D voxel or object features with crop-caption embeddings, improves text-space similarity without reliably improving closed-set occupancy mIoU. Motivated by this mismatch, we propose VISA, a training-time semantic auditing approach for existing occupancy world models. VISA queries an offline VLM on a representative crop of each physical object instance, obtains a structured audit with class hypotheses, plausible confusions, reliability, attributes, and evidence, and propagates it along the object track. The audit is grounded to matched 3D object voxels and distilled into semantic logits through reliability-weighted taxonomy, attribute-factor, and scene-level audit graph losses, while inference remains unchanged and requires no VLM. On nuScenes, averaged across three runs, VISA improves OccWorld from 19.06 to 20.05 mIoU and GaussianWorld from 21.36 to 21.91 mIoU; on GaussianWorld, object mIoU improves from 18.18 to 19.16 and rare-class mIoU from 15.60 to 16.79. These results suggest that VLMs are better suited to closed-set occupancy as reliability-aware semantic auditors than as generic caption-embedding targets.
- Abstract(参考訳): セマンティック3Dの占有は、自律運転とロボット決定のためのボキセル化された世界状態を提供するが、オブジェクトとレアクラスのエラーは、自由空間の解釈、衝突チェック、時間的状態の伝播に影響を与える可能性がある。
我々は,3Dボクセルやオブジェクトの特徴を作物の捕集型埋め込みと整合させる共通VLM戦略が,クローズドセット占有率mIoUを確実に向上させることなく,テキスト空間の類似性を向上することを示した。
このミスマッチに触発され、既存の占領世界モデルのための訓練時意味監査手法であるVISAを提案する。
VISAは、各物理オブジェクトインスタンスの代表的作物についてオフラインのVLMをクエリし、クラス仮説、妥当な混乱、信頼性、属性、エビデンスで構造化された監査を取得し、オブジェクトトラックに沿って伝播する。
監査は3Dオブジェクトのボクセルと一致し、信頼性の高い分類、属性ファクター、シーンレベルの監査グラフの損失を通じてセマンティックロジットに蒸留され、推論は変わらずVLMを必要としない。
VISAはOccWorldを19.06mIoUから20.05mIoU、GaussianWorldを21.36mIoUから21.91mIoUに改善し、GaussianWorldではオブジェクトmIoUは18.18mから19.16mIoU、レアクラスのmIoUは15.60mIoUから16.79mIoUに改善した。
これらの結果から,VLMは汎用的なキャプション埋め込みターゲットよりも,信頼性に配慮したセマンティックオーディショナーとして,クローズドセットの占有に適していることが示唆された。
関連論文リスト
- CANMOT: Class-Aware Noise Modeling for Multi-Object Tracking in Autonomous Driving [1.2744523252873352]
CANMOTは、KFベースの3DMOTのためのクラス認識およびオブジェクト指向ノイズモデリングフレームワークである。
実験により、クラス認識とオブジェクト指向ノイズモデリングにより、トラッキング性能が向上し、アイデンティティが大幅に低減されることが示された。
結果は,標準KFベースのMOTベースラインにおいて極めて過信感を示す。
論文 参考訳(メタデータ) (2026-06-02T12:56:31Z) - FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - To Trust Or Not To Trust Your Vision-Language Model's Prediction [32.26134619728882]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2025-05-29T17:59:01Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文 参考訳(メタデータ) (2024-12-30T01:34:14Z) - The Unreasonable Effectiveness of Large Language-Vision Models for
Source-free Video Domain Adaptation [56.61543110071199]
Source-Free Video Unsupervised Domain Adaptation (SFVUDA)タスクは、ラベル付きソースデータセットでトレーニングされたアクション認識モデルを、ラベル付きターゲットデータセットに適応させることによって構成される。
従来のアプローチでは、ターゲットデータ自体から派生した自己スーパービジョンを活用してSFVUDAに対処しようと試みてきた。
我々は、LLVMがドメインシフトに対して驚くほど堅牢になる前に、リッチな世界を含むという理論によって、LLVM(Large Language-Vision Models)から"web-supervision"を利用するアプローチを取る。
論文 参考訳(メタデータ) (2023-08-17T18:12:05Z) - Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency [90.71745178767203]
ディープラーニングに基づく3Dオブジェクト検出は、大規模な自律走行データセットの出現によって、前例のない成功を収めた。
既存の3Dドメイン適応検出手法は、しばしばターゲットのドメインアノテーションへの事前アクセスを前提とします。
我々は、ソースドメインアノテーションのみを利用する、より現実的な、教師なしの3Dドメイン適応検出について研究する。
論文 参考訳(メタデータ) (2021-07-23T17:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。