Fugu-MT 論文翻訳(概要): Vision-Language Model Reasoning for Contextual Semantic Mapping in Intralogistics

論文の概要: Vision-Language Model Reasoning for Contextual Semantic Mapping in Intralogistics

arxiv url: http://arxiv.org/abs/2606.24814v1
Date: Tue, 23 Jun 2026 16:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:49.107753
Title: Vision-Language Model Reasoning for Contextual Semantic Mapping in Intralogistics
Title（参考訳）: 内科領域における文脈意味マッピングのための視覚言語モデル推論
Authors: Marvin Rüdt, Hao Pang, Constantin Enke, Zäzilia Seibold, Kai Furmans,
Abstract要約: 本稿では、SLAMに基づく幾何マッピング、SAMベースのインスタンスセグメンテーション、VLMマルチビュー推論を組み合わせたコンテキスト意味マッピングパイプラインを提案する。パイプラインは、タスク固有のトレーニングや事前定義されたオブジェクトカテゴリを必要とせずに、コンテキストオブジェクトプロパティを推論する。結果のセマンティックマップは、動的イントロロジクス環境におけるコンテキスト認識フィルタリングとロバストナビゲーションをサポートする。
参考スコア（独自算出の注目度）: 2.8218290601001854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous mobile robots operating in intralogistics environments rely on geometric maps for localization and navigation, but lack semantic understanding of objects and their contextual properties. We present a contextual semantic mapping pipeline that combines SLAM-based geometric mapping, SAM-based instance segmentation, instance clustering, and VLM multi-view reasoning to produce a contextual semantic map representation encoding geometric structure, object class, and object movability. By aggregating observations across multiple viewpoints and querying a VLM in a zero-shot, open-vocabulary setting, the pipeline infers contextual object properties--here demonstrated through movability--without requiring task-specific training or predefined object categories. We evaluate three VLMs under two prompting strategies and conduct a component-wise analysis of the pipeline. The proposed pipeline achieves 98.93 % mIoU for semantic classification and 89.17 % mAcc for object movability estimation. Component analysis identifies VLM reasoning as the primary bottleneck for contextual understanding and instance clustering as the main limitation for panoptic performance. The resulting semantic map supports context-aware filtering and robust navigation in dynamic intralogistics environments.
Abstract（参考訳）: 生体内環境で動作する自律移動ロボットは、局所化とナビゲーションのための幾何学的マップに頼っているが、オブジェクトとそのコンテキスト特性のセマンティック理解は欠如している。本稿では、SLAMに基づく幾何マッピング、SAMベースのインスタンスセグメンテーション、インスタンスクラスタリング、VLM多視点推論を組み合わせたコンテキスト意味マッピングパイプラインを提案し、幾何学的構造、オブジェクトクラス、オブジェクトの移動可能性を表現したコンテキスト意味マップ表現を生成する。複数の視点で観察を集約し、ゼロショットでオープンな語彙設定でVLMをクエリすることで、パイプラインは、タスク固有のトレーニングや事前定義されたオブジェクトカテゴリを必要とせずに、移動可能性を通じて、コンテキストオブジェクト特性を推論する。 2つのプロンプト戦略の下で3つのVLMを評価し、パイプラインのコンポーネントワイズ分析を行う。提案したパイプラインは、意味分類のための98.93 % mIoU、オブジェクトの移動可能性推定のための89.17 % mAccを達成する。コンポーネント分析では、VLM推論がコンテキスト理解の主要なボトルネックであり、インスタンスクラスタリングは、汎光学性能の主な限界である。結果のセマンティックマップは、動的イントロロジクス環境におけるコンテキスト認識フィルタリングとロバストナビゲーションをサポートする。

関連論文リスト

SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models [63.28435103335999]
セマンティックオブジェクト対応のための新しいベンチマークであるSOCOを紹介する。視覚基盤のバックボーンは強い意味構造をエンコードするが、関連するカテゴリ間での伝達対応は不十分であることを示す。また,LVLMは画像マッチングよりもテキストプロンプト部分のローカライゼーションが優れていることを示す。
論文参考訳（メタデータ） (2026-05-29T17:58:48Z)
GaLa: Hypergraph-Guided Visual Language Models for Procedural Planning [14.265218749993956]
オブジェクト属性に符号化された暗黙的な空間関係と深い意味構造は、具体化されたAIシステムにおける手続き的計画に不可欠である。マルチモーダルな手続き計画のための視覚言語フレームワークであるGaLaを提案する。 GaLaは,実行成功率,LCS,計画正当性において,既存手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-04-19T04:04:02Z)
OVI-MAP:Open-Vocabulary Instance-Semantic Mapping [108.66131262110095]
OVI-MAPは、RGB-D入力から漸進的に構築される、クラスに依存しない3Dインスタンスマップである。意味的特徴は、視覚言語モデルを用いて、選択された少数のビューからのみ抽出される。我々のシステムはリアルタイムに動作し、標準ベンチマークで最先端のオープン語彙マッピングのベースラインを上回ります。
論文参考訳（メタデータ） (2026-03-27T15:50:59Z)
CMOMgen: Complex Multi-Ontology Alignment via Pattern-Guided In-Context Learning [0.45880283710344066]
複合マルチオントロジーマッチング(CMOM)は、1つのソースエンティティを複数のターゲットエンティティの複合論理式に整合させる。 CMOMgenは、ターゲットやエンティティの数を制限することなくセマンティックマッピングを生成する最初のエンドツーエンド戦略である。
論文参考訳（メタデータ） (2025-10-24T17:12:22Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。 DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Exploiting Contextual Target Attributes for Target Sentiment Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文参考訳（メタデータ） (2023-12-21T11:45:28Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。