論文の概要: ReSiReg: Towards Spatially Consistent Semantics in Language-Conditioned Robotic Tasks
- arxiv url: http://arxiv.org/abs/2606.19088v1
- Date: Wed, 17 Jun 2026 13:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.188818
- Title: ReSiReg: Towards Spatially Consistent Semantics in Language-Conditioned Robotic Tasks
- Title(参考訳): ReSiReg: 言語記述型ロボット作業における空間的に一貫性のある意味論を目指して
- Authors: Simon Schwaiger, David Seyser, Alessandro Scherl, Wilfried Wöber, Gerald Steinbauer-Wagner,
- Abstract要約: 本稿では,空間的に一貫したVLM中間体を用いて言語検索を改善する特徴再構成手法ReSiRegを提案する。
バックボーン間のOVSSと3Dマッピングを定量的に評価し,実世界の操作シーンで定性的に評価した。
ロボットアプリケーション用の小型25M高密度VLMを,VT-Bベースラインよりも大幅に小さく,かつ競合する。
- 参考スコア(独自算出の注目度): 38.74020024588315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Models (VLMs) enable robots to follow open-language instructions. However, dense VLM embeddings have shown to be noisy and lack spatial consistency. This is problematic for robotic applications, which require simultaneous reasoning over semantics and 3D space. We examine spatial structure across recent VLMs and propose ReSiReg, a feature reconstruction method that uses spatially consistent VLM intermediates to improve dense language-grounded retrieval. ReSiReg clusters intermediates into visual prototypes, derives their language descriptors, and reconstructs each patch as a soft mixture of prototype-level language embeddings. We evaluate quantitatively on OVSS and 3D mapping across backbones, and qualitatively in real-world manipulation scenes. Quantitative results show improved dense retrieval; manipulation scenes show more spatially consistent target activations. We further provide a compact 25M dense VLM for robotic applications, substantially smaller than and competitive with ViT-B baselines. Available at https://resireg.github.io
- Abstract(参考訳): VLM(Vision-Language Models)は、ロボットがオープンソースの指示に従うことを可能にするモデルである。
しかし、密度の高いVLM埋め込みはノイズが多く、空間的一貫性が欠如していることが示されている。
これは、セマンティクスと3D空間を同時に推論する必要があるロボットアプリケーションにとって問題となる。
本稿では,最近のVLMにおける空間構造について検討し,空間的に一貫したVLM中間体を用いて言語検索を改善する特徴再構成手法ReSiRegを提案する。
ReSiRegクラスタは、ビジュアルプロトタイプに中間し、言語記述子を導出し、プロトタイプレベルの言語埋め込みのソフトミックスとして各パッチを再構築する。
バックボーン間のOVSSと3Dマッピングを定量的に評価し,実世界の操作シーンで定性的に評価した。
定量的結果は高密度検索の改善を示し、操作シーンはより空間的に一貫したターゲットアクティベーションを示す。
さらに,VT-Bベースラインと競合する小型の25M高密度VLMをロボットアプリケーションに適用した。
https://resireg.github.ioで入手できる。
関連論文リスト
- Reasmory: 3D Reconstruction as Explicit Memory for VLMs Spatial Reasoning [43.950190960277865]
VLM(Vision-Language Models)は、空間的推論能力の出現を示すが、正確な空間的理解を必要とするタスクには信頼できない。
再構成空間メモリ上での構造化プログラム実行として空間推論を定式化するフレームワークであるtextbfReasmoryを提案する。
Reasmoryは明示的な3Dメモリを構築し、セマンティックな3Dオブジェクトインスタンスで拡張し、軽量なDomain-Specific Languageを導入している。
論文 参考訳(メタデータ) (2026-05-31T02:36:57Z) - VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models [33.748083718525756]
テキスト・ツー・ポイント・クラウド(T2P)のローカライゼーションは、自然言語記述から3次元ポイント・クラウドマップ内の正確な空間位置を推定することを目的としている。
大規模視覚言語モデルの空間的推論能力を活用するフレームワークであるVLM-Locを提案する。
CityLocの実験では、VLM-Locは最先端の手法に比べて精度と堅牢性に優れていた。
論文 参考訳(メタデータ) (2026-03-10T15:48:25Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。