論文の概要: ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.19340v2
- Date: Fri, 19 Jun 2026 13:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:31.020065
- Title: ZeroDex: Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning
- Title(参考訳): ZeroDex: Multi-View 3D-Grounded VLM Reasoningによるゼロショット長軸方向マニピュレーション
- Authors: Jisoo Kim, Sangwon Baik, Taeksoo Kim, Sungjoo Kim, Junyoung Lee, Mingi Choi, Hanbyul Joo,
- Abstract要約: 我々は、言語命令を実行可能な3Dタスクプランにグルーピングする長距離デキスタラス操作のためのフレームワークであるZeroDexを提示する。
エンド・ツー・エンドのポリシーをトレーニングするのではなく、視覚言語モデル(VLM)を用いて参照フレームのタスクグラウンドとプリミティブレベルの2Dキーポイントを生成する。
単視点RGB-Dグラウンドと微調整VLAベースラインの3次元グラウンド化精度と実行信頼性を向上した。
- 参考スコア(独自算出の注目度): 15.774783801999634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ZeroDex, a zero-shot framework for long-horizon dexterous manipulation that grounds language instructions into executable 3D task plans from calibrated multi-view RGB images. Rather than training an end-to-end policy, our system uses a vision-language model (VLM) to produce reference-frame task grounding and primitive-level 2D keypoints, then lifts them into 3D via multi-view fusion. This lifting combines triangulation of view-wise VLM groundings with reference-view ray voting, which searches along a semantic camera ray for geometrically consistent candidates across neighboring views. The resulting 3D keypoints support both pick-and-place and tool-use: for tool-use, we retrieve an object-centric atomic action corresponding to the inferred skill category and align its stored 6D tool trajectory to the scene; for dexterous execution, we expand the lifted grasp keypoint into a task-conditioned grasp affordance region and generate feasible grasp-motion pairs with an arm-hand motion generator. Real-world experiments show improved 3D grounding accuracy and execution reliability over single-view RGB-D grounding and fine-tuned VLA baselines. We further demonstrate long-horizon manipulation through closed-loop status verification and replan, enabling zero-shot execution on unseen objects and tool-use tasks in novel scenes.
- Abstract(参考訳): 言語命令をキャリブレーションされたマルチビューRGB画像から実行可能な3Dタスクプランにグルーピングする長水平デキスタラス操作のためのゼロショットフレームワークであるZeroDexを提案する。
エンド・ツー・エンドのポリシーをトレーニングする代わりに、視覚言語モデル(VLM)を用いて参照フレームのタスク接地とプリミティブレベルの2Dキーポイントを生成し、それをマルチビュー融合により3Dに引き上げる。
このリフトは、ビューワイズVLMグラウンドディングの三角測量と参照ビューの投票を組み合わせることで、近隣のビューにまたがる幾何学的一貫した候補をセマンティックカメラ線に沿って探索する。
得られた3Dキーポイントは、ピック・アンド・プレイスとツール・ユースの両方をサポートする:ツール・ユースでは、推論されたスキルカテゴリに対応するオブジェクト中心のアトミックアクションを検索し、記憶されている6Dツール軌跡をシーンに合わせる。
実世界の実験では、シングルビューのRGB-Dグラウンドと微調整されたVLAベースラインよりも3次元グラウンドの精度と実行信頼性が向上した。
さらに,閉ループ状態の検証と再計画により,未知のオブジェクトに対するゼロショット実行や,新しいシーンでのツール使用タスクを可能とすることで,長い水平操作を実証する。
関連論文リスト
- AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models [0.0]
3Dビジュアルグラウンド(3DVG)は、AIを具現化する上で不可欠な機能であり、自然言語の記述に基づいて、エージェントがオブジェクトを3Dシーンにローカライズする必要がある。
タスク固有の3Dトレーニングを必要とせずに,色のついた点クラウド上で直接動作する,ゼロショットの3Dビジュアルグラウンドティングフレームワークである。
論文 参考訳(メタデータ) (2026-05-25T14:29:04Z) - PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction [57.63073414949329]
我々は,階層的な3Dポイントクラウド表現をアクションデコーディングプロセスに直接統合する,デュアルシステム3D対応VLAポリシーであるPointACTを提案する。
PointACTは、効率的なボトルネックウィンドウ自己アテンションを備えたマルチスケールのポイントアクションインタラクション機構を採用し、進化するアクショントークンが局所的な幾何学的詳細とグローバルなシーン構造の両方に密に関与できるようにする。
論文 参考訳(メタデータ) (2026-05-20T17:10:31Z) - Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding [34.1504914582344]
3D Visual Groundingは、自然言語記述を通じてオブジェクトを3Dシーンにローカライズすることを目的としている。
生のRGB-Dストリーム上で直接動作する2次元から3次元の再生パラダイムである"Think, Act, Build (TAB)"を提案する。
厳密なVLMセマンティックトラッキングによる多視点カバレッジ障害を克服するために,セマンティックアンコレッド幾何拡張を導入する。
論文 参考訳(メタデータ) (2026-04-01T06:12:16Z) - VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement [66.13644883379087]
MLLMを用いた3次元オブジェクト配置における3つの課題に対処する。
まず、MLLMの弱い視覚的基盤に対処するために、MPPベースのAPIを導入する。
第2に、MLLMの3Dシーン理解を、特殊な視覚ツール群で強化する。
第3に,反復的かつエラーを起こしやすい更新を管理するために,協調的なマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T19:22:39Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。