論文の概要: GeoHAT: Geometry-Adaptive Hybrid Action Transformer for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2606.13394v1
- Date: Thu, 11 Jun 2026 14:25:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.849115
- Title: GeoHAT: Geometry-Adaptive Hybrid Action Transformer for Mobile Manipulation
- Title(参考訳): GeoHAT: 移動マニピュレーションのための幾何適応ハイブリッド動作変換器
- Authors: Xiangyu Zhu, Renjun Wu, Luzhou Ge, Jinyan Liu, Xuesong Li,
- Abstract要約: 全体移動操作には移動基地とマニピュレータの調整が必要である。
我々は、シンプルな原理に基づいて構築された、エンドツーエンドの拡散ベースのフレームワークGeoHATを提案する。
ManiSkill-HABシミュレーションベンチマークの実験では、GeoHATが79.3%の成功率を達成した。
- 参考スコア(独自算出の注目度): 6.488530751190965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-body mobile manipulation requires coordinating mobile base and manipulator under shifting viewpoints, posing challenges in geometric perception and action generation. Current policies either rely on 2D features or sparse 3D representations that lack dense spatial structure, and typically encode arm and base within one action vector that ignores their distinct control demands. Moreover, existing dense fusion strategies risk corrupting pretrained representations under noisy depth while incurring heavy computational overhead. We present GeoHAT, an end-to-end diffusion-based framework built on a simple principle: geometry should be injected only where reliable and attended to only where needed. GeoHAT employs a lightweight Fourier spatial encoder that maps dense per-pixel 3D coordinates into geometric tokens without an additional 3D vision backbone. These tokens are then selectively injected into vision foundation model features through per-token gated fusion modulated by depth validity, preserving the semantic prior while enriching spatial understanding. For action generation, a Hybrid Whole-Body Action Decoder decomposes arm and base into distinct subspaces and lets each action modality attend to its task-relevant visual context through sparse cross-attention, while causal temporal modeling captures intra-timestep coordination and inter-timestep dependencies. Experiments on the ManiSkill-HAB simulation benchmark demonstrate that GeoHAT achieves a 79.3% mean success rate, surpassing the strongest baseline by 23.7%. Furthermore, real-world experiments on diverse tasks also confirm consistent improvements over all baselines.
- Abstract(参考訳): 全体移動操作では、移動体ベースとマニピュレータを移動視点で調整し、幾何学的知覚と行動生成の課題を提起する必要がある。
現在のポリシーは、密集した空間構造を欠いた2D特徴または疎らな3D表現に依存し、通常、それぞれの制御要求を無視した1つのアクションベクトル内で腕とベースをエンコードする。
さらに、既存の高密度核融合戦略は、重い計算オーバーヘッドを発生させながら、ノイズの深い深さ下で事前訓練された表現を破損させるリスクを負う。
GeoHATは、単純な原則に基づいて構築された、エンドツーエンドの拡散ベースのフレームワークである。
GeoHATは軽量のFourier空間エンコーダを採用しており、3Dビジョンバックボーンを追加せずに、高密度の3D座標を幾何学的トークンにマッピングする。
これらのトークンは、奥行きの妥当性によって変調されたトークンごとのゲート融合によって視覚基礎モデルの特徴に選択的に注入され、空間的理解を豊かにしながら、その意味を前もって保存する。
アクション生成では、Hybrid Whole-Body Action Decoderがアームとベースを別々のサブスペースに分解し、各アクションのモダリティがタスク関連ヴィジュアルコンテキストにスパースなクロスアテンションを通して参加できるようにする。
ManiSkill-HABシミュレーションベンチマークの実験では、GeoHATの平均成功率は79.3%で、最強のベースラインを23.7%上回った。
さらに、多様なタスクに関する実世界の実験では、すべてのベースラインに対する一貫した改善も確認されている。
関連論文リスト
- GemDepth: Geometry-Embedded Features for 3D-Consistent Video Depth [12.866152238833104]
ビデオ深度推定は、一眼的予測を時間領域に拡張し、コヒーレンスを確保する。
現在のアプローチは主にトランスフォーマーによる時間的平滑化に依存しており、厳密な3次元幾何学的整合性を維持するのに苦労している。
GemDepthは,カメラモーションとグローバル3D構造を明確に認識することが3D一貫性の前提条件である,という知見に基づいて構築されたフレームワークである。
論文 参考訳(メタデータ) (2026-05-11T13:11:54Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文 参考訳(メタデータ) (2025-11-12T18:59:08Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。