論文の概要: Rethinking Implicit Spatial Representation in Visuomotor Policy Learning
- arxiv url: http://arxiv.org/abs/2606.15232v1
- Date: Sat, 13 Jun 2026 10:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.141499
- Title: Rethinking Implicit Spatial Representation in Visuomotor Policy Learning
- Title(参考訳): ビジュモータ政策学習における不必要空間表現の再考
- Authors: Xiangyu Chen, Yuxuan Hu, Chuhao Zhou, Jianfei Yang,
- Abstract要約: 空間的ソフトマックスに基づく表現は、以前のビジュモータ政策で採用されているが、その効果と基盤となるメカニズムは未だ十分に理解されていない。
このような暗黙的な空間表現は、ロボット操作に効果的で安定した視覚的特徴を提供するだろうか?
マルチスケールな暗黙空間情報をトップダウン・クロスアテンション・フュージョンで保存するビジュアルエンコーダであるPRISMを提案する。
- 参考スコア(独自算出の注目度): 22.442124852908908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative model-based imitation learning has become a widely adopted paradigm for robotic manipulation, where policy performance depends critically on the conditioned visual representations. Although spatial softmax-based representations have been adopted in prior visuomotor policies, their effectiveness and underlying mechanisms remain insufficiently understood. This work rethinks the use of spatial softmax pooling: do such implicit spatial representations provide effective and stable visual features for robotic manipulation? Through systematic studies of different pooling methods in visual encoders, we find that this pooling operation produces compact and stable spatial representations, which outperform feature-value representations, despite using substantially fewer dimensions. Complementary saliency analysis further suggests that these spatial representations guide the encoder to focus more consistently on task-relevant regions. However, this advantage is limited by a representation bottleneck in current visual encoders: repeated downsampling operations weaken fine-grained spatial information before the action-generation module can use it, especially under low-resolution observations. Motivated by these findings, we propose PRISM, a visual encoder that preserves multiscale implicit spatial information through top-down cross-attention fusion. Experiments across multiple tasks and policy backbones show consistent improvements. In particular, on the low-resolution, high-precision ToolHang task, PRISM shows clear gains, improving the average success rate from 5.0% to 13.4% while increasing parameters by only 15.4%. These results support the use of multiscale implicit spatial representations as an effective and efficient design principle for robotic manipulation.
- Abstract(参考訳): 生成モデルに基づく模倣学習はロボット操作のパラダイムとして広く採用されている。
空間的ソフトマックスに基づく表現は、以前のビジュモータ政策で採用されているが、その効果と基盤となるメカニズムは未だ十分に理解されていない。
このような暗黙的な空間表現は、ロボット操作に効果的で安定した視覚的特徴を提供するだろうか?
視覚エンコーダにおける異なるプーリング手法の系統的研究により、このプーリング操作は、ほぼ少ない次元のにもかかわらず、特徴値表現よりも優れたコンパクトで安定した空間表現を生成することが判明した。
補足サリエンシ分析により,これらの空間表現がエンコーダをタスク関連領域に一貫した集中に導くことが示唆された。
しかし、この利点は現在の視覚エンコーダにおける表現ボトルネックによって制限されており、特に低分解能観測下では、アクションジェネレーションモジュールがそれを使用する前に、繰り返しダウンサンプリング操作によってきめ細かな空間情報が弱まる。
これらの知見に触発されたPRISMは,マルチスケールの暗黙的空間情報をトップダウン・クロスアテンション・フュージョンを通じて保存するビジュアルエンコーダである。
複数のタスクとポリシーバックボーンにわたる実験は、一貫した改善を示している。
特に、低解像度で高精度なToolHangタスクでは、PRISMは明確な利得を示し、平均成功率を5.0%から13.4%に改善し、パラメータを15.4%増加させた。
これらの結果は、ロボット操作のための効率的かつ効率的な設計原理として、多スケールの暗黙的空間表現の使用を支援する。
関連論文リスト
- MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation [45.363862148738114]
簡単なデータ収集パラダイムである textbfMOtion-based Variability Enhancement (emphMOVE) を提案する。
私たちのコアコントリビューションは、デモ毎に環境内の任意の可動オブジェクトに動きを注入する拡張戦略です。
emphMOVEの平均成功率は39.1%であり、静的データ収集パラダイムよりも76.1%向上している。
論文 参考訳(メタデータ) (2025-12-04T14:03:54Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Multi-Grained Feature Pruning for Video-Based Human Pose Estimation [19.297490509277463]
人間のポーズ推定のための新しいマルチスケール・解像度・フレームワークを提案する。
我々は,重要な意味情報を提供するトークンを識別するために,密度クラスタリング手法を用いる。
提案手法は,ベースラインに比べて推論速度が93.8%向上した。
論文 参考訳(メタデータ) (2025-03-07T12:14:51Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition [6.468510459310326]
サンプル空間の概念を導入し,LiDARを用いた位置認識のための新しいサンプリング手法を提案する。
このアプローチは、さまざまなデータセット間で堅牢なパフォーマンスを示し、屋内シナリオから屋外シナリオへのシームレスな適応を可能にします。
論文 参考訳(メタデータ) (2024-10-03T16:29:47Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。