論文の概要: RGB-S: Image-Aligned Tactile Saliency for Robust Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2606.08765v2
- Date: Thu, 11 Jun 2026 07:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.499762
- Title: RGB-S: Image-Aligned Tactile Saliency for Robust Dexterous Manipulation
- Title(参考訳): RGB-S:ロバストデキスタスマニピュレーションのための画像調整型触覚閾値
- Authors: Shengcheng Luo, Kefei Wu, Xiaoying Zhou, Wanlin Li, Ziyuan Jiao, Chenxi Xiao,
- Abstract要約: 本稿では,画像領域に物理的接触を明示する枠組みを提案する。
本手法は,トレーニング済みの視覚表現を保存しながら,身体接触前兆を標準的な視覚バックボーンに注入する。
実世界の実験では、画像領域における明示的なRGB-Sグラウンドは、実世界の排他的操作の成功率を26.7ドルのパーセンテージで改善することを示している。
- 参考スコア(独自算出の注目度): 4.949265216654121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective visuo-tactile integration is critical for robotic dexterous manipulation, especially when visual observations are unreliable or occluded. However, robustly aligning sparse, heterogeneous tactile measurements with dense visual representations remains a fundamental challenge. Most existing approaches require policies to learn cross-modal correspondences implicitly from limited demonstrations, without leveraging geometric priors. As a result, they are often data-inefficient and generalize poorly when visual observations are degraded. To address this limitation, we propose a framework that explicitly grounds physical contacts in the image domain. Using robot forward kinematics and camera calibration, we project tactile sensor locations directly onto the RGB image plane. We then render force-modulated Gaussian saliency maps to model spatial uncertainty arising from kinematic and calibration errors. By integrating these 2D spatial anchors through a zero-initialized conditioning architecture, our method injects physical contact priors into standard visual backbones while preserving pre-trained visual representations. We evaluate our method on six dexterous manipulation tasks in both simulation and the real world under severe visual occlusions. Real-world experiments show that explicit RGB-S grounding in the image domain improves real-world occluded manipulation success rates by $26.7$ percentage points over the strongest implicit visuo-tactile baseline, suggesting its improved spatial reasoning and robustness to occlusion. Project page: touch-as-saliency.github.io
- Abstract(参考訳): 効果的な視触覚統合は、特に視覚的な観察が信頼できない、あるいは無視されている場合に、ロボットの器用な操作に不可欠である。
しかし、密集した視覚表現を持つスパース・ヘテロジニアス・触覚測定は、依然として根本的な課題である。
既存のほとんどのアプローチは、幾何学的先行性を活用することなく、限られたデモンストレーションから暗黙的にクロスモーダル対応を学習するポリシーを必要とする。
その結果、しばしばデータ非効率であり、視覚的な観察が劣化したときには一般化が不十分である。
この制限に対処するため,画像領域に物理的接触を明示する枠組みを提案する。
ロボットフォワードキネマティクスとカメラキャリブレーションを用いて,RGB画像平面に直接触覚センサの位置を投影する。
次に,運動および校正誤差から生じる空間的不確かさをモデル化するために,力変調されたガウス塩分マップを描画する。
これらの2次元空間アンカーをゼロ初期化コンディショニングアーキテクチャにより統合することにより、トレーニング済みの視覚表現を保ちながら、物理的な接触先を標準的な視覚バックボーンに注入する。
重度視覚遮断下でのシミュレーションと実世界における6つの操作課題について評価を行った。
実世界の実験では、画像領域における露骨なRGB-Sの接地により、強い暗黙的ビジュオ触覚ベースラインよりも実世界の排他的操作の成功率が26.7ドルポイント向上し、空間的推論の改善と隠蔽に対する堅牢性が示唆されている。
プロジェクトページ: touch-as-saliency.github.io
関連論文リスト
- GARDEN: Gravity-Aligned Reconstruction of Disentangled ENvironments from RGB images [61.2170105836525]
本稿では,RGBのみのフレームワークを提案する。このフレームワークは,再構成を物理的に地上に配置したシーンファクタ化として再構成し,構造化されたハイブリッドシーン表現を出力する。
結果として得られる表現は、明示的な剛体と分離された背景を組み合わせることで、視覚的リアリズムを維持しながら直接物理シミュレーションを可能にする。
論文 参考訳(メタデータ) (2026-06-02T17:13:01Z) - Trans2Occ: Voxel Occupancy Estimation and Grasp for Transparent Objects from Simulation to Reality [125.76063573012853]
単一ビューRGB入力に基づく透明な物体認識と操作のためのフレームワークを提案する。
提案手法は,1つの画像から直接ボクセル空間の占有率を予測し,下流ロボットの把握を支援する幾何学的表現を提供する。
論文 参考訳(メタデータ) (2026-06-01T06:59:13Z) - A Model-based Visual Contact Localization and Force Sensing System for Compliant Robotic Grippers [11.232660351404684]
変形可能なグリップへの力覚の統合は、コスト、複雑さ、機械的堅牢性、パフォーマンスのトレードオフを交渉する。
現在のアプローチでは、主にエンドツーエンドのディープラーニングを活用しています。
我々は,反復的接触局所化と未知物体への一般化を組み合わせたモデルに基づく視覚力センシング手法を開発した。
論文 参考訳(メタデータ) (2026-05-01T00:34:19Z) - ViserDex: Visual Sim-to-Real for Robust Dexterous In-hand Reorientation [9.303398221598739]
複雑なタスクのダイナミクスを扱うには、オブジェクトのポーズを正確に見積もる必要がある。
RGBセンシングはポーズトラッキングのためのリッチなセマンティックキューを提供するが、既存のソリューションはマルチカメラのセットアップや高価なレイトレーシングに依存している。
本稿では,3次元ガウススプラッティング(3DGS)を統合して視覚的シム-リアルギャップを埋めるモノクラーRGBの直交配向フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-13T07:50:41Z) - TouchAnything: Diffusion-Guided 3D Reconstruction from Sparse Robot Touches [18.3533066960967]
触覚の疎度測定から3次元再構成を行うための意味的および幾何学的先行モデルとして,事前学習した視覚拡散モデルを利用するフレームワークであるTouchAnythingを提案する。
本手法は,数個の接点から正確なジオメトリを再構成し,既存のベースラインを上回り,未確認のオブジェクトのオープンワールド3D再構成を可能にする。
論文 参考訳(メタデータ) (2026-04-10T04:26:36Z) - HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images [81.42866295265443]
高忠実度3Dハンドジオメトリはコンピュータビジョンにおいて重要な課題である。
スケーラブルなアプリケーションは、正確性とデプロイメントの柔軟性の両方を必要とします。
本研究では、3Dハンドメッシュとカメラのポーズを非校正視点から推定するフィードフォワードアーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-25T06:54:34Z) - Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation [82.63833405368159]
ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
論文 参考訳(メタデータ) (2026-02-14T16:05:08Z) - RFTrans: Leveraging Refractive Flow of Transparent Objects for Surface
Normal Estimation and Manipulation [50.10282876199739]
本稿では、透明物体の表面正規化と操作のためのRGB-Dに基づくRFTransを提案する。
RFNetは屈折流、物体マスク、境界を予測し、次いでF2Netは屈折流から表面の正常を推定する。
現実のロボットがタスクをつかむと、成功率は83%となり、屈折流が直接シミュレートから現実への移動を可能にすることが証明される。
論文 参考訳(メタデータ) (2023-11-21T07:19:47Z) - A Distance-Geometric Method for Recovering Robot Joint Angles From an
RGB Image [7.971699294672282]
本稿では,ロボットマニピュレータの関節角度を現在の構成の1つのRGB画像のみを用いて検索する手法を提案する。
提案手法は,構成空間の距離幾何学的表現に基づいて,ロボットの運動モデルに関する知識を活用する。
論文 参考訳(メタデータ) (2023-01-05T12:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。