論文の概要: HT-Bench: Benchmarking and Learning Dexterous Full-Hand Tactile Representations with Egocentric Vision
- arxiv url: http://arxiv.org/abs/2606.19161v1
- Date: Wed, 17 Jun 2026 15:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.226722
- Title: HT-Bench: Benchmarking and Learning Dexterous Full-Hand Tactile Representations with Egocentric Vision
- Title(参考訳): HT-Bench:エゴセントリックビジョンを用いたデクサラスフルハンド触覚表現のベンチマークと学習
- Authors: Yuzhe Huang, Jiaping Wu, Jiaming Jiang, Hezhe Lin, Aikebaier Aierken, Yunlong Wang, Kun Cheng, Ziyuan Jiao, Yuanxin Zhong,
- Abstract要約: HT-Benchは、デキスタラスなフルハンド触覚センシングのための大規模なベンチマークである。
HandTouchはベクトル量子化された視覚触覚エンコーダで、プログレッシブな空間、クロスモーダル、時間的トレーニングを通じて触覚表現を学習する。
- 参考スコア(独自算出の注目度): 7.104046531938793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing a universal benchmark for tactile representation learning in robotic manipulation remains challenging due to the diversity of tactile sensor designs, data formats, and robot embodiments. Rather than seeking to establish such, we explore a scalable and promising direction for future development: egocentric vision paired with full-hand tactile data. To this end, we introduce \textbf{HT-Bench}, a large-scale multi-task benchmark for dexterous full-hand tactile sensing, comprising 10M RGB frames and 7.8M tactile frames collected across 226 tasks. HT-Bench evaluates tactile representations from three key perspectives: whether they encode meaningful contact geometry, whether they can align tactile observations with visual information, and whether they generalize to unseen tasks. To assess these capabilities, HT-Bench includes four tasks: fine-grained tactile similarity retrieval, masked tactile inpainting, vision-to-tactile synthesis, and multimodal tactile frame prediction. We further propose \textbf{HandTouch}, a vector-quantized vision--tactile encoder that learns tactile representations through progressive spatial, cross-modal, and temporal training. Across HT-Bench, HandTouch consistently outperforms representative tactile encoder baselines, improving Recall@5 on fine-grained tactile similarity retrieval from 74.65\% to 85.23\%, reducing RMSE on masked tactile inpainting from 0.022 to 0.010, and increasing OOD cIoU on vision-to-tactile synthesis from 0.628 to 0.705. These results demonstrate the effectiveness of HandTouch and suggest that large-scale egocentric full-hand tactile data provides a scalable basis for evaluating and advancing tactile representation learning in dexterous manipulation.
- Abstract(参考訳): 触覚表現学習のための普遍的なベンチマークをロボット操作で確立することは、触覚センサの設計、データフォーマット、ロボットの具体化の多様性のために、依然として困難である。
そのような確立を目指すのではなく、我々は将来の開発に向けてスケーラブルで有望な方向を探究する: 自我中心のビジョンと、フルハンドの触覚データを組み合わせる。
この目的のために,10MのRGBフレームと7.8Mの触覚フレームを226のタスクで収集した,大規模マルチタスク・マルチタスク・デクスタラス・フルハンド触覚センシング・ベンチマークである \textbf{HT-Bench} を導入する。
HT-Benchは、3つの重要な視点から触覚表現を評価している。
これらの機能を評価するために、HT-Benchは、きめ細かい触覚類似性検索、マスク付き触覚塗布、視覚-触覚合成、マルチモーダル触覚フレーム予測の4つのタスクを含む。
さらに,ベクトル量子化された視覚触覚エンコーダである「textbf{HandTouch}」を提案する。
HT-Bench全体で、HandTouchは代表的な触覚エンコーダのベースラインを一貫して上回り、74.65\%から85.23\%まで細粒度な触覚類似性検索のRecall@5を改善し、マスク付き触覚塗布のRMSEを0.022から0.010に減少させ、視触覚合成のOOD cIoUを0.628から0.705に増加させた。
これらの結果は、HandTouchの有効性を実証し、大規模なエゴセントリックなフルハンド触覚データによって、触覚表現学習の評価と向上のためのスケーラブルな基盤が提供されることを示唆している。
関連論文リスト
- Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning [6.509572742369941]
触覚のみのブラインドグリップのためのフレームワークを提案する。
本研究では,実際の触覚信号を再現可能な接触校正型デジタル双極子シミュレータを構築するReal2Sim触覚校正パイプラインを提案する。
第2に,センサ・ジオメトリを組み込んだレイアウト認識型触覚エンコーダによる触覚観察の表現性を,自己教師付き事前学習により改善する。
第3に、未確認物体への一般化を改善するため、校正されたシミュレーターにおいて、オブジェクト固有の強化学習の専門家を訓練し、得られた把握軌道を触覚条件付き拡散ポリシーに集約する。
論文 参考訳(メタデータ) (2026-06-10T07:46:38Z) - TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation [50.608989079323784]
データと表現の両方の観点から,触覚コモンセンス推論をオープンワールドに拡張する触覚言語フレームワークであるTouchThinkerを提案する。
まず,Textbf415オブジェクト, textbf8シナリオ, textbf7センサタイプをカバーする,100万規模のマルチソース触覚推論データセットであるTouchThinker-1Mを構築した。
そこで本研究では,触覚表現効率を向上し,効率的な推論を可能にする行動認識モデリング機構を提案する。
論文 参考訳(メタデータ) (2026-06-10T03:58:32Z) - OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - Tactile MNIST: Benchmarking Active Tactile Perception [19.93022179513013]
本稿では,触覚タスクのためのオープンソースのGymnasium互換ベンチマークであるTactile MNIST Benchmark Suiteを紹介する。
私たちのベンチマークスイートは、単純な玩具環境から視覚ベースの触覚センサーを用いた複雑な触覚知覚タスクまで、さまざまなシミュレーションシナリオを提供しています。
また,600個の3Dプリントディジットから収集した合成3D MNIST桁モデル13,500点と実世界の触覚サンプル153,600点からなる包括的データセットも提供する。
論文 参考訳(メタデータ) (2025-06-03T14:42:16Z) - RA-Touch: Retrieval-Augmented Touch Understanding with Enriched Visual Data [10.059624183053499]
視覚触覚は、テクスチャ、柔らかさ、剛性などの物体の触覚特性を理解することを目的としている。
我々は,触覚のセマンティクスに富んだ視覚データを活用することで,視触覚知覚を改善する検索拡張フレームワークであるRA-Touchを紹介する。
論文 参考訳(メタデータ) (2025-05-20T12:23:21Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。