Fugu-MT 論文翻訳(概要): ContactWorld: What Matters in Vision-Tactile World Models for Contact-Rich Manipulation

論文の概要: ContactWorld: What Matters in Vision-Tactile World Models for Contact-Rich Manipulation

arxiv url: http://arxiv.org/abs/2606.13877v1
Date: Thu, 11 Jun 2026 20:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:42.629837
Title: ContactWorld: What Matters in Vision-Tactile World Models for Contact-Rich Manipulation
Title（参考訳）: ContactWorld: コンタクトリッチ操作のための視覚触覚世界モデルで何が重要か
Authors: Zhiyuan Zhang, Pokuang Zhou, Kaidi Zhang, Adeesh Desai, Temitope Amosa, Davood Soleymanzadeh, Jiuzhou Lei, Minghui Zheng, Yu She,
Abstract要約: 12個のコンタクトリッチな操作タスクにまたがる視覚触覚世界モデルのベンチマークおよび系統的研究について述べる。空間的に構造化され,時間的に連続した表現が,最強の計画性能を継続的に達成していることがわかった。
参考スコア（独自算出の注目度）: 4.840849656014063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contact-rich manipulation requires world models to reason over complex contact dynamics from multimodal sensory observations. However, it remains unclear which representation properties fundamentally support stable long-horizon planning in contact-rich settings. In this paper, we present ContactWorld, a benchmark and systematic empirical study of vision-tactile world models spanning 12 contact-rich manipulation tasks, including insertion, disassembly, screwing, and exploratory interaction. Across extensive experiments, we find that representations that are both spatially structured and temporally continuous consistently achieve the strongest planning performance. In particular, point-cloud observations improve average planning success rates from 20.7% with wrist-view observations and 22.0% with front-view observations to 32.1%. We further find that the effectiveness of tactile sensing depends critically on cross-modal representation compatibility rather than modality scaling alone. Combining point-cloud observations with tactile force-field representations, which preserve richer spatial structure and interaction dynamics, further improves performance to 36.1%, yielding the strongest overall planning performance across all evaluated tasks. Moreover, tactile sensing becomes increasingly important under long-horizon planning objectives, where compounding prediction errors and contact uncertainty accumulate over time. Together, these findings highlight the importance of representation structure, multimodal compatibility, and long-horizon robustness in vision-tactile world models for contact-rich robotic manipulation.
Abstract（参考訳）: コンタクトリッチな操作は、世界モデルがマルチモーダル感覚観測から複雑な接触ダイナミクスを推論することを要求する。しかし、どの表現特性が接触リッチな環境における安定な長水平計画を根底からサポートするかは定かではない。本稿では、挿入、分解、ネジ、探索的相互作用を含む12のコンタクトリッチな操作タスクにまたがる視覚触覚世界モデルのベンチマークおよび系統的研究であるContactWorldを紹介する。広範にわたる実験により,空間的に構造化され,時間的に連続した表現が最強の計画性能を継続的に達成できることが判明した。特に、ポイントクラウド観測は、手首視で平均的な計画成功率を20.7%、前頭視で22.0%から32.1%に改善している。さらに,触覚知覚の有効性は,モダリティスケーリングのみでなく,モダリティ間の表現整合性に大きく依存することがわかった。点雲観測と触覚力場表現を組み合わせることで、よりリッチな空間構造と相互作用のダイナミクスを保ち、さらに性能を36.1%向上させ、全ての評価されたタスクで最高の総合的な計画性能を得る。さらに,長期間にわたる予測誤差と接触不確かさの複合化を目標とした長期計画において,触覚知覚の重要性が高まっている。これらの知見は、コンタクトリッチなロボット操作のための視覚触覚世界モデルにおいて、表現構造、マルチモーダル互換性、長期的ロバスト性の重要性を強調している。

関連論文リスト

Embodied3DBench: Benchmarking Low-Level Embodied Spatial Intelligence of Vision Language Models [50.6415287154632]
Embodied3DBenchは3D環境における低レベル空間インテリジェンスをターゲットにしたロボット中心のベンチマークである。ベンチマークは12のサブカテゴリにまたがり、21万以上の高品質な質問応答ペアを含んでいる。
論文参考訳（メタデータ） (2026-05-27T20:28:56Z)
Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms [70.51538670020267]
本稿では,フィールドを2つの主次元(マルチモーダルデータセットとマルチモーダルメソッド)に分類する階層型分類法を提案する。データ側では、Tactile-Visionデータセット、Tactile-Languageデータセット、Tactile-Vision-Languageデータセット、Tactile-Vision-Otherデータセットを含むリソースを分類する。提案手法は,(1)マルチモーダル認識・認識,(2)クロスモーダル生成,(2)触覚・視覚・テキスト間の双方向翻訳,(3)マルチモーダルインタラクション,フィードバック制御と言語誘導操作の3つの柱に先行して構成する。
論文参考訳（メタデータ） (2026-05-17T09:09:30Z)
SECOND-Grasp: Semantic Contact-guided Dexterous Grasping [60.1519218638742]
Second-Grasp (Semantic Contact-guided Dexterous Grasping) は、ロボットハンドが意味論的推論に基づいて把握戦略を調整できる統合されたフレームワークである。我々のアプローチは、目に見えるカテゴリーと目に見えないカテゴリの両方で成功率を上げるために、一貫してベースラインを上回ります。
論文参考訳（メタデータ） (2026-05-13T07:37:00Z)
VTouch++: A Multimodal Dataset with Vision-Based Tactile Enhancement for Bimanual Manipulation [10.08235353271524]
近年、身体知能は急速に進歩しているが、特に接触に富むタスクにおけるバイマニュアル操作は依然として困難である。これは主に、リッチな物理的相互作用信号、システマティックなタスク編成、十分なスケールのデータセットが不足しているためである。 VTOUCHデータセットを導入し、高忠実な物理的相互作用信号を提供し、マトリックススタイルのタスク設計を採用し、実世界の需要駆動シナリオをカバーする自動データ収集パイプラインを採用する。
論文参考訳（メタデータ） (2026-04-22T11:08:08Z)
Detecting Precise Hand Touch Moments in Egocentric Video [24.372080074941298]
フレームレベルの検出は、拡張現実、人間とコンピュータのインタラクション、補助技術、ロボット学習アプリケーションに不可欠である。本研究では,手動領域とその周辺環境の時間的特徴を生かしたHand-informed Context Enhanced Module (HiCE)を提案する。また、100万フレームを超える8,456の注釈付きコンタクトモーメントを含む、エゴセントリックなデータセットであるTouchMomentも導入しました。
論文参考訳（メタデータ） (2026-04-14T06:30:52Z)
OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文参考訳（メタデータ） (2026-03-19T17:52:42Z)
ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly [10.687495099840659]
精密な組み立てには、接触に富んだ「ラストミリ」領域でサブミリ秒の補正が必要である。 ReTac-ACTは3つのメカニズムを通じてこの問題に対処する。 90%のホール成功を達成し、視覚のみの手法と一般的な手法を大きく上回り、0.1mmペグで成功を維持する。
論文参考訳（メタデータ） (2026-03-10T12:09:22Z)
Visuo-Tactile World Models [21.898813969700765]
Visuo-Tactile World Models (VT-WM) はタッチ推論によって接触の物理を捉える。 VT-WMは一連のコンタクトリッチな操作タスクを訓練し、想像力の物理的忠実さを向上させる。実験により、接触力学の接地も計画に変換されることが示された。
論文参考訳（メタデータ） (2026-02-05T18:46:33Z)
Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation [14.221542785249524]
本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
論文参考訳（メタデータ） (2025-12-29T21:06:33Z)
3D Shape Reconstruction from Vision and Touch [62.59044232597045]
3次元形状再構成では、視覚と触覚の相補的な融合はほとんど未解明のままである。本稿では,ロボットハンドと多数の3Dオブジェクトの相互作用から,触覚と視覚信号のシミュレーションデータセットを提案する。
論文参考訳（メタデータ） (2020-07-07T20:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。