論文の概要: Dream-Tac: A Unified Tactile World Action Model for Contact-Rich Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.08737v1
- Date: Sun, 07 Jun 2026 17:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.42234
- Title: Dream-Tac: A Unified Tactile World Action Model for Contact-Rich Robot Manipulation
- Title(参考訳): Dream-Tac:コンタクトリッチロボット操作のための統合触覚世界行動モデル
- Authors: Yunfan Lou, Yifan Ye, Yankai Fu, Jun Cen, Xiaowei Chi, Yaoxu Lyu, Peidong Jia, Sirui Han, Zhihe Lu, Shanghang Zhang,
- Abstract要約: 本研究では,統合された触覚・世界行動モデルであるDream-Tacを提案する。
具体的には、 (i) 触覚信号と (ii) 接触認識の注意バイアスを選択的に統合し、(i) 交差モーダル相互作用をよりよく制御するために、 (i) 接触ゲート型ビゾタクタクチル融合を導入する。
6つのコンタクトリッチな操作タスクの中で、ドリームタックは平均でアクション精度を31.7%改善し、統合された視覚的世界モデリングの有効性を実証した。
- 参考スコア(独自算出の注目度): 40.81290792381617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World action models inherit the predictive capability of world models, enabling action generation to be guided by anticipated future observations. However, they rely primarily on vision and often fail in contact-rich manipulation, where critical cues arise from physical interaction. In this paper, we propose Dream-Tac, a unified Tactile-World Action Model that jointly models actions, future visual observations, and tactile dynamics. Specifically, Dream-Tac introduces (i) contact-gated visuotactile fusion to selectively integrate tactile signals and (ii) a contact-aware attention bias to better regulate cross-modal interactions during manipulation. To support real-time deployment, we further design a dual-level acceleration strategy, reformulating the contact-aware bias to preserve the fused attention path during training and introducing cache-based diffusion acceleration at inference, achieving up to 2.9$\times$ faster training and 1.8$\times$ faster inference. Across six contact-rich manipulation tasks, Dream-Tac improves action accuracy by 31.7\% on average, demonstrating the effectiveness of unified visuotactile world modeling.Code is available at https://github.com/LYFCLOUDFAN/Dream-Tac.
- Abstract(参考訳): 世界行動モデルは世界モデルの予測能力を継承し、将来予想される観測によって行動生成をガイドすることができる。
しかし、それらは主に視覚に依存しており、しばしば物理的な相互作用から重要な手がかりが生じるコンタクトリッチな操作に失敗する。
本稿では,統合された触覚・世界行動モデルであるドリーム・タックを提案する。
具体的にはDream-Tacが紹介
一 触覚信号を選択的に統合するための接触ゲート型ビゾタクタクタクタブル融合
(II)操作時の異種間相互作用をよりよく制御するための接触認識型注意バイアス。
リアルタイム展開を支援するため、我々はさらに2段階の加速戦略を設計し、訓練中に融合した注意経路を保存するために接触認識バイアスを修正し、推論時にキャッシュベースの拡散加速度を導入し、2.9$\times$高速トレーニングと1.8$\times$高速推論を実現した。
6つのコンタクトリッチな操作タスク全体で、Dream-Tacは平均で31.7\%のアクション精度を向上し、統合されたビズオタクティルワールドモデリングの有効性を実証している。
関連論文リスト
- VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs [47.982092015932444]
Video-Action Models (VAM) は、インテリジェンスを具現化するための有望なフレームワークとして登場した。
本稿では,触覚を接地信号として組み込んだマルチモーダル世界モデリングフレームワークであるVideo-Tactile Action Model (VTAM)を紹介する。
VTAMは、触覚ストリームでトレーニング済みのビデオトランスフォーマーを軽量なモダリティ転送ファインタニングで強化する。
論文 参考訳(メタデータ) (2026-03-24T17:45:06Z) - OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - Tactile Modality Fusion for Vision-Language-Action Models [22.788833830429766]
本稿では,視覚触覚信号と視覚言語アクション(VLA)モデルを統合する軽量なモーダルフュージョンアプローチであるTacFiLMを提案する。
その結果, 成功率, 直接挿入性能, 完了時間, 負荷安定性の両面において一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-03-15T20:57:51Z) - Learning to Feel the Future: DreamTacVLA for Contact-Rich Manipulation [14.221542785249524]
本稿では,VLAモデルを接点物理学の基盤として,未来感を学習するフレームワークであるDreamTacVLAを紹介する。
我々のモデルは、高解像度の触覚画像がマイクロビジョン入力として機能する階層的認識方式を採用している。
より詳細な接触力学の理解を深めるために,将来的な触覚信号を予測する触覚世界モデルを用いてシステムを微調整する。
論文 参考訳(メタデータ) (2025-12-29T21:06:33Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。