論文の概要: T-Rex: Tactile-Reactive Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2606.17055v2
- Date: Thu, 18 Jun 2026 20:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.834528
- Title: T-Rex: Tactile-Reactive Dexterous Manipulation
- Title(参考訳): T-Rex: 触覚反応型デキスタラスマニピュレーション
- Authors: Dantong Niu, Zhuoyang Liu, Zekai Wang, Boning Shao, Zhao-Heng Yin, Anirudh Pai, Yuvan Sharma, Stefano Saravalle, Ruijie Zheng, Jing Wang, Ryan Punamiya, Mengda Xu, Yuqi Xie, Yunfan Jiang, Letian Fu, Konstantinos Kallidromitis, Matteo Gioia, Junyi Zhang, Jiaxin Ge, Haiwen Feng, Fabio Galasso, Wei Zhan, David M. Chan, Yutong Bai, Roei Herzig, Jiahui Lei, Li Fei-Fei, Ken Goldberg, Jitendra Malik, Pieter Abbeel, Yuke Zhu, Danfei Xu, Linxi Fan, Trevor Darrell,
- Abstract要約: 本稿では,新しい時相触覚VQ-VAEエンコーダを備えた可変レートMixture-of-Transformers (MoT)アーキテクチャを提案する。
微妙な力制御と変形可能な物体操作を必要とする12の操作課題に対して,触覚反応が有効であることを示す。
- 参考スコア(独自算出の注目度): 139.71263755530654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to react dynamically to tactile signals has long been considered crucial to agile human-level dexterity. Yet contemporary learning-based Vision-Language-Action (VLA) models for robotic manipulation generally either overlook the tactile modality or are limited to encoders with static cues, due in part to the scarcity of diverse training data and standardized evaluation, architectural constraints in current VLA models, and limitations of static tactile encoders. In this paper, we push the frontier of tactile-reactive manipulation by addressing all of these limitations. We propose a large-scale, 100-hour tactile-rich dataset collected via a novel, data-efficient recipe that prioritizes elementary motor primitives. To effectively exploit naturally high-frequency touch signals without sacrificing the existing capabilities of existing VLAs, we introduce a variable-rate Mixture-of-Transformers (MoT) architecture equipped with a novel temporal tactile VQ-VAE encoder. We demonstrate the effectiveness of tactile-reactive policies on 12 manipulation tasks requiring delicate force control and deformable object manipulation, achieving over 30% higher average success rate than the strongest baseline.
- Abstract(参考訳): 触覚信号に動的に反応する能力は、長い間、アジャイルな人間レベルの器用さにとって不可欠と考えられてきた。
しかし、ロボット操作のための現代の学習ベースであるVision-Language-Action(VLA)モデルは、多種多様なトレーニングデータの不足、標準化された評価、現在のVLAモデルのアーキテクチャ上の制約、静的な触覚エンコーダの制限などにより、一般的に触覚モダリティを見渡すか、静的なキューを持つエンコーダに制限される。
本稿では,これらの制限に対処することで,触覚反応操作のフロンティアを推し進める。
本稿では,初等モータープリミティブを優先する新しいデータ効率のレシピを用いて,大規模で100時間の触覚豊かなデータセットを収集する。
既存のVLAの機能を犠牲にすることなく、自然の高周波タッチ信号を効果的に活用するために、新しい時間的触覚VQ-VAEエンコーダを備えた可変レートMixture-of-Transformers (MoT)アーキテクチャを導入する。
本研究は, 微妙な力制御と変形可能な物体操作を必要とする12の操作課題に対する触覚反応性ポリシーの有効性を実証し, 最強のベースラインよりも30%以上の平均成功率を達成した。
関連論文リスト
- VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs [47.982092015932444]
Video-Action Models (VAM) は、インテリジェンスを具現化するための有望なフレームワークとして登場した。
本稿では,触覚を接地信号として組み込んだマルチモーダル世界モデリングフレームワークであるVideo-Tactile Action Model (VTAM)を紹介する。
VTAMは、触覚ストリームでトレーニング済みのビデオトランスフォーマーを軽量なモダリティ転送ファインタニングで強化する。
論文 参考訳(メタデータ) (2026-03-24T17:45:06Z) - OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [57.133721026727706]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - UniVTAC: A Unified Simulation Platform for Visuo-Tactile Manipulation Data Generation, Learning, and Benchmarking [47.900334665380115]
シミュレーションベースのビジュオ触覚データプラットフォームUniVTACを提案する。
大規模なシミュレーション合成データに基づいて訓練されたビジュオ触覚エンコーダであるUniVTACエンコーダを紹介する。
代表的な8つのビジュオ触覚操作タスクからなるUniVTACベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-10T18:57:00Z) - UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。
UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する
高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文 参考訳(メタデータ) (2026-02-01T11:03:01Z) - TaF-VLA: Tactile-Force Alignment in Vision-Language-Action Models for Force-aware Manipulation [14.094740703476903]
本稿では,物理相互作用力の高次元触覚観測を基盤としたTaF-VLAについて紹介する。
TaF-VLAポリシは、最先端の触覚と視覚のみのベースラインを、コンタクトリッチなタスクで大幅に上回る。
論文 参考訳(メタデータ) (2026-01-28T07:34:41Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。