論文の概要: TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation
- arxiv url: http://arxiv.org/abs/2606.11637v1
- Date: Wed, 10 Jun 2026 03:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.282324
- Title: TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation
- Title(参考訳): TouchThinker: 大規模データとアクション認識表現による触覚コモンセンス推論のオープンワールドへのスケーリング
- Authors: Kailin Lyu, Di Wu, Pengwei Zhang, Yuhang Zheng, Yingxin Lai, Long Xiao, Kangyi Wu, Pengna Li, Chen Gao, Lianyu Hu, Xiaobin Hu, Jie Hao, Ce Hao, Weihao Yuan, Shuicheng Yan,
- Abstract要約: データと表現の両方の観点から,触覚コモンセンス推論をオープンワールドに拡張する触覚言語フレームワークであるTouchThinkerを提案する。
まず,Textbf415オブジェクト, textbf8シナリオ, textbf7センサタイプをカバーする,100万規模のマルチソース触覚推論データセットであるTouchThinker-1Mを構築した。
そこで本研究では,触覚表現効率を向上し,効率的な推論を可能にする行動認識モデリング機構を提案する。
- 参考スコア(独自算出の注目度): 50.608989079323784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Touch is a key modality for embodied agents to understand the physical world. Although recent work has incorporated tactile signals into language systems for tactile commonsense reasoning, scaling such systems to realistic open-world settings remains challenging due to two key bottlenecks: (1) current tactile reasoning datasets remain limited in format and scale, providing insufficient supervision for reasoning from tactile observations to physical commonsense and hindering the learning of transferable tactile commonsense; (2) Tactile signals are inherently redundant and action-specific, yet existing methods often overlook these properties, resulting in inefficient representations with limited semantic expressiveness. To address these limitations, we propose TouchThinker, a tactile-language framework that scales tactile commonsense reasoning to the open world from both data and representation perspectives. First, we construct TouchThinker-1M, a million-scale, multi-source tactile reasoning dataset covering \textbf{415} objects, \textbf{8} scenarios, and \textbf{7} sensor types, providing a solid data foundation for open-world generalization. We further introduce TouchThinker-Bench, an open-world benchmark with more realistic and diverse tasks. Then, we propose action-aware modeling mechanism to improve tactile representation efficiency and enable efficient reasoning. Experimental results demonstrate that TouchThinker achieves competitive performance against state-of-the-art models across multiple datasets. Our code and dataset will be made available at: https://github.com/lvkailin0118/TouchThinker.
- Abstract(参考訳): 触覚は、体現されたエージェントが物理的世界を理解するための重要なモダリティである。
最近の研究は、触覚的コモンセンス推論のための言語システムに触覚的シグナルを組み込んでいるが、そのようなシステムを現実的なオープンワールド設定にスケールすることは、(1)現在の触覚的推論データセットは、形式と規模が限られており、触覚的観察から物理的コモンセンスへの推論の監督が不十分で、伝達可能な触覚的コモンセンスの学習が妨げられていること、(2)触覚的信号は本質的に冗長であり、アクション固有のものであるが、既存の手法はしばしばこれらの特性を見落としているため、意味的表現に制限がある。
これらの制約に対処するために,触覚のコモンセンス推論を,データと表現の両方の観点からオープンワールドに拡張する,触覚言語フレームワークであるTouchThinkerを提案する。
まず,TouchThinker-1Mを構築し,オープンワールドの一般化のための強固なデータ基盤を提供する。
さらに、より現実的で多様なタスクを備えたオープンワールドベンチマークであるTouchThinker-Benchを紹介します。
そこで本研究では,触覚表現効率を向上し,効率的な推論を可能にする行動認識モデリング機構を提案する。
実験の結果、TouchThinkerは複数のデータセットにわたる最先端モデルと競合する性能を達成している。
私たちのコードとデータセットは、https://github.com/lvkailin0118/TouchThinker.comで公開されます。
関連論文リスト
- Blind Dexterous Grasping via Real2Sim2Real Tactile Policy Learning [6.509572742369941]
触覚のみのブラインドグリップのためのフレームワークを提案する。
本研究では,実際の触覚信号を再現可能な接触校正型デジタル双極子シミュレータを構築するReal2Sim触覚校正パイプラインを提案する。
第2に,センサ・ジオメトリを組み込んだレイアウト認識型触覚エンコーダによる触覚観察の表現性を,自己教師付き事前学習により改善する。
第3に、未確認物体への一般化を改善するため、校正されたシミュレーターにおいて、オブジェクト固有の強化学習の専門家を訓練し、得られた把握軌道を触覚条件付き拡散ポリシーに集約する。
論文 参考訳(メタデータ) (2026-06-10T07:46:38Z) - Tactile-based Multimodal Fusion in Embodied Intelligence: A Survey of Vision, Language, and Contact-Driven Paradigms [70.51538670020267]
本稿では,フィールドを2つの主次元(マルチモーダルデータセットとマルチモーダルメソッド)に分類する階層型分類法を提案する。
データ側では、Tactile-Visionデータセット、Tactile-Languageデータセット、Tactile-Vision-Languageデータセット、Tactile-Vision-Otherデータセットを含むリソースを分類する。
提案手法は,(1)マルチモーダル認識・認識,(2)クロスモーダル生成,(2)触覚・視覚・テキスト間の双方向翻訳,(3)マルチモーダルインタラクション,フィードバック制御と言語誘導操作の3つの柱に先行して構成する。
論文 参考訳(メタデータ) (2026-05-17T09:09:30Z) - Semantic-Contact Fields for Category-Level Generalizable Tactile Tool Manipulation [82.63833405368159]
ツール操作の一般化には、セマンティックプランニングと正確な物理的制御の両方が必要である。
本研究では,密接な接触推定を伴う視覚的意味論を融合した3次元表現であるセマンティック・コンタクト・フィールド(SCFields)を提案する。
スクレイピング、クレヨン描画、剥離の実験は、堅牢なカテゴリレベルの一般化を示している。
論文 参考訳(メタデータ) (2026-02-14T16:05:08Z) - OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction [93.88239833545623]
OpenTouchは、最初のインザワイルドなエゴセントリックなフルハンド触覚データセットです。
触覚信号は,理解のためのコンパクトで強力なキューを提供する。
我々は,マルチモーダルな自我中心の知覚,具体的学習,接触に富むロボット操作の促進を目指す。
論文 参考訳(メタデータ) (2025-12-18T18:18:17Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Touch and Go: Learning from Human-Collected Vision and Touch [16.139106833276]
我々はTouch and Goという,視覚と触覚のペアデータを用いたデータセットを提案する。
人間のデータ収集者は触覚センサーを使って自然環境の物体を探査する。
私たちのデータセットは、多数の"野生の"オブジェクトとシーンにまたがっています。
論文 参考訳(メタデータ) (2022-11-22T18:59:32Z) - Elastic Tactile Simulation Towards Tactile-Visual Perception [58.44106915440858]
触覚シミュレーションのための粒子の弾性相互作用(EIP)を提案する。
EIPは、触覚センサを協調粒子群としてモデル化し、接触時の粒子の変形を制御するために弾性特性を適用した。
さらに,触覚データと視覚画像間の情報融合を可能にする触覚知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。