論文の概要: EgoTactile: Learning Grasp Pressure for Everyday Objects from Egocentric Video
- arxiv url: http://arxiv.org/abs/2606.09243v1
- Date: Mon, 08 Jun 2026 09:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.888357
- Title: EgoTactile: Learning Grasp Pressure for Everyday Objects from Egocentric Video
- Title(参考訳): EgoTactile:エゴセントリックビデオから毎日の物体の重力を学習する
- Authors: Yuan Zeng, Yujia Shi, Tiao Tan, Xingting Li, Yaqi Qin, Zongqing Lu, Wenming Yang, Jing-Hao Xue, Qingmin Liao,
- Abstract要約: 没入型VRとロボット操作には、エゴセントリックビデオからのフルハンドグリッププレッシャーの推定が不可欠だ。
EgoTactileは、さまざまな日常オブジェクトに対するフルハンドプレッシャー監視を備えた、エゴセントリックなビデオのベンチマークである。
EgoPressureDiffは、大規模に訓練されたビデオ拡散バックボーンに適応する条件付き拡散フレームワークである。
- 参考スコア(独自算出の注目度): 82.13376072770363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating full-hand grasp pressure from egocentric video is critical for immersive VR and robotic manipulation, yet dense tactile sensing often relies on intrusive hardware. Existing vision-based methods predominantly rely on planar surfaces or fingertip contacts, failing to generalize to complex 3D object interactions. Therefore, we introduce EgoTactile, a benchmark pairing egocentric video with full-hand pressure supervision for diverse everyday objects, incorporating a bare-hand transfer subset to enable generalization to natural scenarios. Leveraging this benchmark, we first establish EgoPressureFormer as a discriminative baseline. Beyond this, to explicitly address the uncertainty in partial observations, we propose EgoPressureDiff, a conditional diffusion framework that adapts a large-scale pre-trained video diffusion backbone. By combining rich world knowledge priors with a Physically-Informed Feature Rectification layer to inject semantic constraints, our approach effectively infers plausible contact patterns and resolves visual-physical ambiguities. Extensive experiments demonstrate that our method achieves superior performance on the benchmark and robust transferability to in-the-wild scenarios. Our project page is available at https://egotactile.github.io/.
- Abstract(参考訳): 没入型VRやロボット操作には、エゴセントリックなビデオからのフルハンドグリッププレッシャーの推定が不可欠だが、密集した触覚は侵入型ハードウェアに依存していることが多い。
既存の視覚ベースの手法は主に平面面や指先接触に依存しており、複雑な3Dオブジェクトの相互作用に一般化できない。
そこで,EgoTactileは,自然シナリオへの一般化を実現するために,多種多様な日常オブジェクトに対するフルハンド圧監視機能を備えたベンチマークペア型エゴセントリックビデオである。
このベンチマークを活用することで、まずEgoPressureFormerを差別的なベースラインとして確立します。
さらに,部分的な観察の不確実性に対処するために,大規模な事前学習ビデオ拡散バックボーンに対応する条件付き拡散フレームワークであるEgoPressureDiffを提案する。
豊かな世界知識と物理インフォームド・フィーチャー・リクティフィケーション・レイヤを組み合わせて意味的制約を注入することにより,本手法は有効な接触パターンを推論し,視覚的・物理的曖昧さを解消する。
大規模な実験により,本手法はベンチマーク上での優れた性能と,組込みシナリオへのロバストな転送性を実証した。
私たちのプロジェクトページはhttps://egotactile.github.io/で公開されています。
関連論文リスト
- EgoPressDiff: Multimodal Video Diffusion for Egocentric UV-Domain Hand-Pressure Estimation [68.71388815638576]
視覚入力から紫外線圧マップを生成する条件付きビデオ拡散フレームワークであるemphEgoPressDiffを提案する。
EgoPressDiffは最先端の結果を達成し、Volumetric IoUを以前のベースラインと比較して34%以上改善した。
論文 参考訳(メタデータ) (2026-06-05T03:40:10Z) - TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video [20.373348802426143]
EgoTouchは大規模なエゴセントリックなデータセットで、手動オブジェクトのインタラクションを厳密な触覚で監視する。
TouchAnythingは、自我中心のビューを主入力として使用する、視覚と触覚の予測フレームワークである。
データセット、コード、ベンチマークを公開します。
論文 参考訳(メタデータ) (2026-05-13T06:54:36Z) - EggHand: A Multimodal Foundation Model for Egocentric Hand Pose Forecasting [11.687067206676625]
EggHandは、エゴセントリックな手ポーズ予測のための基盤モデルベースのフレームワークである。
動的モーションモデリングとマルチモーダルなセマンティック推論を統一する。
提案手法は,エゴモーション下でのジェネリックビジュアルエンコーダの脆さを克服する。
論文 参考訳(メタデータ) (2026-05-08T12:09:27Z) - Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Robust Egocentric Referring Video Object Segmentation via Dual-Modal Causal Intervention [58.05340906967343]
Egocentric Referring Video Object (Ego-RVOS)は、言語クエリで説明されているように、人間のアクションに積極的に関与する特定のオブジェクトを、一人称ビデオに分割することを目的としている。
既存の手法はしばしば苦労し、データセット内の歪んだオブジェクト-アクションのペアリングから急激な相関を学習する。
本稿では,強力なトレーニング済みRVOSをエゴセントリックドメインに適応させるプラグイン因果フレームワークであるCausal-Referring(CERES)を紹介する。
論文 参考訳(メタデータ) (2025-12-30T16:22:14Z) - Hand-Aware Egocentric Motion Reconstruction with Sequence-Level Context [17.735273173582716]
本稿では,頭部軌跡と間欠的に見える手探触子を直接条件とする,最初の手認識型シーケンスレベルの拡散フレームワークHaMoSを提案する。
また, 身体形状や視野といったシーケンスレベルのコンテキストが, 正確な運動再構成に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-12-22T11:26:41Z) - EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision [69.1005706608681]
EgoPressureは、詳細なタッチ接触と圧力相互作用をキャプチャする、新しいエゴセントリックなデータセットである。
本データセットは,頭部に装着した1台のKinectカメラと静止した7台のKinectカメラで同時に捉えた21人の被験者からの5時間の対話を収録した。
論文 参考訳(メタデータ) (2024-09-03T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。