論文の概要: EgoPressDiff: Multimodal Video Diffusion for Egocentric UV-Domain Hand-Pressure Estimation
- arxiv url: http://arxiv.org/abs/2606.06872v1
- Date: Fri, 05 Jun 2026 03:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.548788
- Title: EgoPressDiff: Multimodal Video Diffusion for Egocentric UV-Domain Hand-Pressure Estimation
- Title(参考訳): EgoPressDiff:Egocentric UV-Domain Hand-Pressure Estimationのためのマルチモーダルビデオ拡散
- Authors: Yuan Zeng, Zilue Gao, Yujia Shi, Zongqing Lu, Wenming Yang, QingMin Liao,
- Abstract要約: 視覚入力から紫外線圧マップを生成する条件付きビデオ拡散フレームワークであるemphEgoPressDiffを提案する。
EgoPressDiffは最先端の結果を達成し、Volumetric IoUを以前のベースラインと比較して34%以上改善した。
- 参考スコア(独自算出の注目度): 68.71388815638576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating hand-surface contact pressure from an egocentric view is crucial for AR/VR devices, robotic imitation, and ergonomic analysis. Existing methods often discretize pressure signal and process frames independently, leading to quantization errors and temporal inconsistencies. We present \emph{EgoPressDiff}, a conditional video diffusion framework that generates UV-pressure maps from visual input. The core of our approach is a multi-modal conditioning strategy, introducing a PoseNet and a Vertex Encoder to efficiently extract features from hand pose and 3D mesh vertices. These signals, along with depth information, guide the generative process to ensure the pressure fields are physically grounded. To effectively fuse these heterogeneous features, we further propose a Distribution-Calibrated Spatial Layer, which aligns their statistical properties before combination. Evaluated on the EgoPressure ego-view setting, EgoPressDiff achieves state-of-the-art results, improving Volumetric IoU by over 34\% relative to prior baseline, while reducing MAE and maintaining high temporal accuracy. Our project page is at https://egopressdiff.github.io/.
- Abstract(参考訳): エゴセントリックな視点から手表面の接触圧を推定することは、AR/VRデバイス、ロボット模倣、エルゴノミクス分析に不可欠である。
既存の手法はしばしば圧力信号とプロセスフレームを独立に識別し、量子化エラーと時間的矛盾をもたらす。
視覚入力から紫外線圧マップを生成する条件付きビデオ拡散フレームワークである \emph{EgoPressDiff} を提案する。
このアプローチのコアとなるのはマルチモーダルコンディショニング戦略であり,手ポーズや3Dメッシュの頂点から特徴を効率的に抽出するPoseNetとVertex Encoderを導入している。
これらの信号は深度情報と共に生成過程を誘導し、圧力場が物理的に接地されていることを保証する。
さらに,これらの不均一な特徴を効果的に融合させるために,それらの統計特性を結合前に整列させる分布キャリブレーション空間層を提案する。
EgoPressureのエゴビュー設定に基づいて、EgoPressDiffは最先端の結果を達成し、以前のベースラインに比べて34倍以上改善し、MAEを低減し、高い時間的精度を維持する。
私たちのプロジェクトページはhttps://egopressdiff.github.io/です。
関連論文リスト
- DisPOSE: Projected Polystochastic Diffusion for Self-Supervised Multi-View 3D Human Pose Estimation [62.92906479014098]
DisPOSEは、本質的に離散的な多視点人物割り当て問題を近似する自己教師型フレームワークである。
特定可能なシンクホーン射影を用いることにより、本モデルは有効かつ実現可能な課題への解の導出を学ぶ。
提案手法は、標準データセット上での最先端の自己教師手法よりも優れている。
論文 参考訳(メタデータ) (2026-06-05T16:14:39Z) - ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes [55.32681167870698]
Video-informed Pose Spaces (ViPS)は、自動リップメッシュのための有効な調律の潜時分布を検出するフィードフォワードフレームワークである。
ViPSは生成ビデオの先行値を所定のリグパラメータ化上の普遍分布に転送する。
評価の結果,VPSは,合成アーティストが作成した4Dデータに基づいて訓練した最先端の手法の性能と,妥当性と多様性の両面で一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-19T21:21:11Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - HyPCV-Former: Hyperbolic Spatio-Temporal Transformer for 3D Point Cloud Video Anomaly Detection [1.475698751142657]
HyV-Formerは、複数の異常カテゴリにわたる最先端の異常検出を実現し、TIMoデータセットは7%改善され、DADデータセットは5.6%向上した。
論文 参考訳(メタデータ) (2025-08-01T09:50:20Z) - EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision [69.1005706608681]
EgoPressureは、詳細なタッチ接触と圧力相互作用をキャプチャする、新しいエゴセントリックなデータセットである。
本データセットは,頭部に装着した1台のKinectカメラと静止した7台のKinectカメラで同時に捉えた21人の被験者からの5時間の対話を収録した。
論文 参考訳(メタデータ) (2024-09-03T18:53:32Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation [9.569752078386006]
過去のフレームからの情報を活用して、自己注意に基づく3D推定手順であるEgo-STANをガイドします。
具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時間変換モデルを構築する。
我々は,xR-EgoPoseデータセットにおいて,Ego-STANの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T22:33:27Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation
and Database with Automatic Labelling [1.0149624140985476]
本研究は、拡張仮想性における自己認識を改善するために、自我中心の腕のセグメンテーションに焦点を当てる。
GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, Ego Gesture などの実効自我中心のデータセットについて報告する。
このタスクに対するEgoArmデータセットの適合性を確認し、元のネットワークに対して最大40%の改善を実現した。
論文 参考訳(メタデータ) (2020-03-27T12:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。