論文の概要: High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians
- arxiv url: http://arxiv.org/abs/2606.15908v2
- Date: Thu, 18 Jun 2026 10:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.598953
- Title: High-Fidelity 4D Hand-Object Capture via Multi-View Spatiotemporal Tracking and Physics-Aware Gaussians
- Title(参考訳): 多視点時空間追跡と物理対応ガウスによる高忠実度4Dハンドオブジェクトキャプチャ
- Authors: Bo Peng, Xu Chen, Yi Gu, Hidenobu Matsuki, Mingsong Dou, Jingjing Shen, Deying Kong, Juyong Zhang, Zhengyang Shen,
- Abstract要約: 同期・校正されたマルチビュービデオから手や物体を頑健かつ正確に再構成するための新しいシステムを提案する。
我々のパイプラインは、高度に堅牢でアーティファクトのない再構築を実現し、自動化された4Dアセット生成のための効率的な基盤を提供する。
- 参考スコア(独自算出の注目度): 38.0162622592412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for high-fidelity 4D hand-object interaction (HOI) data in embodied AI and spatial computing is currently bottlenecked by the reliance on pre-scanned object templates and physical markers. While recent methods have demonstrated promising results in reconstructing 4D hand-object interaction from videos, they are highly sensitive to initial estimates of hand and object poses. Yet, estimating these poses from images is challenging, in particular under severe occlusion which is inherent in hand-object interaction scenarios. We propose a novel system for the robust and accurate reconstruction of hands and objects from synchronized and calibrated multi-view videos without requiring any templates or markers. Our system consists of two main components with key innovations: (1) a multi-view feed-forward transformer model that aggregates cross-view geometry and temporal cues to provide a reliable, metric-consistent initialization for both poses and dense object geometry, and (2) a hand-object physics-aware Gaussian-based optimization framework to refine the initial estimates, integrating tetrahedral constraints, collision refinement, and appearance decomposition to produce physically plausible and visually accurate reconstruction. Validated on public benchmarks and an extensive internal dataset, our pipeline achieves highly robust, artifact-free reconstruction, providing an efficient foundation for automated 4D asset generation. Our project page are available at https://zyshen021.github.io/HOSTPG/.
- Abstract(参考訳): 具体的AIと空間コンピューティングにおける高忠実な4Dハンドオブジェクトインタラクション(HOI)データの需要は、現在、事前にスキャンされたオブジェクトテンプレートや物理的なマーカーに依存することでボトルネックになっている。
近年,映像からの4次元手動物体の相互作用を再現する手法が提案されているが,手動・ポーズの初期推定には非常に敏感である。
しかし、画像からこれらのポーズを推定することは、特に手動物体の相互作用のシナリオに固有の厳密な隠蔽下では困難である。
本研究では,テンプレートやマーカーを必要とせずに,手や物体を同期・校正した多視点ビデオから頑健かつ正確な再構成を行うシステムを提案する。
本システムは,2つの重要な革新的要素から構成される。(1)多視点フィードフォワードトランスフォーマーモデルでは,多視点形状と時間的手がかりを集約し,ポーズと密接な物体形状の両方に対して,信頼性と距離一貫性を持った初期化を提供するとともに,(2)手動の物理知識に基づくガウス最適化フレームワークを用いて,初期推定を洗練し,四面体制約,衝突補正,外観分解を統合し,物理的に可視かつ正確な再構築を実現する。
公開ベンチマークと広範な内部データセットに基づいて検証されたパイプラインは、高度に堅牢でアーティファクトのない再構築を実現し、自動化された4Dアセット生成のための効率的な基盤を提供します。
私たちのプロジェクトページはhttps://zyshen021.github.io/HOSTPG/で公開されています。
関連論文リスト
- ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions [48.84720445548848]
ArtHOIは最適化ベースのフレームワークで、複数の基礎モデルから事前を統合および洗練する。
特に、オブジェクトのメートル法スケールを最適化するために、適応サンプリング精細法(ASR)を導入する。
また,Multimodal Large Language Model (MLLM) を用いた手オブジェクトアライメント手法を提案する。
論文 参考訳(メタデータ) (2026-03-26T18:00:17Z) - ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos [22.436134664301473]
本稿では,モノクラーハンドオブジェクトインタラクションビデオから直接3次元オブジェクト形状を再構成するフィードフォワードモデルであるForeHOIを紹介する。
ForeHOIは、オブジェクト再構成における最先端のパフォーマンスを実現し、100倍のスピードアップで従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-02-05T22:05:57Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - ByteLoom: Weaving Geometry-Consistent Human-Object Interactions through Progressive Curriculum Learning [19.292101162897975]
本稿では,幾何的に一貫したオブジェクト図面を持つ実写HOIビデオを生成するByteLoomを紹介する。
まず、相対座標マップ(RCM)をオブジェクトの幾何整合性を維持する普遍表現として活用するRCM-cache機構を提案する。
次に、モデル能力を進歩的なスタイルで向上し、ハンドメッシュの需要を緩和するトレーニングカリキュラムを設計する。
論文 参考訳(メタデータ) (2025-12-28T09:38:36Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。