論文の概要: EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video
- arxiv url: http://arxiv.org/abs/2606.16202v1
- Date: Mon, 15 Jun 2026 04:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.079352
- Title: EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video
- Title(参考訳): EgoPhys: 自己中心型ビデオから変形可能な物体の一般化可能な物理モデルを学ぶ
- Authors: Hyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang,
- Abstract要約: EgoPhysは、自我中心のRGB専用ビデオから変形可能なデジタル双対を構築するフレームワークである。
我々は、EgoPhysを本物のxArm6ロボットにデプロイし、単一のエゴセントリックな人間のプレイビデオからデジタルツインが内部世界表現として機能できることを実証した。
- 参考スコア(独自算出の注目度): 16.364076346013213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans naturally understand object physics through everyday interactions, but faithfully predicting complex deformable dynamics, such as elastic materials and fabrics, remains a major challenge for computer vision and robotics. We present EgoPhys, a framework that constructs deformable physical digital twins from egocentric RGB-only video using generalizable priors. EgoPhys overcomes the limitations of existing methods to enable controllable deformable digital twin generation from egocentric videos by distilling per-object inverse-physics solutions into a compact codebook, enabling prediction of dense spring stiffness fields for unseen objects without per-spring test-time optimization. Trained with generalizable priors from diverse egocentric interactions, EgoPhys outperforms baselines in reconstruction, future prediction, and zero-shot generalization. To support training and evaluation, we curate an egocentric interaction dataset covering diverse deformable objects, scenes, and manipulation styles. We deploy EgoPhys on a real xArm6 robot, demonstrating that a digital twin initialized from a single egocentric human play video can serve as an internal world representation to aid in deformable-object planning, highlighting egocentric RGB observations as a scalable path toward real-to-sim pipelines.
- Abstract(参考訳): 人間は日常の相互作用を通して自然に物体物理学を理解するが、弾性材料や織物のような複雑な変形可能な力学を忠実に予測することは、コンピュータビジョンやロボット工学にとって大きな課題である。
EgoPhysは、変形可能な物理デジタル双対を、一般化可能な事前情報を用いて、エゴセントリックなRGB専用ビデオから構築するフレームワークである。
EgoPhysは、オブジェクトごとの逆物理溶液をコンパクトなコードブックに蒸留することで、エゴセントリックビデオから制御可能な変形可能なデジタル双対生成を可能にする既存の方法の限界を克服し、スプリングごとのテスト時間最適化なしで、未確認物体に対する密度の高いばね剛性場の予測を可能にする。
EgoPhysは多種多様な自我中心の相互作用から一般化可能な先行性で訓練され、再構築、将来の予測、ゼロショットの一般化においてベースラインを上回っている。
トレーニングと評価を支援するために,多様な変形可能なオブジェクト,シーン,操作スタイルをカバーするエゴセントリックなインタラクションデータセットをキュレートする。
我々は、EgoPhysを実際のxArm6ロボットにデプロイし、単一のエゴセントリックな人間のプレイビデオから初期化されたデジタルツインが、変形可能なオブジェクト計画を支援する内部世界表現として機能し、エゴセントリックなRGB観測を、リアルからシミュレートパイプラインへのスケーラブルなパスとして強調することを示した。
関連論文リスト
- TelePhysics: Physics-Grounded Multi-Object Scene Generation from a Single Image with Real-Time Interaction [51.01447538245441]
トレーニング不要なフレームワークであるTelePhysicsを提案する。
空間座標系で全シーンの幾何学を表現することで、TelePhysicsは物体の侵入とアライメントのあいまいさを解消する。
実験結果から,TelePhysicsは,物理忠実度,空間コヒーレンス,制御性において,従来手法よりも大幅に優れていたことがわかった。
論文 参考訳(メタデータ) (2026-05-19T08:16:44Z) - PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - PhysAlign: Physics-Coherent Image-to-Video Generation through Feature and 3D Representation Alignment [23.066204478030627]
ビデオモデル(VDM)は、動的なシーンや環境をシミュレートするための有望なアプローチを提供する。
既存のモデルは、しばしば基本的な物理的直観に反する時間的に一貫性のないコンテンツを生成する。
物理コヒーレントな画像対ビデオI(2V)生成のための効率的なフレームワークであるPhysAlignを提案する。
論文 参考訳(メタデータ) (2026-03-14T05:44:18Z) - Egocentric World Model for Photorealistic Hand-Object Interaction Synthesis [25.153233500074194]
EgoHOIは、このショートカットから分離したエゴセントリックなHOIワールドモデルであり、アクション信号のみからの光リアルで接触一貫性のある相互作用をシミュレートする。
エゴホイは幾何学的およびキネマティックな先駆体を3次元推定から物理インフォームド埋め込みに蒸留する。
HOT3Dデータセットの実験では、強いベースラインよりも一貫したゲインを示し、設計の有効性を検証する。
論文 参考訳(メタデータ) (2026-03-13T21:46:17Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis [52.905353023326306]
物理的に妥当で多様な実演を合成し、効率的な世界モデルを学ぶためのフレームワークであるPhysWorldを提案する。
実験により、PhysWorldは、最新の最先端手法、すなわちPhysTwinよりも47倍高速な推論速度を実現しつつ、競争性能を持つことが示された。
論文 参考訳(メタデータ) (2025-10-24T13:25:39Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。
身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。
我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文 参考訳(メタデータ) (2025-06-26T17:59:59Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。