論文の概要: AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization
- arxiv url: http://arxiv.org/abs/2606.07326v1
- Date: Fri, 05 Jun 2026 14:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.788524
- Title: AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization
- Title(参考訳): AnchorWorld: ビューベースの進化カスタマイズによるエゴシックな世界シミュレーション
- Authors: Yu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang,
- Abstract要約: AnchorWorldは、対話の整合性を強化することで、エゴセントリックなシミュレーションを促進するフレームワークである。
補助訓練監督は、エージェントのファーストパーソンセンタリウムから切り離された視点を取り入れている。
我々は、自己進化する世界をカスタマイズするためのシンプルで効果的なメカニズムを提案する。
- 参考スコア(独自算出の注目度): 79.26935895370191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite being a pivotal frontier, interactive world modeling remains underexplored in terms of the versatile controllability required by practical scenarios. To bridge this gap, we present AnchorWorld, a framework that advances egocentric simulation through enhanced interaction integrity and a flexible mechanism for world customization. First, we utilize 3D human motion as the primary interaction modality. To complement the out-of-view or truncated body parts in egocentric views, we introduce an auxiliary training supervision that incorporates exogenous viewpoints decoupled from the agent's first-person sensorium. It allows the model to observe the agent's full-body positioning relative to the environment, facilitating a more robust spatial grounding of human-world interactions. Furthermore, we propose a simple yet effective mechanism for customizing self-evolving worlds. This is achieved by defining anchor views within a unified world coordinate system, coupled with textual descriptions dictating the dynamic evolution of local scenes. Experimental results show that AnchorWorld significantly outperforms state-of-the-art baselines, while ablation studies validate the effectiveness of our key designs. Notably, our customization scheme exhibits promising spatio-temporal geometric consistency and adheres strictly to the prescribed evolutionary dynamics.
- Abstract(参考訳): 中心的なフロンティアであるにもかかわらず、インタラクティブな世界モデリングは、現実的なシナリオで必要とされる多彩な制御性の観点から、いまだ探索されていない。
このギャップを埋めるために、相互作用の整合性を高め、エゴセントリックなシミュレーションを促進するフレームワークであるAnchorWorldと、世界カスタマイズのためのフレキシブルなメカニズムを提示する。
まず,3次元人間の動きを一次相互作用のモダリティとして利用する。
自我中心の視点において、外因性視点をエージェントの初対人感覚から切り離した視点を取り入れた補助的な訓練指導を導入する。
モデルにより、エージェントの環境に対する全体位置を観察することができ、人間と世界の相互作用をより堅牢な空間的接地を促進することができる。
さらに,自己進化する世界をカスタマイズするための,シンプルかつ効果的なメカニズムを提案する。
これは、統一された世界座標系内でアンカービューを定義し、局所的なシーンの動的進化を規定するテキスト記述と組み合わせることで達成される。
実験の結果,AnchorWorldは最先端のベースラインを著しく上回り,アブレーション研究はキーデザインの有効性を検証した。
特に、我々のカスタマイズ方式は、時空間の有望な整合性を示し、所定の進化力学に厳密に固執する。
関連論文リスト
- MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data [125.43597497646444]
MetaWorldは、マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境にスケールする新しいフレームワークである。
クロスビューの一貫性とアイデンティティの整合性を向上し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-06-01T18:20:20Z) - AtomicMotion: Learning Human Motion From Different Human Parts [9.72019653340761]
私たちは,3つのコアイノベーションを通じて身体のダイナミクスを分離し,再統合するように設計されたフレームワークであるAtomicMotionを紹介します。
まず,スケルトンを機能的意図に基づいて5つの異なるクラスタに分解する論理体分割方式を提案する。
第二に、スパース入力を高次元ポーズに頑健にマッピングするために、マスク付きフルボディプレコンディショニング戦略を採用する。
第3に,バニラ空間的注意の限界に対処し,キネマティック・アテンションを提案する。
論文 参考訳(メタデータ) (2026-05-21T15:39:38Z) - SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。
本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。
SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-15T07:41:52Z) - Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - EgoForge: Goal-Directed Egocentric World Simulator [26.712565464146937]
EgoForgeはゴール指向の世界シミュレータで、最小限の静的入力から一対一のビデオロールアウトを生成する。
VideoDiffusionNFTは、拡散サンプリング中の目標完了、時間的因果性、シーンの一貫性、知覚的忠実度を最適化する軌道レベルの報酬誘導改良である。
論文 参考訳(メタデータ) (2026-03-20T17:46:55Z) - Ego to World: Collaborative Spatial Reasoning in Embodied Systems via Reinforcement Learning [61.753025885751036]
本稿では,3つのタスクにまたがる異種視点を融合する視覚言語モデルの能力を評価するEgo-to-Worldベンチマークを提案する。
我々は,2段階のフレームワークであるCoRLを提案し,チェイン・オブ・ソート(Chain-of-Thought)を教師付き微調整と強化学習を組み合わせた。
我々は、CoRLが、推論と知覚グラウンドのメトリクスの両方において、強力なプロプライエタリおよびオープンソースベースラインを一貫して超越していることを示します。
論文 参考訳(メタデータ) (2026-03-16T04:27:53Z) - Self-motion as a structural prior for coherent and robust formation of cognitive maps [31.112944521126135]
自己運動は学習された認知地図の幾何学を積極的に整理する構造的先行として振る舞うことができることを示す。
我々は、キャパシティ効率、脳にインスパイアされたリカレントメカニズムを用いて実装された予測符号化フレームワークに、経路積分に基づく動作を前もって組み込む。
力学解析により、先行運動自体が厳密な制約の下で幾何学的に正確な軌道を符号化していることが明らかになった。
論文 参考訳(メタデータ) (2025-12-23T04:28:52Z) - ECHO: Ego-Centric modeling of Human-Object interactions [71.17118015822699]
ECHO (Ego-Centric Modeling of Human-Object Interaction) を開発した。
人間のポーズ、物体の動き、そしてそのような最小限の観察から接触の3つのモダリティを回復する。
同じ柔軟性を提供しない既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-08-29T12:12:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。