論文の概要: ActWorld: From Explorable to Interactive World Model via Action-Aware Memory
- arxiv url: http://arxiv.org/abs/2606.17730v1
- Date: Tue, 16 Jun 2026 09:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.381765
- Title: ActWorld: From Explorable to Interactive World Model via Action-Aware Memory
- Title(参考訳): ActWorld:Action-Aware Memoryによる探索可能な世界モデルからインタラクティブな世界モデルへ
- Authors: Zhexiao Xiong, Yizhi Song, Hao Kang, Qing Yan, Liming Jiang, Jenson Yang, Zhoujie Fu, Stathi Fotiadis, Angtian Wang, Zichuan Liu, Bo Liu, Yiding Yang, Xin Lu, Nathan Jacobs,
- Abstract要約: 本稿では,対話型世界モデルであるActWorldについて紹介する。
実験の結果、ActWorldは単一のモデル内でフレキシブルなナビゲーションとリッチなオブジェクトインタラクションの両方をサポートしています。
- 参考スコア(独自算出の注目度): 36.88820961480639
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive world models aim to simulate environment dynamics under real-time user actions. However, their action vocabulary is largely confined to navigation: most actions correspond to motion (e.g., walk, turn, look around), while interaction with objects in the scene (e.g., pick up plates, open doors, or trigger physical responses) is either absent, restricted to game domains, or relegated to prompt-to-full-video scenarios. The resulting worlds are visually explorable but not truly actionable. In this work, we present ActWorld, an interactive world model that extends prior navigation-centric generators to support mid-rollout object interaction within a chunk-autoregressive framework. We argue that the navigation-interaction gap stems from two bottlenecks. First, a data bottleneck: the lack of human-object interaction data with accurate, dense labels. Second, a memory bottleneck: recency-biased history compression in existing world models discards the event-transition frames that causally determine subsequent object states, leading to an action-forgetting pathology. On the data side, we construct a 100K interaction video dataset, each annotated with per-chunk captions via chain-of-thought reasoning. On the model side, we introduce a hierarchical action-aware memory design that routes history compression by interaction importance, complemented by a persistent memory bank that maintains event-update and object-identity tokens across long rollouts. Experiments show that ActWorld supports both flexible navigation and rich object interaction within a single model, substantially improving interaction fidelity over navigation-only baselines without sacrificing viewpoint control. Project page is available at https://interactwm.github.io/ActWorld.
- Abstract(参考訳): インタラクティブな世界モデルは、リアルタイムなユーザアクションの下で環境ダイナミクスをシミュレートすることを目的としている。
しかし、アクション語彙はナビゲーションに限られており、ほとんどのアクションはモーション(例えば、歩いたり回ったり、周りを見回したり)に対応し、シーン内のオブジェクト(例えば、皿を拾ったり、ドアを開いたり、物理的な反応をトリガーしたり)とのインタラクションは欠落している。
結果として得られる世界は、視覚的に探索可能であるが、真に実行可能なものではない。
本稿では,従来のナビゲーション中心のジェネレータを拡張した対話型世界モデルであるActWorldを紹介し,チャンク自動回帰フレームワーク内での中間ロールアウトオブジェクトインタラクションをサポートする。
ナビゲーションとインタラクションのギャップは2つのボトルネックに起因すると我々は主張する。
まず、データのボトルネック: 正確で密度の高いラベルと人間とオブジェクトのインタラクションデータが欠如していること。
第2に、メモリボトルネック: 既存の世界モデルにおける回帰バイアス履歴圧縮は、後続のオブジェクト状態を因果的に決定するイベント遷移フレームを破棄し、アクション鍛造の病理に繋がる。
データ側では100Kのインタラクションビデオデータセットを構築し、それぞれにチェーン・オブ・ソート・推論を通じてチャンク毎のキャプションを付加する。
モデル側では、イベント更新およびオブジェクト識別トークンを長期ロールアウトで保持する永続メモリバンクによって補完される、インタラクションの重要性による履歴圧縮をルーティングする階層的なアクション認識メモリ設計を導入する。
実験の結果、ActWorldは単一のモデル内でフレキシブルなナビゲーションとリッチなオブジェクトインタラクションの両方をサポートし、視点制御を犠牲にすることなく、ナビゲーションのみのベースラインに対するインタラクションの忠実性を大幅に向上することがわかった。
プロジェクトページはhttps://interactwm.github.io/ActWorld.comで公開されている。
関連論文リスト
- WorldCraft: From Camera Navigation to Object Manipulation in Interactive Video World Models [32.26032900976109]
カメラナビゲーションからオブジェクトレベルのトラジェクトリアクションまで,インタラクティブなビデオワールドモデルを拡張するフレームワークであるWorldCraftを紹介する。
ユーザクリックとスケッチされたパスが与えられたら、WorldCraftは、選択したオブジェクトが所定の軌跡に従う将来のフレームを生成する。
実験により、WorldCraftは正確なオブジェクト制御を可能にし、カメラのみの評価の下でビデオベースのワールドモデルのカメラ忠実性を保ち、長期の自己回帰ロールアウトでオブジェクト状態を維持することが示されている。
論文 参考訳(メタデータ) (2026-05-24T13:40:42Z) - Olaf-World: Orienting Latent Actions for Video World Modeling [100.96069208914957]
アクションコントロール可能な世界モデルのスケーリングは、アクションラベルの不足によって制限される。
大規模受動的ビデオから行動条件付きビデオワールドモデルを事前訓練するパイプラインであるOraf-Worldを紹介する。
論文 参考訳(メタデータ) (2026-02-10T18:58:41Z) - While recognizing actions, LMMs struggle to detect core interaction events [18.828641379675243]
我々は,Sone-Something-V2データセットの動画に20K以上の注釈付きインタラクションを備えた,この種の大規模データセットを紹介した。
AMTurk Human Annotator 250は、中核的な相互作用イベント、特に、いつ、どこでオブジェクトやエージェントがアタッチされるかをラベル付けした。
モデルは、ターゲットオブジェクトを確実に命名し、アクションを識別し、一貫性のある推論を提供するが、相互作用が開始または終了するフレームを常に識別できないことを示す。
論文 参考訳(メタデータ) (2025-11-25T10:38:41Z) - MagicWorld: Interactive Geometry-driven Video World Exploration [30.475628938909242]
我々は、3次元幾何学的先行と歴史的検索を統合したインタラクティブなビデオワールドモデルMagicWorldを提案する。
本稿では,Action-Guided 3D Geometry Module (AG3D)を紹介した。
さらに、生成時に関連する履歴フレームを検索し、条件付き信号として注入するHistory Cache Retrieval (HCR) 機構を提案する。
論文 参考訳(メタデータ) (2025-11-24T08:41:28Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。