論文の概要: World Action Models: A Survey
- arxiv url: http://arxiv.org/abs/2606.20781v1
- Date: Thu, 18 Jun 2026 17:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:52:04.929736
- Title: World Action Models: A Survey
- Title(参考訳): World Action Models: A Survey
- Authors: Qiuhong Shen, Shihua Zhang, Yue Liao, Qi Li, Zhenxiong Tan, Shizun Wang, Shuicheng Yan, Xinchao Wang,
- Abstract要約: ワールドアクションモデル(World Action Models, WAM)は、将来を予測できる予測モデルである。
近年のWAMは大規模なビデオ生成モデルを再利用しており、並列線はビデオ生成コアを持たない言語や視覚言語によるバックボーンに依存している。
この調査は、フィールドに共通の説明を与えます。まず、これらの境界を明確にし、2つの補完的な視点で既存の作業を整理します。
- 参考スコア(独自算出の注目度): 100.95337034529263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World Action Models (WAMs) are embodied predictive-action models that make a forecast of the future available to action. Recent WAMs repurpose large video generation models, and a parallel line relies on language or vision-language backbones without a video-generation core. This rapid expansion has blurred the boundary among broad world models, video generation models, action-grounded video world models, Vision-Language-Action policies, and WAMs. This survey gives the field a common account. It first clarifies these boundaries, then organizes existing works through two complementary views. The first view asks what each method is required to generate, spanning rendered futures, latent futures, and video-generation-free action reasoning. The second view decomposes each method by predictive substrate, backbone, action coupling, and deployment regime. This anatomy supports a unified discussion of interactability, causality, persistence, physical plausibility, and generalization, followed by data, evaluation, and open challenges. Across these axes, a consistent design pattern emerges: WAMs are not simply video generators with action heads, but predictive-action methods whose design choices trade representational richness against compute, memory, latency, and action-label cost. The field is moving toward methods that generate less of the future while preserving what control requires. The survey homepage is available at https://world-action-models.github.io/.
- Abstract(参考訳): ワールドアクションモデル(World Action Models, WAM)は、将来を予測できる予測モデルである。
近年のWAMは大規模なビデオ生成モデルを再利用しており、並列線はビデオ生成コアを持たない言語や視覚言語によるバックボーンに依存している。
この急速な拡大は、幅広い世界モデル、ビデオ生成モデル、アクション・グラウンドド・ビデオ・ワールドモデル、ビジョン・ランゲージ・アクション・ポリシー、WAMsの境界を曖昧にした。
この調査は、フィールドに共通の説明を与えます。
まず、これらの境界を明確にし、2つの補完的な視点で既存の作品を整理する。
最初のビューでは、生成に必要なメソッド、レンダリングされた未来、遅延した未来、ビデオ生成不要なアクション推論を問う。
第2のビューは、予測基質、バックボーン、アクション結合、デプロイメント機構によって各メソッドを分解する。
この解剖学は、相互作用可能性、因果性、永続性、物理的妥当性、一般化に関する統一的な議論をサポートし、続いてデータ、評価、オープンチャレンジが続く。
WAMは単にアクションヘッドを備えたビデオジェネレータではなく、設計が計算、メモリ、レイテンシ、アクションラベルコストに対して表現豊かさを交換する予測アクションメソッドである。
このフィールドは、制御に必要なものを保持しながら、未来を少なくするメソッドに向かっている。
調査ホームページはhttps://world-action-models.github.io/.comで公開されている。
関連論文リスト
- Geometric Action Model for Robot Policy Learning [68.6657929619782]
汎用ロボットポリシーは、オブジェクト、カメラ、ロボットアクションが3D物理世界でどのように相互作用するかを推論しながら、ユーザーの指示に従う必要がある。
最近の視覚言語行動モデル(VLA)とビデオ世界行動モデル(WAM)は、大規模基盤モデルから強い意味や時間的先行を継承する。
本稿では,言語条件の操作ポリシーであるGeometric Action Model (GAM)を提案する。
論文 参考訳(メタデータ) (2026-06-15T17:58:03Z) - $τ_0$-WM: A Unified Video-Action World Model for Robotic Manipulation [45.040666672458634]
政策学習,映像予測,行動評価を統合した統合ビデオアクション世界モデルを提案する。
このモデルは、実際のロボット遠隔操作で約27,300ドル(約2万2000円)で訓練されている。
論文 参考訳(メタデータ) (2026-05-31T05:35:36Z) - From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - Action Images: End-to-End Policy Learning via Multiview Video Generation [70.67042168383638]
我々は、ポリシー学習をマルチビュービデオ生成として定式化する統合世界アクションモデルであるAction Imagesを提案する。
本モデルでは,従来のビデオ空間モデルに比べて,最強のゼロショット成功率を実現し,ビデオアクションジョイント生成品質を向上させる。
論文 参考訳(メタデータ) (2026-04-07T17:59:30Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos [13.630119246378518]
我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。
ProphetDWMは、未来のビデオやアクションを共同で予測する新しいエンド・ツー・エンドの運転世界モデルである。
論文 参考訳(メタデータ) (2025-05-24T11:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。