Fugu-MT 論文翻訳(概要): Autonomous Video Generation with Counterfactual Controllability for Self-Evolving World Models

論文の概要: Autonomous Video Generation with Counterfactual Controllability for Self-Evolving World Models

arxiv url: http://arxiv.org/abs/2606.24152v1
Date: Tue, 23 Jun 2026 05:19:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.787881
Title: Autonomous Video Generation with Counterfactual Controllability for Self-Evolving World Models
Title（参考訳）: 自己進化型世界モデルのための対実的制御性を持つ自律ビデオ生成
Authors: Xin Wang, Wenxuan Liu, Tongtong Feng, Wenwu Zhu,
Abstract要約: 既存の文献では、ビデオ生成は基本的に世界モデリングであると主張している。本稿では,対物制御性を備えた自律型ビデオ生成という新たな視点を提案する。
参考スコア（独自算出の注目度）: 40.57509385724164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing literature claims that video generation essentially is world modelling. On the one hand, the claim is productive because it pushes generative AI beyond static images and toward temporally extended physical scenes. On the other hand, this claim dangerously relies on the belief that scaling visual prediction alone will automatically yield physical agents. We prefer a more accurate statement: video generation models learn a partial, implicit spatiotemporal world model, but not a fully grounded or controllable one. The reason is as follows: a model may generate a plausible video of a drone crossing a forest or a robot arm manipulating a cup, yet still fail to know which variables are controllable, which constraints belong to a particular body and which futures remain valid under intervention. The frontier in essence is not predictive realism alone, instead it emphasizes a self-evolving generative nature that requires the decisive criterion to be counterfactual controllability: the capability of asking what would happen under an action, to test whether the generated future can survive embodiment constraints and to feed the resulting action knowledge back into future imagination (generation). Therefore, in this paper we present a new perspective, i.e., autonomous video generation with counterfactual controllability is one promising way to realize self-evolving world models.
Abstract（参考訳）: 既存の文献では、ビデオ生成は基本的に世界モデリングであると主張している。一方、クレームは、生成AIを静的画像を超えて時間的に拡張された物理的シーンへと押し上げるため、生産的だ。一方で、この主張は、視覚的予測のスケーリングだけで自動的に物理的なエージェントが生成されるという信念に依存している。ビデオ生成モデルは、部分的かつ暗黙的な時空間的世界モデルを学ぶが、完全に基底的あるいは制御可能なものではない。モデルは、森を横切るドローンや、カップを操作するロボットアームの可視ビデオを生成するが、どの変数が制御可能か、どの制約が特定の身体に属し、どの未来が介入されているかは、まだわからない。本質的には、フロンティアは予測的リアリズムのみではなく、決定的な基準を反ファクト的制御性に要求する自己進化的な生成性を強調している: アクションの下で何が起こるかを尋ねる能力、生成された未来が実施制約を乗り越え、結果として生じる行動知識を将来の想像力(世代)に戻すことができるかどうかをテストする能力である。そこで,本稿では,自己進化型世界モデルを実現するための新たな視点として,対実的制御性を備えた自律ビデオ生成を提案する。

関連論文リスト

World Action Models: A Survey [100.95337034529263]
ワールドアクションモデル(World Action Models, WAM)は、将来を予測できる予測モデルである。近年のWAMは大規模なビデオ生成モデルを再利用しており、並列線はビデオ生成コアを持たない言語や視覚言語によるバックボーンに依存している。この調査は、フィールドに共通の説明を与えます。まず、これらの境界を明確にし、2つの補完的な視点で既存の作業を整理します。
論文参考訳（メタデータ） (2026-06-18T17:05:19Z)
Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation [31.881404705268356]
本稿では,高速かつ予測可能な映像調和行動のためのフレームワークを提案する。提案手法はまず,信頼性の高い将来予測を保証するために,ロバストなビデオ生成モデルを選択し,適応する。本手法は,時間的コヒーレントで空間的精度の高い映像予測を行い,正確な操作を直接支援する。
論文参考訳（メタデータ） (2026-02-11T10:23:52Z)
From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文参考訳（メタデータ） (2026-01-21T23:35:33Z)
Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文参考訳（メタデータ） (2026-01-21T18:59:32Z)
From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか? この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文参考訳（メタデータ） (2025-12-04T18:56:03Z)
ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos [13.630119246378518]
我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。 ProphetDWMは、未来のビデオやアクションを共同で予測する新しいエンド・ツー・エンドの運転世界モデルである。
論文参考訳（メタデータ） (2025-05-24T11:35:09Z)
Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文参考訳（メタデータ） (2021-03-18T15:12:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。