論文の概要: Current World Models Lack a Persistent State Core
- arxiv url: http://arxiv.org/abs/2606.20545v1
- Date: Thu, 18 Jun 2026 17:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.043951
- Title: Current World Models Lack a Persistent State Core
- Title(参考訳): 現在の世界モデルは、永続的なステートコアを欠いている
- Authors: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju,
- Abstract要約: 世界モデルはますます、人工知能への決定的な一歩と見なされている。
それらは、観測から切り離された、時間とともに進化し続ける内部的な世界状態を必要とします。
textbfWRBenchは、カメラの動きを可観測性への介入として扱う最初の体系的診断ベンチマークである。
- 参考スコア(独自算出の注目度): 18.34296893231955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are increasingly regarded as a decisive step toward artificial general intelligence, yet modeling the physical world demands more than rendering convincing frames on demand: it requires an internal world state that keeps evolving over time, decoupled from observation, so that objects endure and events run to their conclusions whether or not a camera is watching, much as the moon holds to its orbit when no one is looking. This requirement is a blind spot of existing benchmarks, which reward surface properties such as fidelity, motion, and camera controllability while never asking whether a generated world keeps evolving once it is unobserved. We introduce \textbf{WRBench}, the first systematic diagnostic benchmark that treats camera motion as an intervention on observability and resolves evaluation into a human-calibrated chain that asks whether the camera executes the requested interaction, whether the scene stays continuous and identifiable while in view, and whether a returning target remains consistent with the event that was set in motion. Across 9{,}600 videos from 23 models spanning four control paradigms, one finding proves stubborn: current systems maintain the observed world as a tracking shot, resuming a returning target in the state at which it was abandoned rather than advancing the event while it went unseen. Because this failure recurs across control paradigms, model families, and increments of scale, robust world-state evolution does not follow from cleaner imagery, tighter control, richer geometric priors, or sheer parameter count We therefore argue that the stability of the physical state kernel and the consistency of worldlines under viewpoint intervention should become first-class objectives of world-model design, so that a world model captures how the world will unfold rather than how the next frame appears.
- Abstract(参考訳): 世界モデルは、人工知能への決定的なステップとして見なされがちだが、物理世界が要求する要求を、理論的なフレームをオンデマンドでレンダリングするよりはむしろモデル化する: 時間とともに進化し続ける内部世界状態が必要であり、観察から切り離され、オブジェクトの耐久性やイベントが、誰も見ていないときのように、月が軌道に保持しているかどうかに関わらず、彼らの結論に反応する。
この要件は既存のベンチマークの盲点であり、フィデリティ、モーション、カメラ制御などの表面特性を報いる一方で、生成した世界が観測されていないときに進化し続けるかどうかを問うことはない。
我々は,カメラの動きを可観測性への介入として扱う最初の体系的診断ベンチマークである‘textbf{WRBench} を導入し,カメラが要求されたインタラクションを実行するかどうか,シーンが視野内で連続かつ識別可能かどうか,また、帰還対象が動作中のイベントと整合性を維持しているかどうかを問う,人間の校正された連鎖に評価を分解する。
4つのコントロールパラダイムにまたがる23のモデルから9{,}600の動画を見れば、現状のシステムは追跡ショットとして観察された世界を維持していることが分かる。
この失敗は、制御パラダイム、モデルファミリー、スケールの増大にまたがって起こるため、よりクリーンなイメージ、より厳密な制御、よりリッチな幾何学的先入観、あるいは厳密なパラメータ数から、堅牢な世界国家の進化は、従わない。
関連論文リスト
- Sensorimotor World Models: Perception for Action via Inverse Dynamics [59.121736411156384]
Inverse dynamics regularization で訓練されたエンド・ツー・エンドのセンサモレータ・ワールドモデルを導入する。
表現の崩壊を防ぎ、アクション整列表現を誘導する。
コンパクトで解釈可能な潜在空間を学習し、単純な2Dおよび3D制御タスク間の競合計画性能を実現する。
論文 参考訳(メタデータ) (2026-06-18T11:25:16Z) - DisCo: World Models with Discrete Camera Motion Control [79.86256515640231]
本研究では、離散アクションプリミティブのコンパクトなセットで生成し、アクション分離性を改善する制御可能なビデオワールドモデルであるDisCoを提案する。
DisCoは、視覚的品質を維持しながら、はるかに信頼性の高いアクションを達成する。
論文 参考訳(メタデータ) (2026-06-06T03:50:45Z) - AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization [79.26935895370191]
AnchorWorldは、対話の整合性を強化することで、エゴセントリックなシミュレーションを促進するフレームワークである。
補助訓練監督は、エージェントのファーストパーソンセンタリウムから切り離された視点を取り入れている。
我々は、自己進化する世界をカスタマイズするためのシンプルで効果的なメカニズムを提案する。
論文 参考訳(メタデータ) (2026-06-05T14:43:13Z) - MetaWorld: Scaling Multi-Agent Video World Model from Single-view Video Data [125.43597497646444]
MetaWorldは、マルチエージェントビデオワールドモデルをシングルビュービデオから直接オープンドメイン環境にスケールする新しいフレームワークである。
クロスビューの一貫性とアイデンティティの整合性を向上し、マルチエージェントビデオワールドモデリングのための高度にスケーラブルで物理駆動のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-06-01T18:20:20Z) - Physically Native World Models: A Hamiltonian Perspective on Generative World Modeling [5.424198387331309]
我々は、世界モデルのボトルネックは、現実的な未来を創造できるかどうかだけでなく、これらの未来が物理的に意味があり、行動に有用であるかどうかを論じる。
本研究では,世界モデリングの物理的基盤として,EmphHamiltonian World Modelsを提案する。
我々は、ハミルトン構造が解釈可能性、データ効率、長期安定性をどのように改善するかを議論するとともに、摩擦、接触、非保守力、変形可能な物体を含む現実のロボットシーンにおける実践的な課題についても述べる。
論文 参考訳(メタデータ) (2026-05-01T05:09:32Z) - Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [39.648000265543445]
ビデオベースの世界モデルは、ビデオ生成と3D再構成という2つの支配的なパラダイムに沿って登場した。
世界モデリングの未来は、空間構造と時間的進化を共同でモデル化する4D世代にあると我々は主張する。
Omni-WorldBenchは,世界モデルの対話的応答能力を4次元設定で評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-03-23T17:10:29Z) - LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models [32.92934803081681]
近年の世代別ビデオワールドモデルは、視覚環境の進化をシミュレートすることを目的としており、観察者はカメラ制御によってシーンをインタラクティブに探索することができる。
彼らは、世界は観察者の視野内でしか進化しないと暗黙的に仮定している。
オブジェクトがオブザーバの視点を離れると、その状態はメモリ内で"凍結"され、その後同じ領域を再考しても、その間に発生すべき出来事を反映できないことがしばしばある。
永続的な世界進化をサポートするために,ビデオワールドモデルを拡張する新しいフレームワークであるLiveWorldを提案する。
論文 参考訳(メタデータ) (2026-03-07T10:31:39Z) - Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks [43.59401259468559]
我々は、ロバストな世界モデルは、能力の緩やかな集まりではなく、相互作用、知覚、象徴的推論、空間的表現を一体的に組み込んだ規範的な枠組みであるべきだと主張する。
この研究は、未来の研究を世界のより一般的で堅牢で原則化されたモデルへと導くことを目的としている。
論文 参考訳(メタデータ) (2026-02-02T04:42:44Z) - From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文 参考訳(メタデータ) (2026-01-21T23:35:33Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。
われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。
従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文 参考訳(メタデータ) (2021-12-02T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。