論文の概要: FlowMo-WM: A World Model with Object Momentum and Hidden Ambient Drift
- arxiv url: http://arxiv.org/abs/2606.13817v1
- Date: Thu, 11 Jun 2026 18:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.577244
- Title: FlowMo-WM: A World Model with Object Momentum and Hidden Ambient Drift
- Title(参考訳): FlowMo-WM: オブジェクトモメンタムと隠れたアンビエントドリフトを備えた世界モデル
- Authors: Yitao Jiang, Luyang Zhao, Muhao Chen, Devin Balkcom,
- Abstract要約: FlowMo-WMは、オブジェクト中心の動作状態を推測するエンドツーエンドのトレーニング可能なビジュアルワールドモデルである。
本研究では,FlowMo-WMにより,代表的な動作条件付き潜在世界モデルよりも長時間のロールアウト精度が向上することを示す。
- 参考スコア(独自算出の注目度): 20.216502429911746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models in robot learning predict future states from visual observations and actions, enabling agents to reason about the consequences of their controls. However, many action-conditioned models are evaluated in settings where motion is dominated by immediate control, whereas aquatic surface vehicles and other real-world objects continue moving under inertia and are displaced by hidden ambient drift, such as water currents or wind. We propose FlowMo-WM, an end-to-end trainable visual world model that infers object-centric motion state and a predictive long-history context associated with hidden drift from image-action histories without direct supervision of flow fields. FlowMo-WM factorizes image-action history into a short-history latent state, trained to summarize object-centric motion, and a longer-history context, trained to summarize slowly varying exogenous influences. A zero-context residual transition separates action-conditioned base dynamics from context-dependent drift effects during latent rollout. In simulated aquatic surface-vehicle environments with diverse hidden flows, disturbances, and randomized vehicle dynamics, FlowMo-WM improves long-horizon rollout accuracy over representative action-conditioned latent world models. Prediction-time context ablations, in which the inferred context is zeroed or shuffled during rollout, show that the ambient context is important for stable prediction under hidden drift, while frozen linear probes characterize information encoded in the learned factors.
- Abstract(参考訳): ロボット学習の世界モデルは、視覚的な観察と行動から将来の状態を予測し、エージェントがコントロールの結果を推論できるようにする。
しかしながら、動作が即時制御によって支配される環境では、多くのアクション条件付きモデルが評価される一方、水面車両や他の現実世界の物体は慣性下を移動し続け、水流や風などの隠れた環境漂流によって変位する。
本研究では,物体中心の運動状態を推定するエンドツーエンドのトレーニング可能なビジュアルワールドモデルであるFlowMo-WMを提案する。
FlowMo-WMは、イメージ・アクション・ヒストリーを、オブジェクト中心の動きを要約するために訓練された短史的潜伏状態と、ゆっくりと変化する外生的影響を要約するために訓練された長史的文脈に分解する。
ゼロコンテキスト残差遷移は、動作条件付きベースダイナミクスと潜時ロールアウト時のコンテキスト依存ドリフト効果を分離する。
FlowMo-WMは、様々な隠れ流れ、乱れ、ランダム化された車両力学を模擬した水面車両環境において、代表的な行動条件付き潜在世界モデルよりも長い水平ロールアウト精度を向上する。
推定コンテキストをゼロにしたり、ロールアウト中にシャッフルする予測時間短縮は、環境コンテキストが隠れドリフト下での安定した予測に重要であることを示す一方で、凍結された線形プローブは学習要因に符号化された情報を特徴付ける。
関連論文リスト
- F2F-AP: Flow-to-Future Asynchronous Policy for Real-time Dynamic Manipulation [62.06267255986041]
非同期推論はロボット操作における主要なパラダイムとして現れている。
本稿では,予測対象の流れを利用して将来の観測を合成する新しい枠組みを提案する。
本手法は複雑な動的操作タスクにおける応答性と成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-04-02T17:57:15Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - DynFlowDrive: Flow-Based Dynamic World Modeling for Autonomous Driving [67.83404465171257]
DynFlowDriveは、異なる運転行動の下で世界状態の遷移をモデル化する潜在世界モデルである。
異なる駆動動作の下でシーン状態がどのように変化するかを記述した速度場を学習する。
これに基づいて,安定性を考慮した多モード軌道選択戦略を導入する。
論文 参考訳(メタデータ) (2026-03-20T06:19:31Z) - PanguMotion: Continuous Driving Motion Forecasting with Pangu Transformers [24.3223764342551]
本稿では,連続運転シナリオの動作予測フレームワークであるPanguMotionを提案する。
我々はRealMotionデータ再構成戦略によって処理されたArgoverse 2データセットの実験を行う。
論文 参考訳(メタデータ) (2026-03-17T07:21:47Z) - FlowAD: Ego-Scene Interactive Modeling for Autonomous Driving [20.991905328262746]
本稿では,新しいエゴシーン対話型モデリングパラダイムを提案する。
人間の認識にインスパイアされたこのパラダイムは、エゴ-車両に対するシーンフローとして、エゴ-シーンの相互作用を表現している。
その内部では、エゴ誘導シーン分割がまず基本的なフローユニットを構築してシーンフローを定量化する。
そして、フロー単位に基づいて、空間的および時間的フロー予測を行い、シーンフローのダイナミクスをモデル化する。
論文 参考訳(メタデータ) (2026-03-11T16:28:53Z) - RAE-NWM: Navigation World Model in Dense Visual Representation Space [4.210599444301697]
本稿では,高密度な視覚的表現空間におけるナビゲーションダイナミクスをモデル化するRepresentation Autoencoder-based Navigation World Model (RAE-NWM)を提案する。
連続的な遷移をモデル化するためにデカップリング拡散変圧器ヘッド(CDiT-DH)を用いた条件拡散変圧器を用い、生成中の動作注入強度を制御するために動的条件付けのための時間駆動ゲーティングモジュールを別々に導入する。
論文 参考訳(メタデータ) (2026-03-10T06:16:23Z) - EgoMoD: Predicting Global Maps of Dynamics from Local Egocentric Observations [3.5831173106587393]
Maps of Dynamics (MoDs) は、長期のグローバルプランニングに有用な空間における動き傾向の構造化された表現を提供する。
EgoMoDは,ロボット操作中に収集した短い自我中心のビデオクリップから直接,未来のMoDを予測するための最初のアプローチである。
本手法は,外部観測から学習したMoDを用いて学習した映像とポーズ条件のアーキテクチャを用いて,局所的な動的キューから環境全体の動き傾向を推定する。
論文 参考訳(メタデータ) (2026-02-26T09:56:21Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Motion Forecasting in Continuous Driving [41.6423398623095]
自動運転では、自動運転車が動くと、動きの予測が繰り返し繰り返される。
既存の予測方法は、特定の範囲内で各走行シーンを独立に処理する。
本稿では,連続運転のための新しい動き予測フレームワークであるRealMotionを提案する。
論文 参考訳(メタデータ) (2024-10-08T13:04:57Z) - DeepLag: Discovering Deep Lagrangian Dynamics for Intuitive Fluid Prediction [45.778221193374755]
本稿では, タングルサム流体力学に対処する新しいラグランジアン・ユーレリア複合パラダイムを提案する。
ユーレアン観測に基づいて未来を予測するのではなく、流体中に隠れたラグランジアン力学を発見するためにDeepLagを提案する。
DeepLagは、2Dと3D、シミュレートされた実世界の流体をカバーする3つの挑戦的な流体予測タスクに優れています。
論文 参考訳(メタデータ) (2024-02-04T09:45:35Z) - Self-Supervised Learning of Non-Rigid Residual Flow and Ego-Motion [63.18340058854517]
動的3次元シーンに対する非剛性残留流とエゴ運動流の連成推定によるエンドツーエンドのシーンフロー学習法を提案する。
我々は、点クラウドシーケンスの時間的一貫性性に基づいて、自己監督的な信号で教師付きフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-09-22T11:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。