論文の概要: Beyond the Next Step: Variable-Length Latent World Models for Long-Horizon Planning
- arxiv url: http://arxiv.org/abs/2606.21775v1
- Date: Fri, 19 Jun 2026 21:50:15 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:56:50.345063
- Title: Beyond the Next Step: Variable-Length Latent World Models for Long-Horizon Planning
- Title(参考訳): 次のステップを超えて: 長期計画のための可変長ラテント世界モデル
- Authors: Tianqi Du, Qi Zhang, Yifei Wang, Yisen Wang,
- Abstract要約: 本稿では,可変長の動作列に条件付き潜在状態を予測するフレームワークを提案する。
実験により、可変長ラテント・ワールド・モデルがラテント・スペース・ワールド・モデルを大幅に改善していることが示されている。
- 参考スコア(独自算出の注目度): 40.09669638091686
- License:
- Abstract: Recently, world models have emerged as a promising paradigm for building intelligent agents by learning predictive models that estimate future environment states conditioned on observations and actions. In particular, JEPA-style latent world models provide an efficient alternative to pixel space prediction by learning action-conditioned dynamics in compact representation spaces. However, existing latent world models typically rely on one-step prediction and must be recursively rolled out for long-horizon planning, which leads to compounding errors and a mismatch between training objectives and downstream planning tasks. To address this limitation, we propose Variable-length Latent World Models (VLWMs), a framework that learns to predict future latent states conditioned on action sequences of variable lengths. Instead of training only on one-step transitions, VLWMs directly model temporally extended dynamics, allowing the same predictor to evaluate action plans over different horizons. We further introduce a curriculum training strategy that progressively expands the action horizon, stabilizing optimization from short-range dynamics to long-range prediction. At test time, we design planning methods tailored to VLWMs to better exploit their variable-length predictive capabilities. Experiments on long-horizon control tasks show that VLWMs significantly improve latent space world models, achieving 13\% average improvement over the state-of-the-art LeWM across different datasets, with especially large gains on tasks requiring extended planning. These results suggest that VLWM provides a simple yet effective paradigm for improving long-horizon prediction and planning in latent world models.
- Abstract(参考訳): 近年、世界モデルは、観測と行動に条件付けられた将来の環境状態を推定する予測モデルを学ぶことによって、知的エージェントを構築するための有望なパラダイムとして浮上している。
特に、JEPAスタイルの潜在世界モデルは、コンパクトな表現空間におけるアクション条件のダイナミクスを学習することで、ピクセル空間予測の効率的な代替手段を提供する。
しかし、既存の潜在世界モデルは、通常ワンステップの予測に依存し、長期計画のために再帰的にロールアウトされなければならない。
この制限に対処するため,可変長の動作列に条件付き潜在状態を予測するフレームワークである可変長潜在世界モデル(VLWMs)を提案する。
1段階の遷移のみをトレーニングする代わりに、VLWMは時間的に拡張されたダイナミクスを直接モデル化し、同じ予測器が異なる水平線上での行動計画を評価することができる。
さらに,行動水平線を段階的に拡張し,短期力学から長距離予測への最適化を安定化するカリキュラム学習戦略を導入する。
テスト時に,変数長予測能力をうまく活用するために,VLWMに適した計画手法を設計する。
長期制御タスクの実験では、VLWMは遅延宇宙世界モデルを大幅に改善し、様々なデータセットで最先端のLeWMよりも平均13.5%向上し、特に長期計画を必要とするタスクにおいて大きな利益が得られた。
これらの結果から、VLWMは、潜在世界モデルにおける長期予測と計画を改善するための、単純かつ効果的なパラダイムを提供すると考えられる。
関連論文リスト
- FF-JEPA: Long-Horizon Planning in World Models with Latent Planners [30.722155570120766]
JEPA(Joint Embedding Predictive Architectures)は、将来性のある世界モデリング機能を示している。
2つのフォワードダイナミクスモデルを利用した階層的アプローチであるフォワード・フォワード・JEPA(FF-JEPA)を提案する。
PushTの予備的な結果は、FF-JEPAが平らな世界モデルの長い水平崩壊を乗り越えることに成功したことを示している。
論文 参考訳(メタデータ) (2026-06-08T10:16:59Z) - LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling [74.94985663101906]
本稿では,予測地平線上での動的スケジューリングプロセスとして時系列予測を再構成する新しいフレームワーク LeapTSを提案する。
LeapTSは、Transformerベースのモデルよりも2.6$times$から5.3$times$推論スピードアップを実現しつつ、全体的な予測性能を少なくとも7.4%向上させる。
論文 参考訳(メタデータ) (2026-05-11T09:54:02Z) - World-Value-Action Model: Implicit Planning for Vision-Language-Action Systems [32.4918638412746]
VLA(Vision-Language-Action)モデルは、知覚と言語を作用させるエンボディエージェントを構築するための有望なパラダイムとして登場した。
本稿では,VLAシステムにおける暗黙的な計画を可能にする統合フレームワークであるWorld-Value-Action(WAV)モデルを紹介する。
論文 参考訳(メタデータ) (2026-04-16T07:46:05Z) - Hierarchical Planning with Latent World Models [49.82095442483551]
階層的計画は、最大4倍の計画時間計算を必要としながら、より高い成功を達成する。
この階層的なアプローチにより、現実世界の非グリーディロボットタスクをゼロショットで制御できることを実証する。
論文 参考訳(メタデータ) (2026-04-03T17:32:36Z) - Uni-World VLA: Interleaved World Modeling and Planning for Autonomous Driving [52.04950569530877]
我々は、将来のフレーム予測と軌道計画の密接なインターリーブを行う統合視覚言語行動モデルUni-World VLAを提案する。
提案手法は,高忠実度将来のフレーム予測を行いながら,競合する閉ループ計画性能を実現する。
論文 参考訳(メタデータ) (2026-03-28T14:39:51Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - Compositional Planning with Jumpy World Models [70.74595987225908]
我々は、事前訓練されたポリシーを構成するエージェントを時間的に拡張したアクションとして研究し、構成員だけでは解決できない複雑なタスクに対する解決を可能にする。
arXiv:2206.08736で導入された幾何学的ポリシー構成フレームワークをモチベーションとして,多段階力学の予測モデルを学習することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2026-02-23T09:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。