論文の概要: CAPE: Contrastive Action-conditioned Parallel Encoding for Embodied Planning
- arxiv url: http://arxiv.org/abs/2606.07304v1
- Date: Fri, 05 Jun 2026 14:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.774602
- Title: CAPE: Contrastive Action-conditioned Parallel Encoding for Embodied Planning
- Title(参考訳): CAPE(Contrastive Action- Conditioned Parallel Encoding for Embodied Planning)
- Authors: Cong Chen, Haowen Wang, Zhixiang Zhang, Pei Ren, Zhengping Che,
- Abstract要約: エージェントは、実行前に効果的に計画するために、候補アクションの将来の結果を予測する必要がある。
本稿では、異なるアクションシーケンスによって引き起こされる将来の成果を識別し、視覚力学を学習するコントラスト型アクション条件並列コンバーフレームワークであるCAPEを提案する。
- 参考スコア(独自算出の注目度): 15.559483151991813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents need to predict the future consequences of candidate actions in order to plan effectively before execution. Existing visual dynamics models learn by reconstructing future visual states or rolling out dense latent representations, which spreads learning capacity across visually salient but planning-irrelevant content rather than the action-conditioned changes that drive manipulation outcomes. We propose CAPE, a Contrastive Action-conditioned Parallel Encoding framework that learns visual dynamics by distinguishing the future outcomes induced by different action sequences. Given an initial observation and a candidate action sequence, CAPE decodes the full future latent trajectory in a single forward pass and is trained with a Goal-Convergent Contrastive Objective that aligns predictions corresponding to the same future outcome while separating those corresponding to different outcomes. On real-world DROID and zero-shot transfer to RoboCasa, CAPE substantially outperforms prior baselines on future-state retrieval, offline action matching, and closed-loop planning, while notably reducing planning-time inference cost at long prediction horizons.
- Abstract(参考訳): エージェントは、実行前に効果的に計画するために、候補アクションの将来の結果を予測する必要がある。
既存の視覚力学モデルは、将来の視覚状態の再構築や、複雑な潜伏表現のロールアウトによって学習される。
本稿では、異なるアクションシーケンスによって引き起こされる将来の成果を識別し、視覚力学を学習するコントラストアクション条件並列符号化フレームワークであるCAPEを提案する。
初期観測と候補行動シーケンスが与えられた後、CAPEは1つの前方通過で完全な未来の潜在軌道をデコードし、異なる結果に対応するものを分離しながら、同じ将来の結果に対応する予測を整列するゴール・コンバージェント・コントラスト・オブジェクトで訓練される。
現実のDROIDとゼロショットのRoboCasaへの転送では、CAPEは将来の状態検索、オフラインアクションマッチング、クローズドループ計画のベースラインを大幅に上回っている。
関連論文リスト
- Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models [101.44987067974999]
Coarse-to-Controlは計画実行VLAで、アクション・ツー・ケンの領域で計画を導入する。
アクション・ツー・ケイン・プランニングは直接アクション・ジェネレーションよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2026-06-05T10:01:37Z) - IDOL: Inverse-Dynamics-Guided Future Prediction for End-to-End Autonomous Driving [6.515607168928518]
IDOLは、潜在BEV空間におけるワールドモデルに基づくエンド・ツー・エンド・プランニングのための逆力学誘導型将来の予測フレームワークである。
IDOLはまず、BEVワールドモデルを用いて複数の将来の潜伏シーン状態を予測し、次に隣接する潜伏未来に逆ダイナミクスモデルを適用する。
これらの逆力学に基づく信号は、計画された軌道を最適化するために使用され、受動シーン予測から将来の予測を実行可能な計画ガイダンスに変える。
論文 参考訳(メタデータ) (2026-05-29T16:05:42Z) - From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Unified Recurrence Modeling for Video Action Anticipation [16.240254363118016]
本稿では,メッセージパッシングフレームワークを用いたビデオアクション予測のための統合再帰モデルを提案する。
提案手法は,EPIC-Kitchenデータセットの大規模化において,従来よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T12:16:44Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。