論文の概要: SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2606.18610v1
- Date: Wed, 17 Jun 2026 02:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.966697
- Title: SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation
- Title(参考訳): SC3-Eval:自己持続型ビデオ生成によるロボット基礎モデルの評価
- Authors: Wei-Cheng Tseng, Gashon Hussein, Yuzhu Dong, Allen Z. Ren, Lucy X. Shi, XuDong Wang, Sergey Levine, Zhaoshuo Li, Jinwei Gu, Florian Shkurti, Ming-Yu Liu, Quan Vuong,
- Abstract要約: SC3-Evalは、事前訓練されたビデオ基盤モデルを正確なポリシー評価器に適合させる自己一貫性のあるビデオ生成レシピである。
SC3-Evalロールアウトは、実世界のロールアウトでポリシーが示す障害モードを再現し、詳細な診断比較をサポートする。
- 参考スコア(独自算出の注目度): 73.2142090645987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating generalist robot manipulation policies in the real world is expensive, slow, and difficult to scale. Action-conditioned video world models offer a scalable alternative by simulating policy rollouts. Autoregressive rollouts accumulate compounding errors, observations across multiple camera views must remain mutually consistent, and the evaluator must generalize to policies whose behaviors lie outside the training distribution. We address these challenges with SC3-Eval, a self-consistent video generation recipe that adapts a pre-trained video foundation model into an accurate policy evaluator by enforcing three complementary forms of consistency. First, forward-inverse dynamics consistency jointly trains the model to predict frames from actions and to recover actions from frames, anchoring generated rollouts to a physically plausible action manifold and counteracting the drift a forward-only model cannot penalize. Second, cross-view consistency trains the model to inpaint each camera view from the other, keeping the multi-camera observation coherent over long rollouts without any explicit memory mechanism. Third, test-time consistency reuses the inverse dynamics mode at inference as a per-action-chunk uncertainty signal that terminates rollouts whose generated frames drift away from the requested actions. We also demonstrate SC3-Eval rollouts reproduce the failure modes that policies exhibit in real-world rollouts, supporting fine-grained diagnostic comparison rather than aggregate ranking alone. Across seven real-world vision-language-action policies, SC3-Eval attains a closed-loop Pearson correlation of $0.929$ and MMRV of $0.119$, outperforming three strong prior video-model-based baselines, and generalizes to new tasks.
- Abstract(参考訳): 現実の世界でのジェネラリストロボット操作ポリシーの評価は、高価で、遅く、スケールが難しい。
アクション条件付きビデオワールドモデルは、ポリシーのロールアウトをシミュレートすることで、スケーラブルな代替手段を提供する。
自動回帰ロールアウトは複合的なエラーを蓄積し、複数のカメラビューの観察は相互に一貫したままでなければならない。
SC3-Evalは、事前学習したビデオ基盤モデルを3種類の相補的な一貫性を強制することにより、正確なポリシー評価に適応する自己整合型ビデオ生成レシピである。
第一に、フォワード逆ダイナミクスの一貫性は、アクションからフレームを予測し、フレームからアクションを回復し、生成されたロールアウトを物理的に可算なアクション多様体にアンカーし、フォワードのみのモデルがペナルティ化できないようにモデルを共同で訓練する。
第2に、クロスビュー一貫性は、各カメラビューを互いに塗り替えるようにモデルを訓練する。
第三に、テスト時の一貫性は、要求されたアクションからフレームが逸脱したロールアウトを終了するアクション毎の不確実性信号として、推論時の逆ダイナミクスモードを再利用する。
また、SC3-Evalロールアウトは、実際のロールアウトでポリシーが示す障害モードを再現し、集計ランキングのみでなく詳細な診断比較をサポートする。
SC3-Evalは7つの現実のヴィジュアル・ランゲージ・アクション・ポリシーの中で、Pearsonのクローズドループの相関は0.929ドルとMMRVの0.119ドルに達し、より強力な3つのビデオモデルベースのベースラインを上回り、新しいタスクに一般化する。
関連論文リスト
- $ω$-EVA: Envision, Verify, and Act with Latent Interactive World Models [28.544954130906135]
身体的な政策は通常、現在の観察結果を行動に直接マッピングし、候補者行動の結果を暗黙的に残す。
動作生成のためのエンビジョン-検証-Actループを実現する潜在対話型世界モデルである$-EVAを紹介する。
その3段階のフレームワークは、アクション条件付き潜在力学を学び、言語条件付きフローポリシーを訓練し、世界モデルを通じてポリシーの提案をフィードバックする。
論文 参考訳(メタデータ) (2026-06-08T13:12:56Z) - VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis [35.55805069125473]
視覚・言語条件下でビデオとアクションを協調的に生成する,フローマッチングに基づく統合型デュアルストリームフレームワークを提案する。
シミュレーションと実世界の両方の設定で、VAGは競合予測品質を備えた協調したビデオアクションペアを生成し、実行可能な軌道再生をサポートし、有用な合成事前学習データを提供する。
論文 参考訳(メタデータ) (2026-04-10T13:59:54Z) - Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning [18.397872306430006]
アクションコンディショニングされたロボットワールドモデルは、ロボットアクションシーケンスが与えられた操作されたシーンの将来のビデオフレームを生成する。
これらのモデルは、短時間の予測に最適化され、自動回帰的にデプロイされたときに分解される。
我々は,自己回帰的なロールアウトで世界モデルを訓練する強化学習スキームを導入する。
論文 参考訳(メタデータ) (2026-03-26T17:36:08Z) - Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。