論文の概要: UniviewVLA: A Unified Multiview Vision-Language-Action Model with World Modeling
- arxiv url: http://arxiv.org/abs/2606.21501v1
- Date: Fri, 19 Jun 2026 14:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 12:59:39.65817
- Title: UniviewVLA: A Unified Multiview Vision-Language-Action Model with World Modeling
- Title(参考訳): UniviewVLA:世界モデリングを用いた統合多視点視覚言語行動モデル
- Authors: Tao Xu, Runhao Zhang, Zhijian Huang, Jiayi Guan, Jiaxin Wang, Yifan Ding, Yong-Lu Li, Long Chen, Guang Chen, Jinghui Lu,
- Abstract要約: ワールド・モデリングを用いたマルチビュー・ビジョン・ランゲージ・アクション・モデルであるUniviewVLAを提案する。
生成されたマルチビューの将来のビューを活用することで、UniviewVLAは隠蔽されたキューと将来のシーンの進化をモデル化する。
UniviewVLA は LIBERO で95.8%、CALVIN ABCD to D で4.60を達成している。
- 参考スコア(独自算出の注目度): 33.6086006552446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Occluded tasks remain a bottleneck in robot manipulation. Existing solutions either deploy additional physical cameras requiring training-inference camera parity, or rely on explicit 3D reconstruction with high computational cost. Moreover, both approaches rely on standard agent-view and wrist-view observations, while failing to capture occlusion information and future scene evolution. To this end, we propose UniviewVLA, a unified multiview Vision-Language-Action model with world modeling, which infers multiview scene evolution for action prediction from only standard two-camera observations. We demonstrate that by leveraging generated multiview future views from the world model, UniviewVLA reveals occluded cues and models future scene evolution, improving action prediction and removing the need for extra hardware or explicit reconstruction. Besides, to accelerate inference while preserving prediction accuracy, UniviewVLA develops Motion-Informative Token Compression, which compresses each generated view from 625 to 16 tokens and reduces per-view latency from 6-7s to 0.2-0.3s. UniviewVLA also proposes training-free Action-Entropy View Selection, which dynamically identifies the most action-informative view at different inference stages. Extensive experiments show that UniviewVLA achieves 95.8% on LIBERO and 4.60 on CALVIN ABCD to D, both standard occlusion-free benchmarks. On customized occlusion-focused tasks, it improves success rate from 40.0% to 73.3%, and average real-robot success rate by 33.4 points, demonstrating stronger occlusion-focused performance without sacrificing standard occlusion-free benchmarks.
- Abstract(参考訳): 占領されたタスクは、ロボット操作のボトルネックのままだ。
既存のソリューションは、トレーニング・推論カメラの同等性を必要とする追加の物理カメラをデプロイするか、あるいは計算コストの高い明示的な3D再構成に依存している。
さらに、どちらのアプローチも標準的なエージェントビューと手首ビューの観察に依存し、隠蔽情報と将来のシーンの進化を捉えていない。
この目的のために我々は,標準的な2カメラ観測のみから,アクション予測のためのマルチビューシーンの進化を推定する,世界モデリングを用いた統合マルチビュービジョン・ランゲージ・アクションモデルUniviewVLAを提案する。
そこで,UniviewVLAは,世界モデルから生成した複数ビューの将来のビューを活用することで,隠蔽されたキューと将来のシーンの進化をモデル化し,アクション予測を改善し,余分なハードウェアや明示的な再構築の必要性を排除できることを実証した。
さらに、予測精度を維持しながら推論を高速化するため、UniviewVLAでは、生成されたビューを625から16のトークンに圧縮し、ビュー毎のレイテンシを6-7sから0.2-0.3sに短縮するMotion-Informative Token Compressionを開発した。
UniviewVLAはまた、異なる推論段階で最もアクション非表現的なビューを動的に識別する、トレーニングフリーのアクション-エントロピービュー選択も提案している。
大規模な実験の結果、UniviewVLAはLIBEROで95.8%、CALVIN ABCD to Dで4.60を達成している。
カスタマイズされたオクルージョン中心のタスクでは、成功率を40.0%から73.3%に改善し、平均的な実ロボット成功率を33.4ポイント改善し、標準オクルージョンフリーベンチマークを犠牲にすることなく、より強力なオクルージョン中心のパフォーマンスを示す。
関連論文リスト
- SC3-Eval: Evaluating Robot Foundation Models via Self-Consistent Video Generation [73.2142090645987]
SC3-Evalは、事前訓練されたビデオ基盤モデルを正確なポリシー評価器に適合させる自己一貫性のあるビデオ生成レシピである。
SC3-Evalロールアウトは、実世界のロールアウトでポリシーが示す障害モードを再現し、詳細な診断比較をサポートする。
論文 参考訳(メタデータ) (2026-06-17T02:15:46Z) - From Human Videos to Robot Manipulation: A Survey on Scalable Vision-Language-Action Learning with Human-Centric Data [71.22409934108924]
人間のビデオは豊富で、豊富な相互作用を捉え、現実世界の操作に多様な意味と物理的な手がかりを提供する。
この調査は、人間のビデオがビジョン・ランゲージ・アクション(VLA)モデルの効果的な知識にどのように変換されるか、統一された視点を提供する。
この領域では、非構造化動画をトレーニング可能なエピソードに構造化すること、エンボディメントと視点の不均一性の下でロボットが実行可能なアクションにビデオから制御すること、現実世界の展開性能と転送効率をよりよく予測する評価プロトコルを設計すること、の3つのオープンな課題を強調している。
論文 参考訳(メタデータ) (2026-05-18T06:19:16Z) - Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising [22.899605451385824]
我々は,リアルタイムなロボットアクションの実行と高忠実度4D世界合成(ビデオ+3D再構成)を単一のフレームワークで統合する,統一された4D世界モデルであるX-WAMを提案する。
X-WAMは、事前訓練されたビデオ拡散モデルの強い視覚的優位性を活用するために、マルチビューRGB-Dビデオを予測することによって未来を想像する。
非同期ノイズサンプリング(ANS)は、生成品質と動作復号効率を共同で最適化する。
論文 参考訳(メタデータ) (2026-04-29T14:01:54Z) - MoViD: View-Invariant 3D Human Pose Estimation via Motion-View Disentanglement [2.1383141762884152]
視覚特徴から視点情報を遠ざける3次元人物ポーズ推定フレームワークであるMoViDを提案する。
MoViDは、最先端の手法と比較して、ポーズ推定誤差を24.2%以上削減する。
MoViDはNVIDIAエッジデバイス上で15FPSのリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2026-03-29T09:08:57Z) - Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining [28.30092786035367]
DeFIはビジュアルフォワードと逆ダイナミクスを分離し、各データソースを利用するための新しいフレームワークである。
今後の予測のために,多種多様な人・ロボットビデオで事前訓練された一般フォワード・ダイナミクス・モデル(GFDM)と,ラベルなしビデオ遷移から潜伏行動を予測するための自己教師付き学習によって訓練された一般逆ダイナミクス・モデル(GIDM)を紹介する。
CALVIN ABC-D と SimplerEnv の実験では、DeFI は CALVIN の平均タスク長 4.51 に達し、SimplerEnv-Frac は 51.2% 成功した。
論文 参考訳(メタデータ) (2026-03-27T17:20:10Z) - Persistent Robot World Models: Stabilizing Multi-Step Rollouts via Reinforcement Learning [18.397872306430006]
アクションコンディショニングされたロボットワールドモデルは、ロボットアクションシーケンスが与えられた操作されたシーンの将来のビデオフレームを生成する。
これらのモデルは、短時間の予測に最適化され、自動回帰的にデプロイされたときに分解される。
我々は,自己回帰的なロールアウトで世界モデルを訓練する強化学習スキームを導入する。
論文 参考訳(メタデータ) (2026-03-26T17:36:08Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。