論文の概要: LIBERO-Occ: Evaluating and Improving Vision-Language-Action Models under Scene-Induced Occlusion via Viewpoint Imagination
- arxiv url: http://arxiv.org/abs/2606.10862v2
- Date: Mon, 15 Jun 2026 14:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.021274
- Title: LIBERO-Occ: Evaluating and Improving Vision-Language-Action Models under Scene-Induced Occlusion via Viewpoint Imagination
- Title(参考訳): LIBERO-Occ:視点イマジネーションによるシーン誘導オクルージョンによる視覚・言語・行動モデルの評価と改善
- Authors: Taishan Li, Jiwen Zhang, Siyuan Wang, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: textbfViewpoint Imagination (VIM) は、観測された証拠と想像された証拠の両方について、隠蔽された一次観測と条件の行動予測から補完的な視点を生成する。
VIMは、追加のカメラをデプロイ時に必要とせずに、タスクスイート、オクルージョンタイプ、重大度レベルの堅牢性を改善する。
- 参考スコア(独自算出の注目度): 66.06027569507403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models achieve strong performance on standard manipulation benchmarks, but most evaluations assume that task-relevant objects are fully visible. This assumption often fails in realistic settings, where occlusion makes manipulation partially observable. In this paper, we study \textit{scene-induced occlusion} as a fundamental challenge for VLA models and introduce \textbf{LIBERO-Occ}, an occlusion-oriented extension of LIBERO. Experiments show that state-of-the-art VLAs suffer substantial performance degradation under occlusion. To address this issue, we propose \textbf{Viewpoint Imagination (VIM)}, which generates a complementary view from an occluded primary observation and conditions action prediction on both observed and imagined evidence. VIM improves robustness across task suites, occlusion types, and severity levels without requiring additional cameras at deployment time, suggesting that viewpoint imagination is an promising mechanism for perception completion in partially observable manipulation. Our benchmark and corresponding code are available at: \href{https://github.com/litsh/Libero-Occ}{https://github.com/litsh/Libero-Occ}.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは標準操作ベンチマークで高い性能を達成するが、ほとんどの評価ではタスク関連オブジェクトが完全に見えると仮定している。
この仮定は、オクルージョンが部分的に観察可能であるような現実的な設定で失敗することが多い。
本稿では, VLA モデルの基本課題として \textit{scene-induced occlusion} について検討し, LIBERO のオクルージョン指向拡張である \textbf{LIBERO-Occ} を紹介する。
実験により、最先端のVLAは閉塞下で大幅に性能劣化することが示された。
この問題に対処するために、観測された証拠と想像された証拠の両方に対する一次観測と条件の予測から相補的なビューを生成する「textbf{Viewpoint Imagination (VIM)」を提案する。
VIMは、配備時に追加のカメラを必要とすることなく、タスクスイート、オクルージョンタイプ、重大度レベルの堅牢性を向上させる。
ベンチマークと対応するコードは以下の通りである。 \href{https://github.com/litsh/Libero-Occ}{https://github.com/litsh/Libero-Occ}。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - AffordVLA: Injecting Affordance Representations into Vision-Language-Action Models via Implicit Feature Alignment [8.122021272122668]
AffordVLAは、操作中心のアベイランス知覚をVLA視覚表現に内部化する、アベイランス強化ビジョン・ランゲージ・アクション(VLA)フレームワークである。
AffordVLA は推論効率を保ちながら VLA の視覚表現を効果的に再現し,操作成功率とトレーニング効率を向上することを示した。
論文 参考訳(メタデータ) (2026-05-17T16:02:05Z) - Online Self-Calibration Against Hallucination in Vision-Language Models [23.13137973421435]
LVLM(Large Vision-Language Models)はしばしば幻覚に悩まされ、入力画像にない視覚的詳細を含む記述を生成する。
textbfOnline textbfSelf-textbfCAlibtextbfRation (OSCAR) を提案する。
論文 参考訳(メタデータ) (2026-05-01T01:03:05Z) - Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。