論文の概要: VeriSpace: Spatially Grounded Action Verification for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.10568v1
- Date: Tue, 09 Jun 2026 08:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.005574
- Title: VeriSpace: Spatially Grounded Action Verification for Vision-Language-Action Models
- Title(参考訳): VeriSpace:視覚・言語・アクションモデルのための空間的接地行動検証
- Authors: Guiyu Zhao, Longteng Guo, Junyou Zhu, Jun Fu, Yanghong Mei, Bin Cao, Jie Jiang, Xingjian He, Jing Liu,
- Abstract要約: VLA(Vision-Ground-action)モデルは、ロボット操作に強く期待されている。
しかし、テスト時の信頼性は、ワンショットアクション予測によって制限されている。
VLAシステムにおけるテスト時動作選択のための3D対応検証器であるVeriSpaceを提案する。
- 参考スコア(独自算出の注目度): 19.75611749501909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have shown strong promise for robotic manipulation, but their reliability at test time remains limited by one-shot action prediction, where even small action errors can cause grasp failure, collision, or incorrect task progression. A natural alternative is to equip VLA systems with test-time verification, allowing multiple candidate actions to be proposed and evaluated before execution. However, reliable action verification is challenging because it requires not only distinguishing subtle geometric differences between candidate actions, but also assessing whether an action makes meaningful progress toward the task goal. We present VeriSpace, a 3D-aware action verifier for test-time action selection in VLA systems. VeriSpace evaluates candidate actions through two key components: Dual-Path 3D-Injected Scene Encoding, which constructs a scene representation that jointly preserves visual semantics and explicit 3D geometry, and Spatially-Grounded Action Reasoning, which evaluates each action by reasoning over task-relevant spatial relations, geometric validity, and expected goal progress. Together, these components enable more reliable discrimination between subtle yet outcome-critical action candidates while remaining fully compatible with existing VLA policies. Experiments on public benchmarks and real-world robotic manipulation tasks show that VeriSpace consistently improves decision reliability over both underlying VLA policies and prior verification-based methods, yielding substantial gains in both in-distribution and out-of-distribution settings.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルはロボット操作に強く期待されているが、テスト時の信頼性は単発動作予測によって制限されている。
自然な方法は、VLAシステムにテスト時間検証を装備し、複数の候補アクションが実行前に提案され評価されるようにすることである。
しかし、信頼性の高い行動検証は、候補行動間の微妙な幾何学的差異を区別するだけでなく、タスク目標に向かって意味のある前進をさせるかどうかを評価する必要があるため、難しい。
VLAシステムにおける実時間動作選択のための3D対応動作検証器であるVeriSpaceを提案する。
VeriSpaceは、視覚意味論と明示的な3D幾何学を共同で保存するシーン表現を構築するデュアルパス3Dインジェクトシーンエンコーディング(Dual-Path 3D-Injected Scene Encoding)と、タスク関連空間関係、幾何学的妥当性、期待されるゴール進捗を推論して各アクションを評価する空間的周囲アクション推論(Spatially-Grounded Action Reasoning)という2つの主要なコンポーネントを通して、候補アクションを評価する。
これらのコンポーネントは、既存のVLAポリシーと完全に互換性を維持しながら、微妙だが結果クリティカルなアクション候補間のより信頼性の高い識別を可能にする。
公開ベンチマークと実世界のロボット操作タスクの実験は、VeriSpaceが基盤となるVLAポリシーと事前の検証ベースの手法の両方に対して、決定の信頼性を一貫して改善し、配布内設定と配布外設定の両方で大幅に向上していることを示している。
関連論文リスト
- Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models [15.486973209713954]
GTA-VLA(Guide, Think, Act)はインタラクティブなビジョンランゲージ・アクション・フレームワークである。
ユーザがロボットポリシーを明示的な視覚的手がかりでガイドできるようにすることで、空間的に操作可能な具体的推論を可能にする。
論文 参考訳(メタデータ) (2026-05-13T14:58:29Z) - Dynamic Execution Commitment of Vision-Language-Action Models [21.647844049489535]
本稿では,動的実行コミットメントを自己特定的プレフィックス検証問題として再編成する適応アクションアクセプタンス機構であるA3を紹介する。
A3はまず、グループサンプリングを介して行動の軌跡的なコンセンサススコアを計算し、次に代表ドラフトを選択し、下流検証を優先する。
さまざまなVLAモデルとベンチマークの実験では、A3は手動の水平調整の必要性を排除し、実行と推論のスループットのトレードオフを優れたものにしている。
論文 参考訳(メタデータ) (2026-05-12T05:52:58Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Procedural Mistake Detection via Action Effect Modeling [10.358293338390716]
アクション・エフェクト・モデリング(AEM)は、確率的定式化を通じてアクションの実行とその結果をキャプチャする統合されたフレームワークである。
AEMは、意味的関連性と視覚的品質に基づいて最も情報性の高い効果フレームを選択することにより、アクションの結果を特定する。
その後、視覚的接地とシンボリックシーングラフから補完的手がかりを抽出し、それらを共有潜在空間に整列させ、堅牢な効果認識表現を形成する。
論文 参考訳(メタデータ) (2025-12-03T05:56:17Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。