論文の概要: VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.12706v1
- Date: Wed, 10 Jun 2026 21:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.476835
- Title: VLADriveBench: Evaluating CoT-Action Relationship in VLA for Autonomous Driving
- Title(参考訳): VLADriveBench:自律運転のためのVLAにおけるCoT-Action関係の評価
- Authors: Thach Nguyen, Danhua Guo, Tom Lampo, Fei Wu, Burhan Yaman,
- Abstract要約: 視覚言語アクション(VLA)モデルは、駆動軌道と共にチェーン・オブ・シント(CoT)推論を生成する。
既存のベンチマークは軌道品質のみを評価し、CoTが駆動動作に関連性、一貫性、因果関係があるかどうかを評価しない。
本稿では,観察指標(認知,幻覚,矛盾,行動アライメント)とCoT干渉プロトコルを組み合わせたフレームワークであるVLADriveBenchを紹介する。
- 参考スコア(独自算出の注目度): 6.946375736640768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models generate chain-of-thought (CoT) reasoning alongside driving trajectories, but existing benchmarks evaluate only trajectory quality and do not assess whether the CoT is relevant, consistent, or causally connected to the driving action. We introduce VLADriveBench, a framework that combines observational metrics (mentioning, hallucination, contradiction, action alignment) with a CoT intervention protocol to provide complementary views of the CoT-action relationship. Applying VLADriveBench to three models across two architectures, we find that the two analyses can diverge sharply: ORION scores highest on observational alignment yet its CoT is epiphenomenal, while Alpamayo v1.5 scores lower yet its CoT is strongly causal, with visual salience gating the extent of CoT influence.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、駆動軌跡とともにチェーン・オブ・思想(CoT)推論を生成するが、既存のベンチマークは軌道品質のみを評価し、CoTが駆動行動に関連性、一貫性、因果関係があるかどうかを評価しない。
本稿では,観察指標(認知,幻覚,矛盾,行動アライメント)とCoT干渉プロトコルを組み合わせたフレームワークであるVLADriveBenchを紹介する。
VLADriveBenchを2つのアーキテクチャにわたる3つのモデルに適用すると、ORIONは観測アライメントが最も高いが、CoTはエピノメナルであり、Alpamayo v1.5は低いがCoTは極めて因果的であり、視覚的サリエンスによってCoTの影響の程度が増大する。
関連論文リスト
- VLA-Trace: Diagnosing Vision-Language-Action Models through Representation and Behavior Tracing [12.088525050678713]
VLA(Vision-Language-Action)モデルは、マルチモーダル知識を具体化制御に変換する。
本稿では,VLAモデルを統一的なエビデンスチェーンを通じて解析する,進歩的診断フレームワークであるVLA-Traceを紹介する。
論文 参考訳(メタデータ) (2026-05-28T15:50:56Z) - DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models [50.07453075750711]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を直接ロボット行動にマッピングする。
近年の取り組みは、行動能力の前に思考でVLAモデルを育むために、Chain-of-Thought (CoT)推論を取り入れている。
並列推論機構を持つVLAモデルの視覚言語的CoT法であるDualCoT-VLAを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:25Z) - Bypassing the Rationale: Causal Auditing of Implicit Reasoning in Language Models [0.0]
思考の連鎖(CoT)の促進は推論補助として広く用いられ、しばしば透明性のメカニズムとして扱われる。
アクティベーションパッチによるCoT忠実度に関する因果的,階層的な監査を導入する。
私たちは、CoT特有の影響は、通常、狭い「推論窓」に奥行き局所化されていることに気付きました。
論文 参考訳(メタデータ) (2026-02-03T20:27:49Z) - Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models [69.58413440457828]
VLA(Vision-Language-Action)モデルは、チェーン・オブ・思想(CoT)推論の恩恵を受けるが、既存のアプローチでは高い推論オーバーヘッドが生じる。
本稿では,マルチモーダル CoT 推論を具体化するための連続潜時表現に内包する統合 VLA フレームワークである Latent Reasoning VLA (textbfLaRA-VLA) を提案する。
論文 参考訳(メタデータ) (2026-02-01T11:34:37Z) - Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization [55.6995787502694]
本研究では,異なる言語パターン(CoT)設計が,一般化可能な視覚的推論能力の獲得にどのように影響するかを検討する。
代表的なCoTフォーマットであるLanguage CoT, Grounding CoT, Visual CoTを比較した。
実験の結果,視覚的および長時間のCoTは収束を主に加速するが,最終的な性能天井は持ち上げないことがわかった。
論文 参考訳(メタデータ) (2025-11-27T16:19:34Z) - CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。
CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。
nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-11-27T15:13:13Z) - Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction [121.65152276851619]
関係性間の意味的相関は本質的にエッジレベルとエンティティ非依存であることを示す。
本研究では,関係関係のトポロジ・アウェア・コレレーションをモデル化するための新しいサブグラフベース手法,TACOを提案する。
RCNのポテンシャルをさらに活用するために, 完全コモンニアインダストリアルサブグラフを提案する。
論文 参考訳(メタデータ) (2023-09-20T08:11:58Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。