論文の概要: VeriDrive: Verifiable Counterfactual Supervision for Cost-Efficient Vision-Language Planning
- arxiv url: http://arxiv.org/abs/2606.07338v1
- Date: Fri, 05 Jun 2026 14:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.794034
- Title: VeriDrive: Verifiable Counterfactual Supervision for Cost-Efficient Vision-Language Planning
- Title(参考訳): VeriDrive: コスト効率の良いビジョンランゲージ計画のための検証可能な対実的スーパービジョン
- Authors: Zikai Zhang, Hubert P. H. Shum, Toby P. Breckon,
- Abstract要約: 視覚言語駆動モデルは、認識、予測、計画の橋渡しに推論の監督をますます利用している。
We present VeriDrive, a framework for constructing planning-oriented, verible counterfactual supervision。
- 参考スコア(独自算出の注目度): 33.88496459833978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language driving models increasingly use reasoning supervision to bridge perception, prediction, and planning, but existing driving rationales are often free-form and expensive to generate with frontier models. We present VeriDrive, a framework for constructing planning-oriented, verifiable counterfactual supervision. VeriDrive converts driving reasoning into a structured Perception-Evaluation-Revision chain that grounds key objects in future motion, evaluates alternative ego trajectories with rule-checkable evidence, revises risky intent toward expert behavior, and produces final planning targets. To scale data construction, VeriDrive combines local generation with validator-guided selective correction, escalating only invalid or difficult samples. We build the VeriDrive dataset on nuScenes and train under the Omni-Q protocol. Controlled open-loop experiments show that VeriDrive improves L2, Collision, and Intersection over OmniDrive while reducing logged token usage, generation time, and actual paid LLM/VLM cost. These results show that auditable intermediate fields and structured revision targets can improve vision-language planning supervision under realistic annotation budgets. Code, prompts, and validator scripts are coming soon and will be released after the review process.
- Abstract(参考訳): 視覚言語駆動モデルは、認識、予測、計画の橋渡しに推論の監督をますます用いているが、既存の駆動論理はしばしばフロンティアモデルで生成するために自由で費用がかかる。
We present VeriDrive, a framework for constructing planning-oriented, verible counterfactual supervision。
VeriDriveは運転推論を、将来の動作において重要なオブジェクトを基盤とする構造化された知覚・評価・リビジョンチェーンに変換し、ルールチェック可能な証拠で代替エゴ軌道を評価し、専門家の行動に対するリスクの高い意図を修正し、最終的な計画目標を生成する。
データ構築をスケールするために、VeriDriveは、ローカル生成とバリデータ誘導の選択的な修正を組み合わせて、無効または難しいサンプルのみをエスカレートする。
nuScenes上にVeriDriveデータセットを構築し、Omni-Qプロトコルの下でトレーニングします。
制御されたオープンループ実験により、VeriDriveはOmniDrive上のL2、Collision、Intersectionを改善し、ログトークンの使用、生成時間、実際の有料LLM/VLMコストを削減した。
これらの結果から,現実的なアノテーション予算の下では,監査可能な中間分野と構造化されたリビジョンターゲットが視覚言語計画の監督を改善することが示唆された。
コード、プロンプト、バリデータスクリプトが近く公開され、レビュープロセスの後にリリースされる。
関連論文リスト
- DriveMA: Driving Vision-Language-Action Models with verifiable Meta-Actions [31.04597401352966]
検証可能なメタアクションに基づいて構築されたドライビングVLAフレームワークであるDriveMAを提案する。
DriveMAは、アクション中心の教師付きトレーニングと、データ効率の高いターンレベルのクレジット代入強化学習フレームワークによって、この検証可能性を活用する。
単純なメタアクションインタフェースであっても,言語アクションアライメントの検証と最適化を行えば,最先端の計画を実現することができることを示す。
論文 参考訳(メタデータ) (2026-05-29T13:03:16Z) - OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - $AutoDrive\text{-}P^3$: Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning [17.985934958482563]
いくつかの視覚言語モデル(VLM)は、チェーン・オブ・ソート(CoT)推論なしで直接計画結果を出力する。
OtherVLMは、知覚、予測、計画タスクのための出力を生成するが、断片化された意思決定アプローチを採用する。
構造化推論による$textbfP$erception, $textbfP$rediction, $textbfP$lanningをシームレスに統合する新しいフレームワークである$Drivetext-P3$を提案する。
論文 参考訳(メタデータ) (2026-03-30T07:28:41Z) - NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving [4.400011068855375]
本研究では,大規模ナビゲータと軽量トレーニングドライバを用いた行動生成から推論を分離するフレームワークであるNaviDriveVLMを提案する。
nuScenesベンチマークの実験では、NaviDriveVLMはエンド・ツー・エンドの動作計画において大きなVLMベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-09T02:47:44Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。