論文の概要: A DVDrive Approach for doScenes Instructed Driving Challenge
- arxiv url: http://arxiv.org/abs/2606.21623v1
- Date: Fri, 19 Jun 2026 17:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 04:31:42.671098
- Title: A DVDrive Approach for doScenes Instructed Driving Challenge
- Title(参考訳): DVDrive Approach for doScenes Instructed Driving Challenge
- Authors: Zijian Fu, Xiangyang Chu, Mengshi Qi, Huadong Ma, Guanghao Zhang, Wei Li,
- Abstract要約: 本稿では,OmniDrive上に構築されたdoScenes Instructed Driving Challengeについて述べる。
OmniDriveをdoScenes設定に適応させ、命令付のnuScenesシーンでトレーニングします。
マルチビューの視覚的グラウンドを改善するために,DVPE方式の分割ビュー認識モジュールを導入する。
- 参考スコア(独自算出の注目度): 42.41052099695495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-conditioned trajectory prediction is an emerging problem in autonomous driving, where a model predicts the future ego trajectory not only from visual scene context and historical motion, but also from a natural-language maneuver instruction. This paper presents our submission to the doScenes Instructed Driving Challenge, built upon OmniDrive, a vision-language-action driving agent with 3D perception, reasoning, and planning capabilities. We adapt OmniDrive to the doScenes setting by training it on instruction-annotated nuScenes scenes and generating a 6-second ego trajectory represented by 12 future waypoints. To improve multi-view visual grounding, we further introduce a DVPE-style divided-view perception module into the OmniDrive perception head. Instead of attending globally to all camera features, the proposed module groups query features and image tokens into divided local view spaces and performs visibility-aware cross-attention within each view. This design reduces irrelevant cross-view interference and helps the model better align language instructions with local driving-relevant visual evidence. The code is publicly available at: https://github.com/feel12348/doscenes-omnidrive.
- Abstract(参考訳): インストラクション条件付き軌道予測は自律運転における新たな問題であり、モデルが将来のエゴ軌道を視覚的な状況や歴史的動きから予測するだけでなく、自然言語操作の指示からも予測する。
本稿では,3次元認識,推論,計画能力を備えた視覚言語行動駆動エージェントであるOmniDriveを基盤として構築されたdoScenes Instructed Driving Challengeへの応募について述べる。
OmniDriveをdoScenes設定に適応させるには、命令付きnuScenesシーンでトレーニングし、将来の12のウェイポイントで表現された6秒のエゴ軌道を生成する。
マルチビューの視覚的グラウンドを改善するために,OmniDriveの認識ヘッドにDVPEスタイルの分割ビュー認識モジュールを導入する。
提案するモジュール群は,すべてのカメラ機能にグローバルに参画する代わりに,特徴と画像トークンを分割したローカルビュー空間にグループ化し,各ビュー内で可視性に配慮したクロスアテンションを実行する。
この設計は、無関係なクロスビュー干渉を低減し、モデルが言語命令をローカルな駆動関連視覚的証拠と整合させるのに役立つ。
コードは、https://github.com/feel12348/doscenes-omnidrive.comで公開されている。
関連論文リスト
- UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving [48.461267171124945]
自動運転のためのUnified Driving Vision-Language-ActionモデルであるUniDriveVLAを提案する。
理解、シーン認識、行動計画の3つの専門家で構成されており、マスク付き共同注意を通して調整されている。
nuScenesのオープンループ評価とBench2Driveのクローズループ評価における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T15:48:45Z) - Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation [66.7879424097418]
We present WorldDrive, a holistic framework that couples scene generation and real-time planning through unified vision and motion representation。
動きの表現、視覚的表現、エゴ状態の間の単純な相互作用は、高品質でマルチモーダルな軌道を生成することができる。
NAVSIM、NAVSIM-v2、nuScenesベンチマークの実験は、WorldDriveが視覚のみの手法で主要な計画性能を達成することを示した。
論文 参考訳(メタデータ) (2026-03-16T07:59:39Z) - VISTA: Vision-Language Imitation of Situational Thinking and Attention for Human-Like Driver Focus in Dynamic Environments [0.0]
運転者の視線の変化を自然言語でモデル化する視覚言語フレームワークを提案する。
提案手法は,低レベルキューとトップダウンコンテキストの両方を統合し,視線行動の言語による記述を可能にする。
その結果,微調整モデルでは,注目シフト検出や解釈可能性において汎用VLMよりも優れていた。
論文 参考訳(メタデータ) (2025-08-07T21:01:43Z) - InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving [3.8737986316149775]
我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。
言語誘導されたシーン表現によって知覚を整理する。
実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-17T10:52:32Z) - HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation [59.675030933810106]
我々はHERMESという統合運転世界モデルを提案する。
シナリオを駆動する統合フレームワークを通じて、3Dシーン理解と将来のシーン進化(世代)をシームレスに統合する。
HERMESは最先端のパフォーマンスを実現し、生成エラーを32.4%削減し、CIDErなどの理解基準を8.0%改善した。
論文 参考訳(メタデータ) (2025-01-24T18:59:51Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。