論文の概要: Robusto-2: Benchmarking Humans & VLMs for Autonomous Driving in Lima & New York City
- arxiv url: http://arxiv.org/abs/2606.20980v1
- Date: Thu, 18 Jun 2026 23:10:36 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:17:59.232367
- Title: Robusto-2: Benchmarking Humans & VLMs for Autonomous Driving in Lima & New York City
- Title(参考訳): Robusto-2:Lima & New York市における自動運転のための人間とVLMのベンチマーク
- Authors: Adrian Cespedes, Marcelo Chincha, Dunant Cusipuma, Victor Flores-Benites, David Ortega, Arturo Deza,
- Abstract要約: 本稿では,リマの人間ドライバー,ニューヨーク市の人間ドライバー,VLMによる要因分析を行う。
リマとニューヨークから収集したダッシュカムの映像をご覧ください。これは視覚質問回答(VQA)パラダイムの下で、さまざまな質問をさせます。
人間とVLMは反応において分岐するが、これは質問の種類によって変調され、人間も同様にそれらがどこから来たのか(Lima/NYC)とは独立している。
- 参考スコア(独自算出の注目度): 4.494889458992535
- License:
- Abstract: As Self-Driving Cars continue to expand internationally and use multi-modal systems such as VLMs as a cognitive backbone for their Action models; how well will these systems generalize in new settings, in particular out-of-distribution (OOD) edge-case scenarios in new geographies? In this paper, we study this open question by providing a full factorial analysis with human drivers of Lima, human drivers from New York City, and VLMs and showing them dashcam footage collected from Lima and New York City -- prompting them with a variety of questions under a Visual Question Answering (VQA) paradigm. In particular, we pick these two cities as they are highly challenging driving locations where no Self-Driving Car company currently operates in, and ask questions that span 4 categories: Factual, Ratings, Counterfactual and Reasoning. We find that Humans and VLMs diverge in their responses -- though this is modulated by the type of questions asked, and that Humans answer similarly independent of where they are from (Lima/NYC). To our surprise, we did not find a strong difference in terms of answers (Humans or VLMs) that was modulated by geography, likely due to their high out-of-distribution nature. Our dataset is available at: https://huggingface.co/datasets/Artificio/robusto-2
- Abstract(参考訳): 自動運転車は国際展開を続けており、VLMのようなマルチモーダルシステムをActionモデルの認知バックボーンとして使用している。
本稿では,このオープンな質問について,リマの人間ドライバー,ニューヨーク市の人間ドライバー,およびVLMの人間ドライバーによる完全な要因分析を行い,それらがリマとニューヨーク市から収集されたダッシュカム映像を提示することにより,視覚的質問回答(VQA)パラダイムの下で様々な質問を提起する。
特に、この2つの都市は、現在自動運転会社が運営していない非常に困難な運転場所であり、Factual, Ratings, Counterfactual, Reasoningの4つのカテゴリにまたがる質問をする。
人間とVLMは反応において分岐するが、これは質問の種類によって変調され、人間も同様にそれらがどこから来たのか(Lima/NYC)とは独立している。
驚いたことに、地理的に変調された答え(Humans や VLMs)には大きな違いは見つからなかった。
私たちのデータセットは、https://huggingface.co/datasets/Artificio/robusto-2で利用可能です。
関連論文リスト
- Self-Evolving Visual Questioner [53.949845616431624]
視覚言語モデル(VLM)は一般的に受動応答器として訓練される。
VLMは外部の監督なしに視覚的質問者として継続的に改善できることを示す。
本稿では,VLM自体をプロジェクタとフィルタの両方として使用する自己進化型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-11T21:45:46Z) - GeoDrive-Bench: Benchmarking Region-Specific Multimodal Reasoning in Autonomous Driving [43.04860654830679]
自動運転のための視覚言語モデル(VLM)は有望な性能を示しているが、地域固有の交通ルールを扱う能力はいまだ探索されていない。
本稿では,VLMの地理文化的根拠に基づく運転推論の体系的調査を可能にする新しいベンチマークであるGeoDrive-Benchを紹介する。
論文 参考訳(メタデータ) (2026-06-01T18:36:46Z) - An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges [87.35344276973537]
VLA(Vision-Language-Action)モデルは、ロボット工学の革命を駆動し、機械が指示を理解し、物理的な世界と対話することを可能にする。
この調査は、VLAのランドスケープを明確かつ構造化したガイドを提供する。
論文 参考訳(メタデータ) (2025-12-12T08:22:03Z) - Analyzing the Sensitivity of Vision Language Models in Visual Question Answering [3.2016458534910455]
我々は、視覚言語モデル(VLM)が、Griceの最大値に対する違反を人間に類似した方法で処理できるかどうかを検討する。
我々は、GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Flashの3つの最先端VLMを使用している。
論文 参考訳(メタデータ) (2025-07-28T21:01:28Z) - Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru [2.874893537471256]
基礎的視覚言語モデル(VLM)と運転時の人間(Humans in Driving)の類似性を示す。
その結果,アライメントの程度は,システムの種類によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-03-10T17:50:04Z) - V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models [31.537045261401666]
本稿では,多モード大規模言語モデルと協調自律運転を統合した新しい問題設定を提案する。
また,V2V-LLM(V2V-LLM)のベースライン手法を提案する。
実験結果から,提案するV2V-LLMは,協調運転における様々なタスクを遂行する上で,有望な統一モデルアーキテクチャとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-14T08:05:41Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Learning to Route via Theory-Guided Residual Network [27.440532972814783]
我々は,交通シミュレータにおいて最も重要な部分の一つである人間のルーティングモデルを学習することを提案する。
残余のネットワークは限られたデータから人間のルーティングモデルを学ぶことができる。
我々は,複数の実世界のデータセットについて広範な実験を行い,モデルの優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-18T05:07:34Z) - Commands 4 Autonomous Vehicles (C4AV) Workshop Summary [91.92872482200018]
本稿では,最近のEmphTalk2Carデータセットに基づいて,EmphCommands for autonomous Vehicles (C4AV)チャレンジの結果について述べる。
我々は、トップパフォーマンスモデルを成功させる側面を特定し、それらを視覚的なグラウンド化のために既存の最先端モデルと関連付ける。
論文 参考訳(メタデータ) (2020-09-18T12:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。