論文の概要: Zero-Shot Semantic Re-Identification for Autonomous Driving: A VLM Baseline Study
- arxiv url: http://arxiv.org/abs/2606.09362v1
- Date: Mon, 08 Jun 2026 11:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.945355
- Title: Zero-Shot Semantic Re-Identification for Autonomous Driving: A VLM Baseline Study
- Title(参考訳): 自動運転のためのゼロショットセマンティック再同定:VLMベースライン研究
- Authors: Eduardo Borges, Manuel Abreu, Luís Garrote, Urbano J. Nunes,
- Abstract要約: 自律運転における再同定は、一般的に視覚的マッチング問題として定式化され、車、歩行者、サイクリストの観察が時間、フレーム、カメラビューを通して関連付けられている。
本稿では,VLM(Vision-Language Models)を用いたゼロショットパイプラインのベースラインスタディを提案し,検出された交通参加者のテキスト記述を生成する。
ゼロショットのセマンティック記述は効果的なオブジェクト再識別をサポートし、教師付きCNNベースラインに匹敵する検索性能を実現する。
- 参考スコア(独自算出の注目度): 0.5599792629509229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Re-Identification (ReID) in autonomous driving is typically formulated as a visual matching problem, where observations of vehicles, pedestrians, and cyclists are associated across time, frames, or camera views using learned appearance embeddings, often complemented by motion, geometric, or multimodal cues. However, purely visual representations may be sensitive to viewpoint, occlusion, illumination, and sensor-domain variations, limiting their interpretability and robustness in complex driving scenes. We propose a baseline study of a zero-shot pipeline using Vision-Language Models (VLMs) to generate textual descriptions of detected traffic participants and evaluate whether these descriptions can support identity matching across observations. Instead of relying only on low-level visual similarity, the proposed formulation represents each object through structured semantic attributes, including category, color, shape, pose, visible parts, spatial context, and distinctive visual cues. This study provides an initial benchmark for language-based re-identification in autonomous-driving scenarios, discussing and evaluating the strengths and limitations of current VLMs for this task. Results demonstrate that zero-shot semantic descriptions can support effective object re-identification, achieving retrieval performance comparable to a supervised CNN baseline while offering greater interpretability through explicit identity cues. However, the experiments also reveal important challenges, including attribute inconsistency across viewpoints and limited fine-grained discrimination between visually similar instances.
- Abstract(参考訳): 自律運転における再認識(ReID)は、一般的に視覚的マッチング問題として定式化され、車両、歩行者、サイクリストの観察は、時間、フレーム、カメラビューに学習された外観の埋め込みを用いて関連付けられ、しばしば運動、幾何学、マルチモーダルの手がかりによって補完される。
しかし、純粋に視覚的な表現は、視点、オクルージョン、照明、センサー領域のバリエーションに敏感であり、複雑な運転シーンにおける解釈可能性や堅牢性を制限する。
本稿では,視覚言語モデル(VLM)を用いたゼロショットパイプラインのベースライン研究を行い,検出された交通参加者のテキスト記述を生成するとともに,これらの記述が観測間での同一性マッチングをサポートするかどうかを評価する。
低レベルの視覚的類似性のみに頼る代わりに、提案された定式化は、カテゴリ、色、形状、ポーズ、可視部、空間的コンテキスト、視覚的特徴を含む、構造化された意味的属性を通して各オブジェクトを表現する。
本研究は、この課題に対する現在のVLMの強みと限界について議論し、評価する、自動運転シナリオにおける言語ベースの再識別のための最初のベンチマークを提供する。
その結果、ゼロショットのセマンティック記述は効果的なオブジェクト再識別をサポートし、教師付きCNNベースラインに匹敵する検索性能を達成し、明示的な識別手段によってより深い解釈性を提供することを示した。
しかし、これらの実験は、視点間の属性の不整合や、視覚的に類似したインスタンス間のきめ細かい識別の制限など、重要な課題も明らかにしている。
関連論文リスト
- Diagnosing Visual Ignorance in Vision-Language Models [29.2851901986069]
VLM(Vision-Language Models)は、しばしば言語先行に頼り、視覚的証拠に弱く根ざした自信ある答えを生み出す。
本研究では,機械的視点と行動的視点の両方から言語優先性について検討する。
言語優先の信頼性は、モデル内部とベンチマークの妥当性の両方に影響を及ぼす体系的なルーティング障害であることがわかった。
論文 参考訳(メタデータ) (2026-06-05T04:16:01Z) - Steerable Visual Representations [72.39044430620977]
我々は、グローバルでローカルな機能を自然言語で操れるステアブルなビジュアル表現を紹介した。
また,本手法は,異常検出とパーソナライズされた対象の識別に専用アプローチを適合させ,性能を向上する。
論文 参考訳(メタデータ) (2026-04-02T17:59:49Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Can Vision-Language Models Count? A Synthetic Benchmark and Analysis of Attention-Based Interventions [0.4934817254755008]
視覚言語モデル(VLM)は、画像の視覚特性に関するクエリに応答する際に、トレーニング中に学んだ固有のバイアスに依存することが多い。
本研究は,画像としての性能がどう変化するかを判断し,特性変化を促すための,総合的なベンチマークデータセットと評価フレームワークを構築した。
我々は,異なるレイヤにおける視覚的トークンに注目する,注意に基づく介入を実施し,その効果を視覚的条件によって評価する。
論文 参考訳(メタデータ) (2025-11-21T19:18:41Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Unifying Vision-Language Representation Space with Single-tower
Transformer [29.604520441315135]
両モダリティを同時にモダリティに依存しない方法で符号化する統一視覚言語表現空間を学習するためにモデルを訓練する。
我々は、モダリティ固有の表現空間を学習する以前の作品とOneRを区別する興味深い性質を発見する。
論文 参考訳(メタデータ) (2022-11-21T02:34:21Z) - Pluggable Weakly-Supervised Cross-View Learning for Accurate Vehicle
Re-Identification [53.6218051770131]
クロスビューの一貫した機能表現は、正確な車両ReIDの鍵です。
既存のアプローチは、広範な余分な視点アノテーションを使用して、クロスビュー学習を監督する。
Weakly-supervised Cross-View Learning (WCVL) モジュールを車載用として提案する。
論文 参考訳(メタデータ) (2021-03-09T11:51:09Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。