論文の概要: Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models
- arxiv url: http://arxiv.org/abs/2606.09142v1
- Date: Mon, 08 Jun 2026 07:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.806375
- Title: Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models
- Title(参考訳): 視覚言語モデルによるエゴセントリック視覚からの歩行者交叉意図の復号
- Authors: Danya Li, Xiang Su, Yan Feng, Rico Krueger,
- Abstract要約: エゴセントリックなビジョンは、人間の知覚と意思決定を一人称視点で見る。
本研究では,短いエゴセントリックなビデオクリップから歩行者横断意図を復号する手法について検討する。
- 参考スコア(独自算出の注目度): 15.137239945564799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric vision offers a first-person view of human perception and decision making, yet its potential for traffic-safety prediction remains underexplored. In this work, we study the decoding of pedestrian crossing intentions from short egocentric video clips. We approach this by formulating the task as a closed-ended visual question answering (VQA) problem and leveraging vision language models (VLMs) to predict the pedestrians' intent. We first benchmark three families of state-of-the-art VLMs in a zero-shot setting, finding that they achieve moderate gains over random guessing but exhibit limited higher-level traffic reasoning. Motivated by these findings, we further adapt VLMs to the target task using parameter-efficient fine-tuning. Our results show that the fine-tuned models substantially outperform their zero-shot counterparts and achieve a 9\% accuracy improvement over a specialized transformer-based baseline. Finally, we demonstrate that incorporating additional contextual cues, including ego motion, vehicle motion, and eye gaze, further improves predictive performance. In particular, the fine-tuned Qwen3-VL-2B model guided by eye gaze and ego motion achieves a 14.5% accuracy improvement over the transformer baseline, establishing a new state of the art for egocentric pedestrian intent decoding.
- Abstract(参考訳): エゴセントリックなビジョンは、人間の知覚と意思決定を1対1で見ることができますが、交通安全予測の可能性はまだ解明されていません。
本研究では,短いエゴセントリックなビデオクリップから歩行者横断意図を復号する手法について検討する。
本稿では,視覚的質問応答(VQA)問題としてタスクを定式化し,視覚言語モデル(VLM)を活用して歩行者の意図を予測する。
我々はまず、ゼロショット環境で最先端のVLMの3つのファミリーをベンチマークし、ランダムな推測よりも適度な利得が得られるが、高いレベルのトラフィック推論が制限されていることを発見した。
これらの結果から,パラメータ効率の微調整により,VLMを目標タスクに適応させることができた。
以上の結果から, 微調整モデルがゼロショットモデルよりも大幅に優れ, 特殊変圧器ベースラインよりも9倍精度の向上が得られた。
最後に,エゴの動き,車両の動き,視線などの追加の文脈的手がかりを取り入れることで,予測性能がさらに向上することを示した。
特に、目視と自我運動でガイドされた細調整されたQwen3-VL-2Bモデルは、トランスフォーマーベースラインよりも14.5%精度の向上を実現し、自我中心の歩行者意図復号のための新しい最先端技術を確立した。
関連論文リスト
- UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving [48.461267171124945]
自動運転のためのUnified Driving Vision-Language-ActionモデルであるUniDriveVLAを提案する。
理解、シーン認識、行動計画の3つの専門家で構成されており、マスク付き共同注意を通して調整されている。
nuScenesのオープンループ評価とBench2Driveのクローズループ評価における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T15:48:45Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Pedestrian Intention Prediction via Vision-Language Foundation Models [10.351342371371675]
本研究では,歩行者の横断意図を予測するための視覚言語基礎モデル(VLFM)の可能性について検討する。
この方法論は、視覚的フレーム、物理的キュー観察、エゴ・車両力学などの文脈情報を体系的に洗練されたプロンプトに組み込む。
結果は、車両の速度、時間の経過とともに変化し、時間意識的なプロンプトが予測精度を19.8%まで著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-05T19:39:00Z) - EgoVLM: Policy Optimization for Egocentric Video Understanding [2.397572703240721]
本稿では,視覚的理解と空間的時間的推論を統合した視覚言語モデルであるEgoVLMを紹介する。
EgoVLMは、モデル出力を人間ライクな推論ステップに合わせるように適応した強化学習手法であるグループ相対ポリシー最適化(GRPO)を介して微調整される。
我々のEgoVLMBは、非CoTエゴセントリックなデータに特化して訓練されており、ベースとなるQwen2.5-VL 3Bと7Bをそれぞれ14.33倍、Egoベンチマークで13.87精度で上回っている。
論文 参考訳(メタデータ) (2025-06-03T17:28:00Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。