Fugu-MT 論文翻訳(概要): Where Will They Go? Modelling Multimodal Pedestrian Manoeuvres from Ego-centric Videos

論文の概要: Where Will They Go? Modelling Multimodal Pedestrian Manoeuvres from Ego-centric Videos

arxiv url: http://arxiv.org/abs/2606.18824v1
Date: Wed, 17 Jun 2026 08:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 17:16:51.071976
Title: Where Will They Go? Modelling Multimodal Pedestrian Manoeuvres from Ego-centric Videos
Title（参考訳）: どこに行けばいいのか?エゴ中心のビデオからマルチモーダル・ペデストリアン・マヌーバーをモデル化
Authors: Yuxuan Xie, Nicolas Pugeault, Chongfeng Wei, Hubert P. H. Shum, Edmond S. L. Ho,
Abstract要約: 本稿では,将来の軌道分布を意味論的に意味のあるモードにモデル化するモード認識フレームワークMMPMを提案する。 MMPMは2つのモジュールからなる: 行動認識歩行者相互作用モジュール(PIM)とCVAEベースのモード認識軌道予測器(MTP)。 PIEおよびJAADデータセットの実験により、我々の手法が最先端のベースラインを超えることが示された。
参考スコア（独自算出の注目度）: 27.591588122564648
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pedestrian trajectory prediction from an ego-centric camera is challenging since it depends on complex interactions with vehicles and scene context, as well as the intention of the pedestrian. By modelling correlation and intent from the historical and future trajectories of the pedestrian, it will usually result in a multimodal (i.e. multiple modes) distribution. Existing stochastic predictors often sample multiple futures from a single unimodal distribution, which can yield sub-optimal 'mixed-mode' trajectories that lie between distinct motion patterns and become implausible in real scenes. In this paper, we propose MMPM, a mode-aware framework that separately models future trajectory distributions into semantically meaningful modes based on the pedestrian's crossing behavior. MMPM consists of two modules: behavior-aware Pedestrian Interaction Module (PIM) that jointly captures pedestrian-vehicle and pedestrian-environment interactions by introducing gaze, head and hand gesture, and a CVAE-based Mode-aware Trajectory Predictor (MTP) module to model the future trajectory distributions on two modes, crossing and non-crossing the road, separately. A query-based decoder further enforces mode consistency during decoding. Experiments on PIE and JAAD datasets show that our method surpasses state-of-the-art baselines. Our proposed MTP is model-agnostic, which can be integrated into existing frameworks such as BiTrap-NP and SGNet-ED to further improve future trajectory prediction performance. We additionally introduce a data-driven validation protocol that matches predictions to spatio-temporally consistent ground-truth trajectories, demonstrating improved frame-wise displacement errors over previous work.
Abstract（参考訳）: エゴ中心カメラからの歩行者軌道予測は、歩行者の意図だけでなく、車両との複雑な相互作用やシーンコンテキストにも依存するため、困難である。歩行者の歴史的・将来の軌跡からの相関関係と意図をモデル化することにより、通常はマルチモーダル(複数モード)分布をもたらす。既存の確率予測器は、1つの単調分布から複数の未来をサンプリングすることが多く、これは、異なる動きパターンの間にあり、現実のシーンでは理解できないような、最適な「混合モード」軌道を導出することができる。本稿では,歩行者の横断行動に基づいて,将来の軌跡分布を意味的に意味のあるモードに別々にモデル化するモード認識フレームワークMMPMを提案する。 MMPMは2つのモジュールから構成される: 行動認識歩行者相互作用モジュール(PIM)は、視線、頭と手の動きを導入して歩行者と環境の相互作用を共同で捉え、CVAEベースのモード認識軌道予測器(MTP)モジュールは、2つのモードで将来の軌道分布をモデル化し、道路を横断し、横断しない。クエリベースのデコーダは、デコード中のモード一貫性をさらに強化する。 PIEおよびJAADデータセットの実験により、我々の手法が最先端のベースラインを超えることが示された。提案するMPPはモデルに依存しないため,BiTrap-NPやSGNet-EDといった既存のフレームワークに統合することで,将来の軌道予測性能をより向上させることができる。また,データ駆動型検証プロトコルを導入し,予測値と時空間的に一貫した基底トラジェクトリを一致させる。

関連論文リスト

Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文参考訳（メタデータ） (2023-12-07T18:53:27Z)
JFP: Joint Future Prediction with Interactive Multi-Agent Modeling for Autonomous Driving [12.460224193998362]
構造化されたグラフィカルモデルの定式化において,エージェント同士の相互作用を直接学習するエンド・ツー・エンドのトレーニング可能なモデルを提案する。提案手法は,単エージェントトラジェクタのトラジェクタとトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタのトラジェクタの性能を向上する。
論文参考訳（メタデータ） (2022-12-16T20:59:21Z)
STGlow: A Flow-based Generative Framework with Dual Graphormer for Pedestrian Trajectory Prediction [22.553356096143734]
歩行者軌跡予測(STGlow)のための二重グラフマーを用いた新しい生成フローベースフレームワークを提案する。本手法は,動作の正確なログライクな振る舞いを最適化することにより,基礎となるデータ分布をより正確にモデル化することができる。いくつかのベンチマークによる実験結果から,本手法は従来の最先端手法に比べて性能が向上することが示された。
論文参考訳（メタデータ） (2022-11-21T07:29:24Z)
PedFormer: Pedestrian Behavior Prediction via Cross-Modal Attention Modulation and Gated Multitask Learning [10.812772606528172]
本研究では,エゴ中心の視点から,歩行者の将来の軌跡や横断行動を予測するために,異なるデータモダリティに依存する新しい枠組みを提案する。本モデルでは, トラジェクトリとアクション予測の精度を, それぞれ22%, 13%向上した。
論文参考訳（メタデータ） (2022-10-14T15:12:00Z)
Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文参考訳（メタデータ） (2022-07-11T04:52:28Z)
Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文参考訳（メタデータ） (2022-03-25T16:59:08Z)
You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文参考訳（メタデータ） (2021-10-11T14:24:15Z)
SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文参考訳（メタデータ） (2021-04-04T03:17:42Z)
Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文参考訳（メタデータ） (2020-09-21T13:57:10Z)
SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文参考訳（メタデータ） (2020-07-26T08:17:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。