Fugu-MT 論文翻訳(概要): Three-Step Hierarchical Transformer for Multi-Pedestrian Trajectory Prediction

論文の概要: Three-Step Hierarchical Transformer for Multi-Pedestrian Trajectory Prediction

arxiv url: http://arxiv.org/abs/2606.23058v1
Date: Mon, 22 Jun 2026 09:11:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 21:21:55.388266
Title: Three-Step Hierarchical Transformer for Multi-Pedestrian Trajectory Prediction
Title（参考訳）: 多歩行者軌道予測のための3ステップ階層変換器
Authors: Raphaël Delécluse, Hazem Wannous, Laurent Grisoni, Laurent Guimas,
Abstract要約: 歩行者の軌道予測には、混み合った環境での時間的ダイナミクス、マルチモーダルな手がかり、社会的相互作用をモデル化する必要がある。本稿では,時間符号化,マルチモーダル融合,シーンレベルの相互作用推論を明示的に分離する3段階階層変換器を提案する。
参考スコア（独自算出の注目度）: 1.3719491942297612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pedestrian trajectory prediction requires modeling temporal dynamics, multimodal cues, and social interactions in crowded environments. Existing methods often address these factors separately or entangle them in costly attention blocks, limiting scalability, flexibility, and interpretability. We propose a three-step hierarchical Transformer that explicitly separates temporal encoding, multimodal fusion, and scene-level interaction reasoning. Lightweight GRU summaries enable efficient cross-modal attention, while social attention over time--agent tokens captures inter-pedestrian influences at manageable cost. Experiments on JTA, JRDB, and the Pedestrians and Cyclists in Road Traffic dataset show state-of-the-art performance on real-world datasets (JRDB, Urban) and competitive results on JTA. Ablation and qualitative analyses confirm the contribution of each stage and the model's ability to anticipate complex behaviors such as early turning.
Abstract（参考訳）: 歩行者の軌道予測には、混み合った環境での時間的ダイナミクス、マルチモーダルな手がかり、社会的相互作用をモデル化する必要がある。既存の手法では、これらの要因を別々に解決したり、コストのかかる注意ブロックに閉じ込めたりすることで、スケーラビリティ、柔軟性、解釈可能性を制限することがよくあります。本稿では,時間符号化,マルチモーダル融合,シーンレベルの相互作用推論を明示的に分離する3段階階層変換器を提案する。軽量GRUサマリーは効率的なクロスモーダルアテンションを可能にし、タイムエージェントトークンに対する社会的アテンションは、管理可能なコストで歩行者間の影響をキャプチャする。道路交通データセットにおけるJTA,JRDB,および歩行者・自転車に関する実験は,実世界のデータセット(JRDB,Urban)の最先端性能とJTAの競争結果を示している。アブレーションと定性的分析は、各ステージの寄与とモデルが早期回転のような複雑な振る舞いを予測できる能力を確認する。

関連論文リスト

Optimization-Guided Diffusion for Interactive Scene Generation [52.23368750264419]
本稿では,拡散型サンプリングにおける構造的一貫性と相互作用認識を実現するための,最適化誘導型トレーニングフリーフレームワークであるOMEGAを提案する。 OMEGAは生成リアリズム,一貫性,可制御性を向上し,身体的および行動学的に有効なシーンの比率を増大させることを示す。当社のアプローチでは,3秒未満の時間対コリションで,より近いコリジョンフレームを5ドル(約5,500円)で生成することも可能だ。
論文参考訳（メタデータ） (2025-12-08T15:56:18Z)
ACIT: Attention-Guided Cross-Modal Interaction Transformer for Pedestrian Crossing Intention Prediction [3.878105750489656]
本稿では,歩行者横断意図予測のための注意誘導型クロスモーダル・インタラクション・トランス (ACIT) を提案する。 ACITは6つの視覚的モダリティと運動的モダリティを活用し、3つの相互作用ペアにグループ化される。 ACITは最先端の手法より優れており、JAADbehとJAADallのデータセットで70%と89%の精度を達成する。
論文参考訳（メタデータ） (2025-11-25T07:41:11Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)
A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。 DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。 RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文参考訳（メタデータ） (2023-03-22T02:47:42Z)
Robust Trajectory Forecasting for Multiple Intelligent Agents in Dynamic Scene [11.91073327154494]
動的シーンにおける複数エージェントのロバストな軌道予測手法を提案する。提案手法は予測精度の点で最先端の予測手法より優れている。
論文参考訳（メタデータ） (2020-05-27T02:32:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。