論文の概要: MVOFormer: Flow-Semantic Transformer for Robust Monocular Visual Odometry
- arxiv url: http://arxiv.org/abs/2606.16474v1
- Date: Mon, 15 Jun 2026 09:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.346992
- Title: MVOFormer: Flow-Semantic Transformer for Robust Monocular Visual Odometry
- Title(参考訳): MVOFormer:ロバストな単眼視眼用フロー・セマンティック・トランス
- Authors: Jituo Li, Shunwang Sun, Jialu Zhang, Xinqi Liu, Jinyao Hu, Zhicheng Lu, Sajad Saeedi, Guodong Lu,
- Abstract要約: MVOFormerは、ロバストなモノクラービジュアルオドメトリーのための新しいトランスフォーマーフレームワークである。
MVOFormerは、より優れたゼロショットの一般化とロバスト性を実現し、事前学習ベースのフレーム・ツー・フレーム法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 11.059456227749914
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular visual odometry (MVO) is foundational to autonomous navigation and robotic localization. However, existing learning-based MVO approaches often struggle with either a lack of interpretable, complementary features or overly complex multi-stage architectures. These limitations inherently restrict their robustness and cross-domain generalization. In this work, we propose MVOFormer, a novel transformer framework for robust monocular visual odometry. Our architecture features a Flow-Semantic Dual Branch Encoder that synergizes dense geometric motion cues with object-centric semantic priors, explicitly distinguishing static structures from dynamic distractors. These representations are then fused by an Iterative Multimodal Decoder, enabling coarse-to-fine pose refinement while dynamically suppressing attention on unreliable regions. Extensive evaluations demonstrate that, without any target-domain fine-tuning, MVOFormer achieves superior zero-shot generalization and robustness, significantly outperforming prior learning-based frame-to-frame methods across diverse benchmarks including TartanAir, KITTI, TUM-RGBD, and ETH3D-SLAM.
- Abstract(参考訳): 単眼視覚計測(MVO)は自律ナビゲーションとロボット位置決めの基礎となる。
しかし、既存の学習ベースのMVOアプローチは、解釈可能で補完的な特徴の欠如や、過度に複雑なマルチステージアーキテクチャに悩まされることが多い。
これらの制限は本質的にその堅牢性とクロスドメインの一般化を制限する。
本研究では,ロバストな単眼視覚計測のための新しいトランスフォーマーフレームワークであるMVOFormerを提案する。
我々のアーキテクチャはフロー・セマンティック・デュアル分岐エンコーダ(Flow-Semantic Dual Branch Encoder)を特徴としている。
これらの表現はイテレーティブ・マルチモーダル・デコーダによって融合され、粗いポーズの精細化を可能にし、信頼性の低い領域への注意を動的に抑制する。
MVOFormerは、ターゲットドメインの微調整がなければ、ゼロショットの一般化とロバスト性が向上し、TartanAir、KITTI、TUM-RGBD、ETH3D-SLAMといった様々なベンチマークにおいて、事前学習ベースのフレーム・ツー・フレーム法よりも大幅に優れていた。
関連論文リスト
- TurboVGGT: Fast Visual Geometry Reconstruction with Adaptive Alternating Attention [21.29668311125256]
TurboVGGTは、高速なマルチビュー3D再構成のために適応的注目を交互に行う効率的な視覚幾何学変換器を採用している。
適応的疎大なグローバルな注目の中で、TurboVGGTはグローバル幾何モデリングのための様々な空間レベルを持つ代表トークンを適応的に学習する。
複数の3次元再構成ベンチマーク実験により,TurboVGGTは高速な多視点再構成を実現し,競争力のある再構成品質を維持した。
論文 参考訳(メタデータ) (2026-05-14T03:24:09Z) - PoseFM: Relative Camera Pose Estimation Through Flow Matching [0.0]
フローマッチング(FM)を用いた単眼フレーム間VOを生成タスクとして再構成するフレームワークであるPoseFMを提案する。
FM を利用して,カメラの動きを点推定ではなく分布としてモデル化し,連続時間ODE を用いて雑音をリアルなポーズ予測に変換する。
評価において,PoseFMはTartanAir,KITTI,TUM-RGBDベンチマークに対して高い性能を示し,トラジェクトリ上では最小の絶対軌道誤差(ATE)を達成した。
論文 参考訳(メタデータ) (2026-04-24T08:36:53Z) - Hierarchical Granularity Alignment and State Space Modeling for Robust Multimodal AU Detection in the Wild [12.893641381621459]
階層的粒度アライメントと状態空間モデルによって駆動される新しいマルチモーダルフレームワークを提案する。
従来の時間畳み込みネットワークの受容的フィールド制限を、ビジョン・マンバアーキテクチャを導入して克服する。
このアプローチにより、O(N)線形複雑性を伴う時間的モデリングが可能となり、性能劣化を伴わずに超長距離力学を効果的に捉えることができる。
論文 参考訳(メタデータ) (2026-03-11T21:05:59Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。
我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。
我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T05:22:28Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving [5.450011907283289]
本稿では, GMF-Driveを紹介した。これは2つの原則的イノベーションを通じて, 課題を克服するエンドツーエンドフレームワークである。
まず、情報制限ヒストグラムに基づくLiDAR表現を、幾何学的に拡張された柱形式で置き換える。
第二に,高効率空間認識状態空間モデルを用いた高価な変圧器を代替する新しい階層型マンバ融合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-08T08:17:18Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。