論文の概要: BIT-Nav: Brain-Inspired Trajectory Memory for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2606.21398v1
- Date: Fri, 19 Jun 2026 13:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:40:18.886518
- Title: BIT-Nav: Brain-Inspired Trajectory Memory for Embodied Navigation
- Title(参考訳): BIT-Nav:脳にインスパイアされた身体ナビゲーションのための軌道メモリ
- Authors: Rithvik Jonna, Aakash Gurram, Man Namgung, Wyatt Mackey, Tinoosh Mohsenin,
- Abstract要約: BIT-Nav(Brain-Inspired Trajectory Memory for Navigation)は,凍結したVLMナビゲーションパイプラインを学習用トラジェクトリメモリで拡張するフレームワークである。
BIT-Navは、同一の行動意図を共有する軌道上での多陽性InfoNCEの対照的な目的を通じて、行動と相対的なポーズ配列についてBi-GRUエンコーダを訓練する。
結果として得られる埋め込みは、軽量なプレフィックスを介してVLMトークン空間に投影され、各決定ステップで単一のメモリトークンとして注入される。
- 参考スコア(独自算出の注目度): 0.11744028458220425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) for embodied navigation rely on selecting a fixed number of frames from a growing trajectory history. As episodes extend, this selection grows increasingly sparse, yet prior work shows no accuracy gain when scaling from 8 to 64 frames, suggesting the bottleneck is not frame quantity but the representation itself. Sparse frame selection cannot capture the structured behavioral signal that long-horizon reasoning requires: turning patterns, cumulative displacement, and path topology. We introduce BIT-Nav (Brain-Inspired Trajectory Memory for Navigation), a framework that augments frozen VLM navigation pipelines with a compact learned trajectory memory. Motivated by hippocampal path integration, where spatial experience is compressed into structured episodic traces rather than stored as raw sensory replay, BIT-Nav trains a Bi-GRU encoder over action and relative pose sequences via a multi-positive InfoNCE contrastive objective on trajectory prefixes sharing the same behavioral intent. The resulting embedding is projected into the VLM token space via a lightweight MLP and injected as a single memory token at each decision step, conditioning the model on structured motion history at constant token cost regardless of episode length
- Abstract(参考訳): ボディードナビゲーションのための視覚言語モデル(VLM)は、成長する軌跡履歴から一定数のフレームを選択することに依存する。
エピソードが拡大するにつれて、この選択はますます疎化していくが、以前の作業では8フレームから64フレームまでのスケーリングでは精度が向上せず、ボトルネックはフレーム量ではなく表現そのものであることを示唆している。
スパースフレームの選択は、パターンの回転、累積変位、パストポロジーといった、長い水平推論で要求される構造的行動信号を捉えることができない。
BIT-Nav(Brain-Inspired Trajectory Memory for Navigation)は,凍結したVLMナビゲーションパイプラインを学習用トラジェクトリメモリで拡張するフレームワークである。
BIT-Navは、海馬の経路統合により、空間体験を生の感覚リプレイではなく構造的エピソードトレースに圧縮する。BIT-Navは、同一の行動意図を共有する軌跡の接頭辞において、多陽性のInfoNCEコントラスト目的を介して、行動と相対的なポーズ配列についてBi-GRUエンコーダを訓練する。
得られた埋め込みは、軽量MLPを介してVLMトークン空間に投影され、各決定ステップで単一のメモリトークンとして注入される。
関連論文リスト
- AgenticNav: Zero-Shot Vision-and-Language Navigation as a Tool-Calling Harness [5.851139427049915]
連続環境(VLN-CE)におけるゼロショット視覚言語ナビゲーションは,近年,大規模視覚言語モデル(VLM)で実現可能になった。
本稿では,ゼロショットVLN-CEを,VLMと環境とのエージェントインタフェースとして再考する。
我々は、アクション、深さ、メモリを呼び出し可能なツールとして公開する軽量なナビゲーションハーネスであるAgenticNavを紹介します。
論文 参考訳(メタデータ) (2026-06-09T08:43:05Z) - EvoMemNav: Efficient Self-Evolving Fine-Grained Memory for Zero-Shot Embodied Navigation [81.54723508469617]
EvoMemNavは、ゼロショットエンボディナビゲーションのための効率的で自己進化的できめ細かいメモリフレームワークである。
VSMGraphは、セマンティックキューとトポロジ的関係を持つビューをルームビューオブジェクト階層に整理する。
GOAT-BenchとHM3Dのオブジェクト、テキスト記述、画像ゴールのモダリティによる実験は、SR/SPLにおいて一貫した利得を示している。
論文 参考訳(メタデータ) (2026-06-02T11:27:44Z) - Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System [9.687946545604492]
大規模都市環境における視覚・言語ナビゲーション (VLN) は、複雑な場面で言語指導を行うための具体的エージェントを必要とする。
階層型空間認識長短メモリシステムである textbfMem4Nav を導入し,任意のVLNバックボーンを拡張できる。
論文 参考訳(メタデータ) (2025-06-24T09:00:43Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。