論文の概要: Rethinking Embodied Navigation via Relational Inductive Bias
- arxiv url: http://arxiv.org/abs/2606.10348v1
- Date: Tue, 09 Jun 2026 02:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.985893
- Title: Rethinking Embodied Navigation via Relational Inductive Bias
- Title(参考訳): リレーショナルインダクティブバイアスによる身体的ナビゲーションの再考
- Authors: Weitao An, Chenghao Xu, Xu Yang, Cheng Deng,
- Abstract要約: 本稿では,DB-Navを提案する。
標的中心の関係を活性化バイアスと抑制バイアスに分類する。
成功率(SR)と成功率(SPL)はパス長さ(SPL)が重み付けされているため、既存の方法よりも著しく優れています。
- 参考スコア(独自算出の注目度): 53.72276435022479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object navigation requires an agent to locate a target in an unknown environment through visual observations. Existing methods typically rely on open-vocabulary detectors or vision-language models (VLMs) to answer where to search, but often overlook what not to trust - which semantic cues are unreliable. Open-vocabulary perception is prone to systematic misleading evidence: false positives, outdated static priors, and repeated failed exploration due to lack of embodied verification, which contaminates mapping and decision-making. Such errors are rooted in structured object relations in real-world scenes. To address this, we propose DB-Nav, a framework that reshapes the search space via dual relational biases. It factorizes target-centric relations into an Activation Bias (propagates contextual evidence) and an Inhibition Bias (suppresses unreliable regions via perceptual confusion and action-level falsification). These biases are unified into a Relational Activation-Inhibition Exploration Graph that modulates frontier exploration values using online observations and failed accesses. Experiments on ObjectNav benchmarks show that DB-Nav significantly outperforms existing methods in success rate (SR) and Success weighted by Path Length (SPL), offering a lightweight, interpretable, and robust navigation framework without costly online VLM reasoning.
- Abstract(参考訳): オブジェクトナビゲーションでは、エージェントが視覚的な観察を通して未知の環境でターゲットを見つける必要がある。
既存の手法は通常、検索の場所を答えるためにオープン語彙検出器や視覚言語モデル(VLM)に依存するが、信頼できないもの - どのセマンティックキューが信頼できないのかを見落としてしまうことが多い。
オープン語彙の認識は、偽陽性、時代遅れの静的前兆、そしてマッピングと意思決定を汚染する具体的検証の欠如による探索の繰り返し失敗といった、体系的な誤解を招く証拠を引き起こす傾向にある。
このようなエラーは、現実世界のシーンにおける構造化されたオブジェクト関係に根ざしている。
そこで我々はDB-Nav(DB-Nav)を提案する。
標的中心の関係を、アクティベーションバイアス(文脈的証拠を伝播する)と抑制バイアス(知覚的混乱と行動レベルのファルシフィケーションを通じて信頼できない領域を抑圧する)に分解する。
これらのバイアスはRelational Activation-Inhibition Exploration Graphに統合され、オンライン観測とアクセス失敗を使用してフロンティア探索値を変調する。
ObjectNavベンチマークの実験は、DB-Navが既存の成功率(SR)と成功率(SPL)を著しく上回り、オンラインのVLM推論なしで軽量で解釈可能で堅牢なナビゲーションフレームワークを提供することを示している。
関連論文リスト
- ConsistNav: Closing the Action Consistency Gap in Zero-Shot Object Navigation with Semantic Executive Control [20.155796585668607]
ConsistNavは、トレーニング不要のゼロショットObjectNavフレームワークで、3つの調整済みモジュールからなるセマンティックエグゼクティブを中心に構築されている。
我々はHM3DとMP3Dの実験を行い、ConsistNavは結果を達成し、SRを11.4%改善し、SPLを7.9%改善した。
論文 参考訳(メタデータ) (2026-05-11T01:51:45Z) - SR-Nav: Spatial Relationships Matter for Zero-shot Object Goal Navigation [23.52929533412924]
ゼロショットのオブジェクトゴールナビゲーションは、エゴセントリックな観測のみを使用して、目に見えない環境で対象物を見つけることを目的としている。
近年の手法は、ナビゲーション性能を高めるために基礎モデルの理解と推論能力を活用している。
本研究では、観察と経験に基づく空間的関係をモデル化し、知覚と計画の両面を強化するフレームワークであるSpatial Relation-Aware Navigation (SR-Nav)を提案する。
論文 参考訳(メタデータ) (2026-03-19T03:09:32Z) - Nipping the Drift in the Bud: Retrospective Rectification for Robust Vision-Language Navigation [26.497706746023407]
BudVLNは、現在の状態分布に合わせて監視を構築することで、オンラインのロールアウトから学習するオンラインフレームワークである。
BudVLNは、分散シフトを一貫して軽減し、成功率とSPLの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T03:36:27Z) - DSCD-Nav: Dual-Stance Cooperative Debate for Object Navigation [63.439158093945956]
本研究では,姿勢に基づくクロスチェックとエビデンス対応仲裁に代えて,Dual-Stance Cooperative Debate Navigation (DSCD-Nav)を提案する。
HM3Dv1、HM3Dv2、MP3Dの実験では、探索冗長性を低減しつつ、成功と経路効率が一貫した改善を示した。
論文 参考訳(メタデータ) (2026-01-29T08:47:55Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - Think Locally, Explain Globally: Graph-Guided LLM Investigations via Local Reasoning and Belief Propagation [5.191980417814362]
LLMエージェントは、ほとんどの環境が静的で、必要な情報がモデルのコンテキストウインドウに適合する場合、排他的になる。
直腸型薬剤は、この体制では特に脆い。
本稿では,LLMが限定的な局所的エビデンスマイニングとラベリングを行うためのフレームワークであるEoGを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:27:19Z) - VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。
本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文 参考訳(メタデータ) (2025-04-25T00:22:17Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。