論文の概要: ObsGraph: Hierarchical Observation Representation for Embodied Reasoning and Exploration
- arxiv url: http://arxiv.org/abs/2606.24068v1
- Date: Tue, 23 Jun 2026 02:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.73362
- Title: ObsGraph: Hierarchical Observation Representation for Embodied Reasoning and Exploration
- Title(参考訳): ObsGraph: 身体的推論と探索のための階層的観察表現
- Authors: Taekbeom Lee, Youngseok Jang, Jeonghwa Heo, Jeongjun Choi, H. Jin Kim,
- Abstract要約: 身体的推論と探索は、ロボットにとってますます重要な能力と考えられている。
ObsGraphは、シーン表現、検索、探索を統一する観察中心の階層的なシーングラフである。
具体的推論と探索ベンチマークによる実験では、成功と効率が改善された。
- 参考スコア(独自算出の注目度): 19.57446817374314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied reasoning and exploration are increasingly considered crucial abilities for robots operating in complex and unfamiliar environments. To accomplish tasks in such settings, an agent must identify and acquire the information necessary for the task through exploration. We propose ObsGraph, an observation-centric hierarchical scene graph that unifies scene representation, retrieval, and exploration. It retains visual evidence and organizes it into room-view-object layers: rooms provide coarse semantic anchors, views preserve contextual object covisibility, and objects store fine-grained details. On top of this representation, we perform coarse-to-fine hierarchical retrieval under a bounded budget, and crucially use retrieval outcomes to structure the exploration candidate space--activating room-level exploration, view refinement, or frontier exploration--thereby tightly coupling representation, retrieval, and adaptive multi-scale exploration. Experiments across embodied reasoning and exploration benchmarks demonstrate improved success and efficiency, highlighting the benefits of structured scene representation and more targeted information gathering driven by identified evidence gaps.
- Abstract(参考訳): 身体的推論と探索は、複雑で不慣れな環境で動くロボットにとって、ますます重要な能力とみなされている。
このような環境でタスクを達成するためには、エージェントは探索を通じてタスクに必要な情報を特定し、取得する必要がある。
シーン表現,検索,探索を統一する観測中心の階層的なシーングラフである ObsGraph を提案する。
部屋は粗いセマンティックアンカーを提供し、ビューはコンテキストオブジェクトの可視性を保持し、オブジェクトはきめ細かい詳細を格納する。
この表現に加えて、我々は、境界予算の下で粗大な階層的検索を行い、探索結果を決定的に利用して、探索対象の空間-活動的な部屋レベルの探索、ビューリファインメント、フロンティア探索--を、密に結合した表現、検索、適応的なマルチスケール探索を構築する。
具体的推論と探索ベンチマークによる実験は、成功と効率の向上を示し、構造化されたシーン表現の利点と、識別された証拠ギャップによって引き起こされるより標的となる情報の収集を強調している。
関連論文リスト
- Beyond Task-Driven Features for Object Detection [2.5700571547896103]
本稿では,オブジェクト検出バックボーンに埋め込みを注入するアノテーション誘導機能拡張フレームワークを提案する。
野生生物とリモートセンシングデータセットにわたる実験は、複数の監督体制の下で分類、ローカライゼーション、データ効率を評価する。
論文 参考訳(メタデータ) (2026-04-04T19:34:13Z) - Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models [81.08295968057453]
本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
論文 参考訳(メタデータ) (2025-05-12T17:59:11Z) - ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。
提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。
本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-22T17:38:38Z) - Unsupervised Object Discovery: A Comprehensive Survey and Unified Taxonomy [6.346947904159397]
教師なしのオブジェクト発見は、一般に、ラベル付き例を必要とせず、視覚データ中のオブジェクトのローカライズおよび/または分類のタスクとして解釈される。
本調査では,既存のアプローチの詳細な調査を行い,課題と採用手法のファミリーに基づいて,この課題を体系的に分類する。
本稿では,共通データセットとメトリクスの概要を述べるとともに,評価プロトコルの違いによる手法の比較の課題について述べる。
論文 参考訳(メタデータ) (2024-10-30T21:22:48Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Task-Driven Graph Attention for Hierarchical Relational Object
Navigation [25.571175038938527]
大きなシーンにいる身体を持つAIエージェントは、オブジェクトを見つけるためにナビゲートする必要があることが多い。
対象ナビゲーションタスクHRON(hierarchical object navigation)の自然に現れる変種について検討する。
本稿では、シーングラフを入力の一部として使用し、グラフニューラルネットワークをバックボーンとして統合するソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-23T19:50:48Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。