論文の概要: AERMANI-PLACE: Language Guided Object Placement with Aerial Manipulators
- arxiv url: http://arxiv.org/abs/2606.14531v1
- Date: Fri, 12 Jun 2026 15:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.950985
- Title: AERMANI-PLACE: Language Guided Object Placement with Aerial Manipulators
- Title(参考訳): AERMANI-PLACE: 空中マニピュレータを用いた言語ガイドオブジェクト配置
- Authors: Sarthak Mishra, Ritama Sanyal, Rishabh Dev Yadav, Wei Pan, Spandan Roy,
- Abstract要約: AERMANI-PLACEは、空中マニピュレータを用いた言語誘導オブジェクト配置のためのフレームワークである。
シーン画像と自然言語の命令が与えられた場合、画像編集モデルは、オブジェクトがどこに置かれるべきかを示す視覚的マーカーを生成する。
提案手法を100の言語誘導型配置タスクの試験セットで評価し,実空操作プラットフォーム上での実行を成功例に示す。
- 参考スコア(独自算出の注目度): 2.4958074244519737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object placement is a fundamental component of aerial manipulation tasks, yet existing systems typically require the desired placement position to be specified explicitly in metric coordinates. Such interfaces are not intuitive and require users to reason about coordinate frames and scene geometry, making them difficult to use in practical deployments. In contrast, humans often communicate spatial goals through a combination of language and pointing gestures. Inspired by this observation, we present AERMANI-PLACE, a framework for language-guided object placement with aerial manipulators. Given a scene image and a natural language instruction, an image editing model generates a modified version of the scene containing a visual marker that indicates where the object should be placed. This marker is then grounded into the physical environment using depth observations to recover a metric place point, after which a placement trajectory is generated and executed by the aerial manipulator. We evaluate the proposed approach on a test set of 100 language-guided placement tasks and demonstrate successful execution on a real aerial manipulation platform. Experimental results show that the proposed method reliably infers placement locations from language instructions with an average success rate of 87\% on the test-set and transfers effectively to real-world aerial manipulation with an average success rate of 72\%. Video: https://youtu.be/SgwwgLBsv0g
- Abstract(参考訳): オブジェクト配置は空中操作タスクの基本的な構成要素であるが、既存のシステムは通常、メートル法座標で明示的に指定するために所望の配置位置を必要とする。
このようなインタフェースは直感的ではなく、ユーザーが座標フレームやシーン幾何学を推論する必要があるため、実際の配置での使用は困難である。
対照的に、人間は言語とポインティングジェスチャの組み合わせによって空間的目標を伝達することが多い。
この観測から着想を得たAERMANI-PLACEは,空中マニピュレータを用いた言語誘導物体配置のためのフレームワークである。
シーン画像と自然言語命令が与えられた場合、画像編集モデルは、オブジェクトがどこに置かれるべきかを示す視覚マーカーを含むシーンの修正版を生成する。
そして、このマーカーを深度観測を用いて物理的環境に接地して計量位置を復元し、その後、位置軌跡を発生させ、空中マニピュレータにより実行される。
提案手法は,100の言語誘導型配置タスクの試験セットに対して評価し,実際の航空操作プラットフォーム上での実行を成功例に示す。
実験結果から,提案手法は,テストセットの平均成功率87\%の言語命令から配置位置を確実に推測し,平均成功率72\%の実世界の空中操作に効果的に転送することを示した。
ビデオ:https://youtu.be/SgwwgLBsv0g
関連論文リスト
- AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow [2.7421027372734823]
AeroPlace-Flowは、言語ベースの空中オブジェクト配置のためのトレーニング不要のフレームワークである。
3次元幾何学的推論と物体の流れで視覚的視界を統一する。
事前に定義されたポーズやタスク固有のトレーニングを必要とせずに、実行可能な配置ターゲットを生成する。
論文 参考訳(メタデータ) (2026-03-08T17:39:13Z) - Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance [5.161531917413708]
ほとんどのRGBベースのナビゲーションシステムは、粗いメートルレベルの精度しか保証していない。
このギャップは、操作ポリシーがトレーニングデモの配布内で動作することを防ぐ。
我々は、ラストメーターナビゲーションのためのオブジェクト中心の模倣学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-12-11T23:35:05Z) - Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - Embodied Instruction Following in Unknown Environments [64.57388036567461]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。