Fugu-MT 論文翻訳(概要): Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning

論文の概要: Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning

arxiv url: http://arxiv.org/abs/2606.12910v2
Date: Fri, 12 Jun 2026 03:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 13:53:03.599951
Title: Bounding Boxes as Goals: Language-Conditioned Grasping via Neuro-Symbolic Planning
Title（参考訳）: ゴールとしてのボックスの境界:ニューロシンボリックプランニングによる言語記述型グラスピング
Authors: Allison Andreyev, Landon Eum, Nestor Tiglao, Romel Gomez,
Abstract要約: 本稿では,オープン語彙テーブルトップ操作へのステップとして設計されたGRASP(Grounded Reasoning and Symbolic Planning)を提案する。固定色リストやハードコード座標に依存する方法とは異なり、GRASPはロボットが抽象空間概念を解釈できるようにする。我々は、タスク固有のトレーニングを必要とせず、3つの難易度で90個の実ロボット試験で73.3%の総合的な成功を達成した。
参考スコア（独自算出の注目度）: 0.3262230127283452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For robotics to be effectively integrated into household or industrial environments, machines must adapt to natural-language prompts in real time. Although Vision-Language Models (VLMs) have enabled zero-shot generalization in robot task and motion planning (TAMP), current state-of-the-art approaches often remain computationally "heavyweight" or require extensive training on thousands of demonstrations. We present GRASP (Grounded Reasoning and Symbolic Planning), a framework designed as a step toward open-vocabulary tabletop manipulation. Our approach leverages a pretrained VLM to translate natural-language queries into neuro-symbolic goal states, grounded in the physical world via a bounding-box detection pipeline. Unlike methods that rely on fixed color lists or hard-coded coordinates, GRASP enables robots to interpret abstract spatial concepts such as "top shelf" and execute tasks without additional fine-tuning. We achieve 73.3% overall success across 90 real-robot trials at three difficulty levels, requiring no task-specific training.
Abstract（参考訳）: ロボットが家庭や工業環境に効果的に統合されるためには、機械は自然言語のプロンプトにリアルタイムで適応する必要がある。 VLM(Vision-Language Models)は、ロボットタスクとモーションプランニング(TAMP)においてゼロショットの一般化を実現しているが、現在の最先端のアプローチは計算的に「重い」ままであり、数千のデモに対して広範な訓練を必要とすることが多い。本稿では,オープン語彙テーブルトップ操作へのステップとして設計されたGRASP(Grounded Reasoning and Symbolic Planning)を提案する。我々のアプローチは、訓練済みのVLMを利用して、バウンディングボックス検出パイプラインを介して物理世界に接する自然言語クエリをニューロシンボリックな目標状態に変換する。固定色リストやハードコード座標に依存する方法とは異なり、GRASPはロボットが「上棚」のような抽象的な空間概念を解釈し、追加の微調整なしでタスクを実行することを可能にする。我々は、タスク固有のトレーニングを必要とせず、3つの難易度で90個の実ロボット試験で73.3%の総合的な成功を達成した。

関連論文リスト

Build on Priors: Vision--Language--Guided Neuro-Symbolic Imitation Learning for Data-Efficient Real-World Robot Manipulation [4.118262876469644]
本稿では,象徴的計画領域とデータ効率制御ポリシを自律的に構築する,スケーラブルなニューロシンボリック・フレームワークを提案する。本手法は,実演をスキルに分割し,視覚言語モデル(VLM)を用いてスキルを分類する。既知のコントローラは、シーン内の他のオブジェクトに1つのデモを投影することで、実世界のデータ拡張に活用することができる。
論文参考訳（メタデータ） (2026-04-04T15:17:59Z)
Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。 G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文参考訳（メタデータ） (2025-10-09T09:08:33Z)
Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文参考訳（メタデータ） (2024-03-25T19:04:59Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Spatial-Language Attention Policies for Efficient Robot Learning [32.215861214516735]
本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。 SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。一つのモデルで8つのタスクにまたがる実世界の80%の成功率を示し、未確認な乱雑なオブジェクト構成を導入した場合、47.5%の成功率を示す。
論文参考訳（メタデータ） (2023-04-21T20:02:49Z)
SEAL: Semantic Frame Execution And Localization for Perceiving Afforded Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。 SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2023-03-24T15:25:41Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。