論文の概要: Bridging Semantics and Physical Execution: A Neuro-Symbolic Framework for Multi-Pair Robotic Assembly
- arxiv url: http://arxiv.org/abs/2606.10808v1
- Date: Tue, 09 Jun 2026 12:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.032866
- Title: Bridging Semantics and Physical Execution: A Neuro-Symbolic Framework for Multi-Pair Robotic Assembly
- Title(参考訳): ブリッジング・セマンティクスと身体的実行:多対ロボット組み立てのためのニューロ・シンボリック・フレームワーク
- Authors: Xinyi Li, Aiguo Song, Linhu Wei, Huijun Li,
- Abstract要約: 非構造環境における多対ロボット組立体は空間的干渉や接触の不確実性に直面している。
既存のパラダイムは、認知的な意思決定と物理的な実行を橋渡ししない。
本稿では,この課題を階層的に解決するエンドツーエンドのニューロシンボリック・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.293038377091086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-pair robotic assembly in unstructured environments faces spatial interference and contact uncertainties. Existing paradigms fail to bridge cognitive decision-making and physical execution, as they either encounter state-space explosion and knowledge bottlenecks or suffer from logical hallucinations and topological conflicts. We propose an end-to-end neuro-symbolic framework that solves the challenge hierarchically: generating optimal subgraphs for each pair, decoupling generality from edge cases, and then resolving cross-pair interferences. Given an eye-on-hand RGB-D assembly scene, the framework extracts semantic instance identity and state while quantifying the scene for divergence calculation. For each pair, optimal subgraph is generated via LLM using barely basic actions to mitigate hallucinations. Supportive actions for edge cases are reasoned and inserted with a lightweight discriminator. Driven by the divergence between the quantified baseline and current scene, it is easily extensible at low cost. Augmented subgraphs are topologically coordinated into global sequences while preserving internal behavioral coherence. Dynamic behavior trees embedding atomic skills close the force-aware execution loop. Offline evaluation on 100 real-world scenes achieves 97.00% global executability, outperforming classical and state-of-the-art planners. Real-robot deployment on a UR3 arm attains 90% success rate with 0.5 mm tolerance under strong interference, demonstrating a unified and verifiable solution for complex autonomous assembly.
- Abstract(参考訳): 非構造環境における多対ロボット組立体は空間的干渉や接触の不確実性に直面している。
既存のパラダイムは、国家空間の爆発や知識のボトルネックに遭遇するか、論理的な幻覚やトポロジカルな対立に悩まされるため、認知的な意思決定と物理的実行を橋渡しすることができない。
本稿では,各ペアに対して最適な部分グラフを生成し,エッジケースから一般性を分離し,ペア間の干渉を解消するという課題を階層的に解決する,エンドツーエンドのニューロシンボリックフレームワークを提案する。
フレームワークは、目の前のRGB-Dアセンブリシーンを付与し、分散計算のシーンを定量化しながら、セマンティックインスタンスのアイデンティティと状態を抽出する。
各ペアについて、最適部分グラフは、幻覚を緩和するためにほとんど基本的な作用を用いてLSMを介して生成される。
エッジケースに対するサポートアクションは推論され、軽量な識別器で挿入される。
定量化されたベースラインと現在のシーンのばらつきによって駆動されるため、低コストで容易に拡張可能である。
拡張された部分グラフは、内部の挙動コヒーレンスを保持しながら、グローバルなシーケンスにトポロジ的にコーディネートされる。
原子スキルを埋め込んだ動的挙動木は、強制認識実行ループを閉じます。
100の現実世界のシーンのオフライン評価は97.00%の世界的実行可能性を実現し、古典的、最先端のプランナーを上回っている。
UR3アームへの実ロボットの配備は、強い干渉下で0.5mmの耐久力で90%の成功率を獲得し、複雑な自律アセンブリのための統一的で検証可能なソリューションを実証する。
関連論文リスト
- Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation [98.79811866787263]
診断メタ評価フレームワークであるMetaFineを紹介する。
局所的な空間構造を保存できる視覚エンコーダの能力は,きめ細かな精度の鍵となるボトルネックである。
評価をランキングから診断にシフトすることで、MetaFineは、ベンチマークを実際の物理デキスタリティに基づく階層化された能力の修復のための実行可能なコンパスに変換する。
論文 参考訳(メタデータ) (2026-05-19T15:25:13Z) - Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing [1.2036262042590717]
各関節が制御ステップごとにどれだけ速く動けるかは、避けられない。
既存の方法は等方性球形の制約を課し、指数関数的に真の実現可能な集合を覆い隠す。
本稿では,ダイナミックデカップリング型球状ラジアルスクアッシング(DD-SRad)を提案する。
Unitree H1とG1のヒューマノイドロボットによる実験は、公式な共同仕様から直接パラメータ化されたエンドツーエンドの最適性を確認する。
論文 参考訳(メタデータ) (2026-05-05T18:24:46Z) - CLASP: Closed-loop Asynchronous Spatial Perception for Open-vocabulary Desktop Object Grasping [11.536272883557041]
本稿では,マルチモーダル認識,論理的推論,状態反射フィードバックを統合した非同期クローズドループフレームワークを提案する。
提案手法は多種多様な物体をまたいだ顕著な一般化を示し, sim-to-realのギャップを埋め, 例外的な堅牢性を提供する。
論文 参考訳(メタデータ) (2026-04-13T11:22:37Z) - DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph [23.060488218180936]
We present UniManip, a framework based on a Bi-level Agentic Operational Graph (AOG)
タスクオーケストレーションのための高レベルのエージェント層と、動的状態表現のための低レベルのScene Layerを結合することにより、システムは、抽象的な計画と幾何学的制約を継続的に整合させる。
実験では、未確認のオブジェクトやタスクに対するシステムの堅牢なゼロショット能力を評価し、最先端のVLAや階層的なベースラインと比較して22.5%と25.0%の成功率を示した。
論文 参考訳(メタデータ) (2026-02-13T16:47:26Z) - TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement [37.77903164878976]
TRACER は Texture-Robust Affordance Chain-of- Thought with dEformable-object Refinement framework である。
セマンティック推論から外見が損なわれ、物理的に一貫した機能領域の洗練まで、階層横断的なマッピングを提供する。
Fine-AGDDO15データセットと実世界のロボットプラットフォームで実施された実験は、TRACERが精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-01-28T03:12:18Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Object-centric proto-symbolic behavioural reasoning from pixels [0.0]
我々は、ピクセルから学習し、その環境を解釈し、制御し、推論する脳に触発されたディープラーニングアーキテクチャを提案する。
その結果,エージェントは創発的条件付き行動推論を学習できることがわかった。
提案アーキテクチャは、教師なし学習における重要な帰納バイアスとして、接地オブジェクト表現の操作方法を示す。
論文 参考訳(メタデータ) (2024-11-26T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。